論文の概要: ScaleFormer: Span Representation Cumulation for Long-Context Transformer
- arxiv url: http://arxiv.org/abs/2511.10029v1
- Date: Fri, 14 Nov 2025 01:27:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.650049
- Title: ScaleFormer: Span Representation Cumulation for Long-Context Transformer
- Title(参考訳): ScaleFormer:Long-Context Transformerのためのスパン表現の定式化
- Authors: Jiangshu Du, Wenpeng Yin, Philip Yu,
- Abstract要約: 本稿では,既訓練エンコーダ-デコーダモデルを用いて長いシーケンス処理を行うプラグイン・アンド・プレイフレームワークを提案する。
我々のアプローチは、長い入力を重なり合うチャンクに分割し、デコーダの圧縮されたコンテキスト認識表現を生成する。
長期文書要約実験により,本手法は最先端手法と高い競争力を示し,その性能は高いことがわかった。
- 参考スコア(独自算出の注目度): 9.845891949404534
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The quadratic complexity of standard self-attention severely limits the application of Transformer-based models to long-context tasks. While efficient Transformer variants exist, they often require architectural changes and costly pre-training from scratch. To circumvent this, we propose ScaleFormer(Span Representation Cumulation for Long-Context Transformer) - a simple and effective plug-and-play framework that adapts off-the-shelf pre-trained encoder-decoder models to process long sequences without requiring architectural modifications. Our approach segments long inputs into overlapping chunks and generates a compressed, context-aware representation for the decoder. The core of our method is a novel, parameter-free fusion mechanism that endows each chunk's representation with structural awareness of its position within the document. It achieves this by enriching each chunk's boundary representations with cumulative context vectors from all preceding and succeeding chunks. This strategy provides the model with a strong signal of the document's narrative flow, achieves linear complexity, and enables pre-trained models to reason effectively over long-form text. Experiments on long-document summarization show that our method is highly competitive with and often outperforms state-of-the-art approaches without requiring architectural modifications or external retrieval mechanisms.
- Abstract(参考訳): 標準的な自己注意の二次的な複雑さは、Transformerベースのモデルによる長期作業への適用を著しく制限する。
効率的なTransformerの派生型は存在するが、アーキテクチャの変更が必要であり、スクラッチからコストがかかる。
これを回避するために,既訓練のエンコーダデコーダモデルを用いて,アーキテクチャ変更を必要とせずに長いシーケンスを処理可能な,シンプルで効果的なプラグアンドプレイフレームワークであるScaleFormer(Span Representation Cumulation for Long-Context Transformer)を提案する。
我々のアプローチは、長い入力を重なり合うチャンクに分割し、デコーダの圧縮されたコンテキスト認識表現を生成する。
本手法のコアとなるのは,各チャンクの表現を文書内の位置を構造的に認識する,新しいパラメータフリー融合機構である。
これは、各チャンクの境界表現を、先行および後続のチャンクから累積文脈ベクトルで豊かにすることにより達成される。
この戦略は、文書の物語の流れの強いシグナルをモデルに与え、線形複雑化を実現し、訓練済みのモデルが長文よりも効果的に推論できるようにする。
長期文書要約実験の結果,提案手法はアーキテクチャ変更や外部検索機構を必要とせず,最先端の手法よりも優れていることがわかった。
関連論文リスト
- Conv-like Scale-Fusion Time Series Transformer: A Multi-Scale Representation for Variable-Length Long Time Series [10.93942806756288]
トランスフォーマーベースのモデルには高度な時系列タスクがあるが、特徴冗長性と限定的な一般化機能に苦慮している。
本稿では,Conv-like ScaleFusion Transformerに基づくマルチスケール表現学習フレームワークを提案する。
我々のフレームワークは,最先端手法と比較して,優れた特徴独立性,冗長性の低減,予測および分類タスクの性能向上を実現している。
論文 参考訳(メタデータ) (2025-09-22T14:37:59Z) - LoViC: Efficient Long Video Generation with Context Compression [68.22069741704158]
百万単位のオープンドメインビデオに基づいてトレーニングされたDiTベースのフレームワークであるLoViCを紹介する。
当社のアプローチの核心はFlexFormerです。ビデオとテキストを統合された潜在表現に共同で圧縮する表現型オートエンコーダです。
論文 参考訳(メタデータ) (2025-07-17T09:46:43Z) - LOCOST: State-Space Models for Long Document Abstractive Summarization [76.31514220737272]
長いコンテキスト入力を持つ条件付きテキスト生成のための状態空間モデルに基づくエンコーダデコーダアーキテクチャであるLOCOSTを提案する。
計算複雑性が$O(L log L)$の場合、このアーキテクチャは疎注意パターンに基づく最先端モデルよりもはるかに長いシーケンスを処理できる。
論文 参考訳(メタデータ) (2024-01-31T15:33:37Z) - ChunkFormer: Learning Long Time Series with Multi-stage Chunked
Transformer [0.0]
オリジナルトランスフォーマーベースのモデルは、シーケンスに沿ったグローバル情報を検出するためのアテンションメカニズムを採用している。
ChunkFormerは、長いシーケンスを注意計算のために小さなシーケンスチャンクに分割する。
このようにして、提案モデルは、入力シーケンスの総長を変更することなく、局所情報と大域情報の両方を徐々に学習する。
論文 参考訳(メタデータ) (2021-12-30T15:06:32Z) - Beyond Self Attention: A Subquadratic Fourier Wavelet Transformer with Multi Modal Fusion [0.0]
変圧器のアテンション機構を代替するスペクトル技術について再検討する。
次世代変圧器モデルにおけるこの手法の包括的で斬新な改質について述べる。
論文 参考訳(メタデータ) (2021-11-25T18:03:41Z) - Long-Span Dependencies in Transformer-based Summarization Systems [38.672160430296536]
トランスフォーマティブベースのモデルは、文書要約を含む幅広い自然言語処理(nlp)タスクで最先端の結果を達成している。
これらのトランスベースのモデルの1つの問題は、入力長が増加するにつれてメモリと計算要件の点でうまくスケールしないことである。
本研究では,事前学習された大規模トランスフォーマーモデルを用いて,抽象的要約における長大な依存関係に対処する。
論文 参考訳(メタデータ) (2021-05-08T23:53:03Z) - Cluster-Former: Clustering-based Sparse Transformer for Long-Range
Dependency Encoding [90.77031668988661]
Cluster-Formerはクラスタリングベースの新しいスパーストランスであり、チャンクされたシーケンスにまたがって注意を向ける。
提案されたフレームワークは、Sliding-Window LayerとCluster-Former Layerの2つのユニークなタイプのTransformer Layerにピボットされている。
実験によると、Cluster-Formerはいくつかの主要なQAベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-09-13T22:09:30Z) - Cascaded Text Generation with Markov Transformers [122.76100449018061]
ニューラルテキスト生成における2つの主要なアプローチは、シリアルビームサーチデコーディングを使用した完全自己回帰モデルと、出力依存のない並列デコーディングを使用した非自己回帰モデルである。
本稿では,境界付きコンテキストを持つ条件付きランダムフィールドを並列にデコードできることに言及し,高品質な出力を生成するための効率的なカスケードデコード手法を提案する。
このアプローチでは,5つの機械翻訳データセットの既存の手法と比較して,競争力のある精度と速度のトレードオフを示す一方で,標準的な自己回帰トレーニングからのわずかな変更しか必要としない。
論文 参考訳(メタデータ) (2020-06-01T17:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。