論文の概要: CoMeT: Collaborative Memory Transformer for Efficient Long Context Modeling
- arxiv url: http://arxiv.org/abs/2602.01766v1
- Date: Mon, 02 Feb 2026 07:49:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.991844
- Title: CoMeT: Collaborative Memory Transformer for Efficient Long Context Modeling
- Title(参考訳): CoMeT: 効率的な長期モデリングのための協調記憶変換器
- Authors: Runsong Zhao, Shilei Liu, Jiwei Tang, Langming Liu, Haibin Chen, Weidong Zhang, Yujin Yuan, Tong Xiao, Jingbo Zhu, Wenbo Su, Bo Zheng,
- Abstract要約: 本稿では,LLMがメモリ使用量と線形時間複雑度を一定に保ちながら任意の長いシーケンスを処理できる新しいアーキテクチャを提案する。
CoMeTは最小限の微調整で事前訓練されたモデルに統合できる。
CoMeTと32kコンテキストに微調整されたモデルでは、1Mトークンシーケンス内の任意の位置からパスキーを正確に取得することができる。
- 参考スコア(独自算出の注目度): 40.705016911274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The quadratic complexity and indefinitely growing key-value (KV) cache of standard Transformers pose a major barrier to long-context processing. To overcome this, we introduce the Collaborative Memory Transformer (CoMeT), a novel architecture that enables LLMs to handle arbitrarily long sequences with constant memory usage and linear time complexity. Designed as an efficient, plug-in module, CoMeT can be integrated into pre-trained models with only minimal fine-tuning. It operates on sequential data chunks, using a dual-memory system to manage context: a temporary memory on a FIFO queue for recent events, and a global memory with a gated update rule for long-range dependencies. These memories then act as a dynamic soft prompt for the next chunk. To enable efficient fine-tuning on extremely long contexts, we introduce a novel layer-level pipeline parallelism strategy. The effectiveness of our approach is remarkable: a model equipped with CoMeT and fine-tuned on 32k contexts can accurately retrieve a passkey from any position within a 1M token sequence. On the SCROLLS benchmark, CoMeT surpasses other efficient methods and achieves performance comparable to a full-attention baseline on summarization tasks. Its practical effectiveness is further validated on real-world agent and user behavior QA tasks. The code is available at: https://anonymous.4open.science/r/comet-B00B/
- Abstract(参考訳): 標準変換器の二次的複雑さとキー値(KV)キャッシュは、長文処理において大きな障壁となる。
これを解決するために,LLMが一定メモリ使用量と線形時間複雑度で任意に長いシーケンスを処理できる新しいアーキテクチャであるCollaborative Memory Transformer (CoMeT)を導入する。
効率的なプラグインモジュールとして設計されたCoMeTは、最小限の微調整で事前訓練されたモデルに統合できる。
シーケンシャルなデータチャンクで動作し、コンテキストを管理するためにデュアルメモリシステムを使用し、最近のイベントのFIFOキュー上の一時的なメモリと、長距離依存関係のゲート更新ルールを備えたグローバルメモリを使用する。
これらの記憶は、次のチャンクのダイナミックなソフトプロンプトとして機能する。
極めて長いコンテキストで効率的な微調整を可能にするため、我々は新しい階層レベルのパイプライン並列化戦略を導入する。
1Mトークンシーケンス内の任意の位置からパスキーを正確に取得できるCoMeTと32kコンテキストを微調整したモデルの有効性が注目に値する。
SCROLLSベンチマークでは、CoMeTは他の効率的なメソッドを超え、要約タスクのフルアテンションベースラインに匹敵するパフォーマンスを達成する。
実世界のエージェントとユーザ行動QAタスクに対して,その実用性をさらに検証する。
コードは以下の通り。 https://anonymous.4open.science/r/comet-B00B/
関連論文リスト
- Gated Associative Memory: A Parallel O(N) Architecture for Efficient Sequence Modeling [0.0]
Gated Associative Memory (GAM) ネットワークは、シーケンスモデリングのための新しい完全に並列なアーキテクチャである。
我々はGAMをゼロから実装し、標準的なトランスフォーマーモデルと現代的な線形時間ベースラインに対して厳密な比較分析を行う。
我々の実験は、GAMは一貫して高速で、トレーニング速度のベースラインの両方を上回り、全てのデータセットで優れた、または競争力のある最終バリデーションの難しさを達成できることを示した。
論文 参考訳(メタデータ) (2025-08-30T20:59:46Z) - Sliding Window Attention Training for Efficient Large Language Models [55.56483740523027]
SWATを導入し,スライディングウインドウ・アテンション・トレーニング(Sliding Window Attention Training)を用いて,より効率的な長文処理を実現する。
本稿ではまず,変圧器の非効率性を注目シンク現象とみなす。
我々は、ソフトマックスをシグモイド関数に置き換え、効率的な情報圧縮と保持のためにバランスの取れたALiBiとRotary Position Embeddingを利用する。
論文 参考訳(メタデータ) (2025-02-26T05:31:44Z) - MoM: Linear Sequence Modeling with Mixture-of-Memories [11.7218875689111]
我々はMixture-of-Memories (MoM)と呼ばれる新しいアーキテクチャを導入する。
MoMは複数の独立したメモリ状態を利用し、ルータネットワークは入力トークンを特定のメモリ状態に誘導する。
MoMは、既存の線形シーケンスモデリング技術を超え、リコール集約タスクにおいて非常によく機能する。
論文 参考訳(メタデータ) (2025-02-19T12:53:55Z) - Logarithmic Memory Networks (LMNs): Efficient Long-Range Sequence Modeling for Resource-Constrained Environments [0.0]
本稿では,階層型対数木構造を利用して過去の情報を効率的に保存・取得する新しいアーキテクチャである,対数記憶ネットワーク(LMN)を紹介する。
LMNは歴史的文脈を動的に要約し、注意機構のメモリフットプリントと計算複雑性を著しく低減する。
これらの特徴により、LMNsはリソース制約のある環境で長距離シーケンスを処理するための堅牢でスケーラブルなソリューションとなる。
論文 参考訳(メタデータ) (2025-01-14T07:50:09Z) - Mini-Sequence Transformer: Optimizing Intermediate Memory for Long Sequences Training [78.93900796545523]
ミニシーケンス変換器(Mini-Sequence Transformer, MsT)は、非常に長いシーケンスを持つ高速かつ高精度なLLMトレーニング手法である。
MsTは入力シーケンスを分割し、中間メモリ使用量を減らすためにミニシーケンスを反復的に処理する。
huggingfaceライブラリと統合され、MsTはQwen、Mistral、Gemma-2の最大コンテキスト長を12-24倍に拡張した。
論文 参考訳(メタデータ) (2024-07-22T01:52:30Z) - Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。
HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。
トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文 参考訳(メタデータ) (2024-04-16T06:34:08Z) - UniPT: Universal Parallel Tuning for Transfer Learning with Efficient
Parameter and Memory [69.33445217944029]
PETLは、トレーニング済みモデルを下流ドメインに適応するための効果的な戦略である。
最近のPETLは、より価値の高いメモリ効率特性に焦点を当てている。
メモリ効率の良い新しいPETL戦略Universal Parallel Tuning (UniPT)を提案する。
論文 参考訳(メタデータ) (2023-08-28T05:38:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。