論文の概要: Recall with Reasoning: Chain-of-Thought Distillation for Mamba's Long-Context Memory and Extrapolation
- arxiv url: http://arxiv.org/abs/2505.03320v2
- Date: Tue, 03 Jun 2025 06:56:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 06:43:18.593149
- Title: Recall with Reasoning: Chain-of-Thought Distillation for Mamba's Long-Context Memory and Extrapolation
- Title(参考訳): リコールとリコール:マンバの長期記憶と外挿の連鎖蒸留
- Authors: Junyu Ma, Tianqing Fang, Zhisong Zhang, Hongming Zhang, Haitao Mi, Dong Yu,
- Abstract要約: マンバの理論的無限コンテキストポテンシャルは、訓練の長さをはるかに超える配列が実際に限られている。
この研究は、単純なyet- EffectiveメソッドであるRecall with Reasoning (RwR)によって、Mambaの長文メモリ能力をアンロックすることを検討する。
- 参考スコア(独自算出の注目度): 49.90324927904521
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mamba's theoretical infinite-context potential is limited in practice when sequences far exceed training lengths. This work explores unlocking Mamba's long-context memory ability by a simple-yet-effective method, Recall with Reasoning (RwR), by distilling chain-of-thought (CoT) summarization from a teacher model. Specifically, RwR prepends these summarization as CoT prompts during fine-tuning, teaching Mamba to actively recall and reason over long contexts. Experiments on LONGMEMEVAL and HELMET show RwR boosts Mamba's long-context performance against comparable Transformer/hybrid baselines under similar pretraining conditions, while preserving short-context capabilities, all without architectural changes.
- Abstract(参考訳): マンバの理論的無限コンテキストポテンシャルは、訓練の長さをはるかに超える配列が実際に限られている。
本研究は,教師モデルからチェーン・オブ・ソート(CoT)の要約を蒸留することにより,Mambaの長期記憶能力をシンプルに解き放つ方法であるRecall with Reasoning(RwR)を探索する。
特にRwRは、CoTが微調整中に促すように、これらの要約を優先し、Mambaに長いコンテキストを積極的にリコールし、推論するように教える。
LONGMEMEVALとHELMETの実験では、RwRは、同じ事前訓練条件下でのトランスフォーマー/ハイブリッドベースラインに対するMambaの長いコンテキスト性能を向上し、短いコンテキスト能力を保ちながら、アーキテクチャの変更を伴わないことを示した。
関連論文リスト
- Manta: Enhancing Mamba for Few-Shot Action Recognition of Long Sub-Sequence [33.38031167119682]
数ショットのアクション認識では、ビデオの長いサブシーケンスは、アクション全体をより効果的に表現する。
最近のMambaは、長いシーケンスをモデリングする効率を示すが、MambaをFSARに直接適用することは、局所的な特徴モデリングとアライメントの重要性を見落としている。
これらの課題を解決するために,Matryoshka MAmba と CoNtrasTive LeArning フレームワーク (Manta) を提案する。
Mantaは、SSv2、Kineetics、UCF101、HMDB51などの著名なベンチマークで、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-12-10T13:03:42Z) - ReMamba: Equip Mamba with Effective Long-Sequence Modeling [50.530839868893786]
本研究では,長い文脈の理解能力を高めるReMambaを提案する。
ReMambaは2段階のプロセスで選択的圧縮と適応のテクニックを取り入れている。
論文 参考訳(メタデータ) (2024-08-28T02:47:27Z) - DeciMamba: Exploring the Length Extrapolation Potential of Mamba [89.07242846058023]
本研究では,マンバに特化して設計された文脈拡張手法であるDeciMambaを紹介する。
実世界の長距離NLPタスクに対する実験では、DeciMambaはトレーニング中に見られるものよりも、コンテキスト長に格段に長く当てはまることが示されている。
論文 参考訳(メタデータ) (2024-06-20T17:40:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。