論文の概要: Recall with Reasoning: Chain-of-Thought Distillation for Mamba's Long-Context Memory and Extrapolation
- arxiv url: http://arxiv.org/abs/2505.03320v1
- Date: Tue, 06 May 2025 08:47:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.284803
- Title: Recall with Reasoning: Chain-of-Thought Distillation for Mamba's Long-Context Memory and Extrapolation
- Title(参考訳): リコールとリコール:マンバの長期記憶と外挿の連鎖蒸留
- Authors: Junyu Ma, Tianqing Fang, Zhisong Zhang, Hongming Zhang, Haitao Mi, Dong Yu,
- Abstract要約: マンバの理論的無限コンテキストポテンシャルは、訓練の長さをはるかに超える配列が実際に限られている。
この研究は、単純なyet- EffectiveメソッドであるRecall with Reasoning (RwR)によって、Mambaの長文メモリ能力をアンロックすることを検討する。
- 参考スコア(独自算出の注目度): 49.90324927904521
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mamba's theoretical infinite-context potential is limited in practice when sequences far exceed training lengths. This work explores unlocking Mamba's long-context memory ability by a simple-yet-effective method, Recall with Reasoning (RwR), by distilling chain-of-thought (CoT) summarization from a teacher model. Specifically, RwR prepends these summarization as CoT prompts during fine-tuning, teaching Mamba to actively recall and reason over long contexts. Experiments on LONGMEMEVAL and HELMET show RwR boosts Mamba's long-context performance against comparable Transformer/hybrid baselines under similar pretraining conditions, while preserving short-context capabilities, all without architectural changes.
- Abstract(参考訳): マンバの理論的無限コンテキストポテンシャルは、訓練の長さをはるかに超える配列が実際に限られている。
本研究は,教師モデルからチェーン・オブ・ソート(CoT)の要約を蒸留することにより,Mambaの長期記憶能力をシンプルに解き放つ方法であるRecall with Reasoning(RwR)を探索する。
特にRwRは、CoTが微調整中に促すように、これらの要約を優先し、Mambaに長いコンテキストを積極的にリコールし、推論するように教える。
LONGMEMEVALとHELMETの実験では、RwRは、同じ事前訓練条件下でのトランスフォーマー/ハイブリッドベースラインに対するMambaの長いコンテキスト性能を向上し、短いコンテキスト能力を保ちながら、アーキテクチャの変更を伴わないことを示した。
関連論文リスト
- Mamba-OTR: a Mamba-based Solution for Online Take and Release Detection from Untrimmed Egocentric Video [57.805927523341516]
Mamba-OTRは、短いビデオクリップでトレーニングしながら、推論中に時間的再発を利用するように設計されている。
Mamba-OTRは、スライドウインドウ方式で動作する際に、注目すべきmp-mAP45.48を達成する。
我々は,今後の研究を支援するため,Mamba-OTRのソースコードを公開します。
論文 参考訳(メタデータ) (2025-07-22T08:23:51Z) - LongMamba: Enhancing Mamba's Long Context Capabilities via Training-Free Receptive Field Enlargement [54.518582813434]
状態空間モデル(SSM)は、言語モデリングのためのTransformerモデルの効率的な代替として登場した。
近年の研究では、MambaモデルのようなSSMは、長文理解タスクのトランスフォーマーに比べて性能が低いことが示されている。
本研究では,マンバモデルの長文処理能力を大幅に向上させるトレーニングフリー手法であるLongMambaを提案する。
論文 参考訳(メタデータ) (2025-04-22T17:30:36Z) - Manta: Enhancing Mamba for Few-Shot Action Recognition of Long Sub-Sequence [33.38031167119682]
数ショットのアクション認識では、ビデオの長いサブシーケンスは、アクション全体をより効果的に表現する。
最近のMambaは、長いシーケンスをモデリングする効率を示すが、MambaをFSARに直接適用することは、局所的な特徴モデリングとアライメントの重要性を見落としている。
これらの課題を解決するために,Matryoshka MAmba と CoNtrasTive LeArning フレームワーク (Manta) を提案する。
Mantaは、SSv2、Kineetics、UCF101、HMDB51などの著名なベンチマークで、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-12-10T13:03:42Z) - Exploring the Limitations of Mamba in COPY and CoT Reasoning [9.024844892536327]
Mamba は,計算コストを大幅に削減しつつ,シーケンスモデリングにおける Transformer の性能にマッチすることを示す。
さらに,MambaがChain of Thought(CoT)タスクに取り組む能力について分析する。
以上の結果から,任意のDP問題を解くために,Mambaの総コストは標準変換器に匹敵することがわかった。
論文 参考訳(メタデータ) (2024-10-04T13:31:24Z) - ReMamba: Equip Mamba with Effective Long-Sequence Modeling [50.530839868893786]
本研究では,長い文脈の理解能力を高めるReMambaを提案する。
ReMambaは2段階のプロセスで選択的圧縮と適応のテクニックを取り入れている。
論文 参考訳(メタデータ) (2024-08-28T02:47:27Z) - DeciMamba: Exploring the Length Extrapolation Potential of Mamba [89.07242846058023]
本研究では,マンバに特化して設計された文脈拡張手法であるDeciMambaを紹介する。
実世界の長距離NLPタスクに対する実験では、DeciMambaはトレーニング中に見られるものよりも、コンテキスト長に格段に長く当てはまることが示されている。
論文 参考訳(メタデータ) (2024-06-20T17:40:18Z) - ReMamber: Referring Image Segmentation with Mamba Twister [51.291487576255435]
ReMamberは、マルチモーダルなMamba TwisterブロックとMambaのパワーを統合する新しいRISアーキテクチャである。
Mamba Twisterは画像とテキストのインタラクションを明示的にモデル化し、独自のチャネルと空間的ツイスト機構を通じてテキストと視覚的特徴を融合する。
論文 参考訳(メタデータ) (2024-03-26T16:27:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。