論文の概要: Amplify Adjacent Token Differences: Enhancing Long Chain-of-Thought Reasoning with Shift-FFN
- arxiv url: http://arxiv.org/abs/2505.17153v1
- Date: Thu, 22 May 2025 11:27:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.616354
- Title: Amplify Adjacent Token Differences: Enhancing Long Chain-of-Thought Reasoning with Shift-FFN
- Title(参考訳): Amplify Adjacent Token differences: Enhancing Long Chain-of-Thought Reasoning with Shift-FFN
- Authors: Yao Xu, Mingyu Xu, Fangyu Lei, Wangtao Sun, Xiangrong Zeng, Bingning Wang, Guang Liu, Shizhu He, Jun Zhao, Kang Liu,
- Abstract要約: 完全なパラメータを持つ微調整LDMや、長いCoTデータに低いランクを持つLoRAは、サイクリック推論につながることが多い。
本稿では, Shift Feedforward Networks (Shift-FFN) を提案する。
複数の数学的推論タスクの実験により、LoRAとShift-FFNの組み合わせはより精度が高く、サイクル推論の速度が低いことを示す。
- 参考スコア(独自算出の注目度): 29.072106478351852
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, models such as OpenAI-o1 and DeepSeek-R1 have demonstrated remarkable performance on complex reasoning tasks through Long Chain-of-Thought (Long-CoT) reasoning. Although distilling this capability into student models significantly enhances their performance, this paper finds that fine-tuning LLMs with full parameters or LoRA with a low rank on long CoT data often leads to Cyclical Reasoning, where models repeatedly reiterate previous inference steps until the maximum length limit. Further analysis reveals that smaller differences in representations between adjacent tokens correlates with a higher tendency toward Cyclical Reasoning. To mitigate this issue, this paper proposes Shift Feedforward Networks (Shift-FFN), a novel approach that edits the current token's representation with the previous one before inputting it to FFN. This architecture dynamically amplifies the representation differences between adjacent tokens. Extensive experiments on multiple mathematical reasoning tasks demonstrate that LoRA combined with Shift-FFN achieves higher accuracy and a lower rate of Cyclical Reasoning across various data sizes compared to full fine-tuning and standard LoRA. Our data and code are available at https://anonymous.4open.science/r/Shift-FFN
- Abstract(参考訳): 近年,OpenAI-o1 や DeepSeek-R1 などのモデルでは,Long Chain-of-Thought (Long-CoT) 推論による複雑な推論タスクの性能が顕著に向上している。
この能力を学生モデルに蒸留することで性能が著しく向上するが、本論文では、完全なパラメータを持つ微調整LDMや、長いCoTデータ上の低ランクのLORAは、しばしばサイクル推論につながり、モデルが最大長まで繰り返し推論ステップを繰り返すことを見出した。
さらに分析したところ、隣接するトークン間の表現の差は、サイクル推論の傾向と相関していることがわかった。
この問題を軽減するために, シフトフィードフォワードネットワーク (Shift Feedforward Networks, Shift-FFN) を提案する。
このアーキテクチャは、隣接するトークン間の表現差を動的に増幅する。
複数の数学的推論タスクに関する大規模な実験により、Shift-FFNと組み合わせたLoRAは、完全な微調整や標準のLoRAと比較して、様々なデータサイズにわたるサイクル推論の精度と低い速度を達成することが示された。
私たちのデータとコードはhttps://anonymous.4open.science/r/Shift-FFNで公開されています。
関連論文リスト
- When More is Less: Understanding Chain-of-Thought Length in LLMs [53.77747102201451]
CoT推論は大規模言語モデル(LLM)の多段階推論能力を高める
しかし、ほとんどのモデルやタスクでは、CoT長の増加は一貫して推論精度の向上につながりますか?
本稿では, 推論ステップの数が増加するにつれて, 性能は向上するが, 最終的には低下する,というニュアンスな関係を観察する。
論文 参考訳(メタデータ) (2025-02-11T05:28:59Z) - FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。
いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-27T15:53:49Z) - Randomized Asymmetric Chain of LoRA: The First Meaningful Theoretical Framework for Low-Rank Adaptation [58.288682735160585]
Low-Rank Adaptation (LoRA) は、ファインチューニングモデルの一般的なテクニックである。
LoRAは、フルパラメータの微調整と比較すると、しばしば実行されます。
本稿では,LoRA手法の適応率を厳密に分析するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-10T18:51:53Z) - LANTERN: Accelerating Visual Autoregressive Models with Relaxed Speculative Decoding [30.630803933771865]
実験により,提案手法が投機的復号化よりも大幅に高速化されたことを示す。
LANTERNは、greedyデコーディングやランダムサンプリングと比較して、$mathbf1.75times$と$mathbf1.82times$のスピードアップを増大させる。
論文 参考訳(メタデータ) (2024-10-04T12:21:03Z) - Fine Tuning vs. Retrieval Augmented Generation for Less Popular Knowledge [15.553942864736989]
言語モデル(LM)は膨大な事実知識を記憶し、様々なタスクやドメインにまたがって強力なパフォーマンスを示す。
低頻度トピックにおけるLMの性能を高めるための2つの顕著なアプローチは、検索型拡張生成(RAG)と合成データに対する微調整(FT)である。
本稿では,質問応答タスクにおける低周波エンティティ処理におけるLMのカスタマイズに対するRAGとFTの影響について検討し,評価する。
論文 参考訳(メタデータ) (2024-03-03T08:07:55Z) - Enhancing Transformer RNNs with Multiple Temporal Perspectives [18.884124657093405]
本稿では、リカレントニューラルネットワーク(RNN)アーキテクチャに適用可能な新しいアプローチである、複数時間視点の概念を紹介する。
この方法は、以前遭遇したテキストの多様な時間的ビューを維持することを含み、コンテキストを解釈する言語モデルの能力を大幅に強化する。
論文 参考訳(メタデータ) (2024-02-04T22:12:29Z) - Parsimony or Capability? Decomposition Delivers Both in Long-term Time Series Forecasting [46.63798583414426]
時系列予測(LTSF)は時系列分析において重要なフロンティアである。
本研究は, 分析的および実証的な証拠から, 分解が過剰なモデルインフレーションを包含する鍵であることを実証する。
興味深いことに、時系列データの本質的なダイナミクスに分解を合わせることで、提案モデルは既存のベンチマークより優れている。
論文 参考訳(メタデータ) (2024-01-22T13:15:40Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。