論文の概要: Turbo Connection: Reasoning as Information Flow from Higher to Lower Layers
- arxiv url: http://arxiv.org/abs/2602.17993v1
- Date: Fri, 20 Feb 2026 05:01:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 18:01:41.231923
- Title: Turbo Connection: Reasoning as Information Flow from Higher to Lower Layers
- Title(参考訳): ターボ接続:高層から低層への情報フローとしての推論
- Authors: Mohan Tang, Sidi Lu,
- Abstract要約: 本稿では,複数の残差接続をルーティングすることで,固定深度制約を克服する新しいアーキテクチャであるTurboConnを紹介する。
TurboConnは、タスク固有の高原を克服するために、事前訓練されたLLMに統合することができる。
この結果から,計算経路の深さが推論能力の重要な要素であることを示す。
- 参考スコア(独自算出の注目度): 3.5406493340002303
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Complex problems, whether in math, logic, or planning, are solved by humans through a sequence of steps where the result of one step informs the next. In this work, we adopt the perspective that the reasoning power of Transformers is fundamentally limited by a fixed maximum number of steps along any latent path of computation. To address this, we introduce Turbo Connection (TurboConn), a novel architecture that overcomes the fixed-depth constraint by routing multiple residual connections from the higher-layer hidden states of each token $t$ to the lower layers of token $t+1$. Fine-tuning pre-trained LLMs with our method not only yields accuracy gains of 0.9% to over 10% on benchmarks like GSM8K, Parity, and multi-step arithmetic, but also demonstrates that the density of these backward connections is critical; our dense interaction significantly outperforms "sparse" alternatives that only pass a single hidden state or vector. Notably, TurboConn can be integrated into pre-trained LLMs to overcome task-specific plateaus: while a fine-tuned Qwen-3-1.7B achieves only 53.78% on Parity, adding our architectural modification enables the model to reach 100% accuracy, all without the necessity to retrain the full model from scratch or sophisticated curriculum learning. Our results provide strong empirical evidence that the depth of the computational path is a key factor in reasoning ability, also offering a new mechanism to enhance LLMs without significantly affecting generation latency.
- Abstract(参考訳): 数学、論理学、計画といった複雑な問題は、あるステップの結果が次のステップに通知する一連のステップによって人間によって解決される。
本研究では,トランスフォーマーの推論能力は,計算の潜在経路に沿った最大ステップ数によって根本的に制限されるという観点を採用する。
この問題を解決するために、TurboConnection(TurboConn)という新しいアーキテクチャを導入する。TurboConnは、トークン$t$の高層隠れ状態からトークン$t+1$の下位層に複数の残余接続をルーティングすることで、固定深度制約を克服する。
GSM8K, Parity, マルチステップ演算などのベンチマークでは, 精度が0.9%から10%以上向上するだけでなく, これらの後方接続の密度が重要であることを示す。
微調整されたQwen-3-1.7BはParityで53.78%しか達成できないのに対して、アーキテクチャの変更により、完全なモデルをスクラッチや洗練されたカリキュラム学習から再トレーニングする必要なく、100%の精度でモデルに到達することが可能になった。
この結果から,計算経路の深さが推論能力の重要な要素であることの証明が得られた。
関連論文リスト
- A Fano-Style Accuracy Upper Bound for LLM Single-Pass Reasoning in Multi-Hop QA [65.38186593873313]
MHQA(Multi-Hop Question Answering)は、ノイズ下でのシーケンシャルな推論を通じて、分散した相互依存的な証拠を統合する必要がある。
我々はMHQAのための概念実証マルチコールフレームワークをInfoQAで紹介する。
我々は、理論とフレームワークを検証するために、厳密で騒音に富んだベンチマークを構築した。
論文 参考訳(メタデータ) (2025-09-25T14:11:57Z) - R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [80.104336426172]
CoT(Chain-of- Thought)は、大規模言語モデルの問題解決能力を高める。
CoTは長い自己回帰軌道のためにかなりの推論コストを発生させる。
トレーニング不要なハイブリッドデコーディングフレームワークであるR-Stitchを紹介する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - How to Train Your LLM Web Agent: A Statistical Diagnosis [96.86317871461834]
LLMウェブエージェントのポストトレーニングにおける計算割当に関する統計学的基礎研究について述べる。
提案手法では,Llama 3.1 8Bの学生を対象に,教師付き微調整(SFT)とオンライン強化学習を用いて,Llama 3.3 70Bの教師を模倣する2段階のパイプラインを用いた。
以上の結果から,SFTとオンラインRLの組み合わせは,WorkArenaとMiniWob++のいずれにおいても,単独でのアプローチよりも一貫して優れていた。
論文 参考訳(メタデータ) (2025-07-05T17:12:33Z) - Parameter-efficient Tuning of Large-scale Multimodal Foundation Model [68.24510810095802]
我々はこれらの課題を克服するために、クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。
既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて0.1Mのトレーニング可能なパラメータを生成し、マルチモーダルプロンプトチューニングを実装する。
6つのクロスモーダルベンチマークの徹底的な評価は、最先端のベンチマークを上回るだけでなく、完全な微調整アプローチよりも優れていることを示している。
論文 参考訳(メタデータ) (2023-05-15T06:40:56Z) - QuaLA-MiniLM: a Quantized Length Adaptive MiniLM [5.36703735486629]
限られた計算予算は、トランスフォーマーを生産に使用せず、高い精度で使用することを防ぐことが多い。
知識蒸留法では、BERTを自己蒸留して、より少ない層と少ない内部埋め込みを持つより小さな変換器表現に変換することにより、計算効率に対処する。
Dynamic-TinyBERTは、Longth Adaptive Transformer (LAT) 技術をTinyBERTに部分的に実装し、最小限の精度でBERTベース上でx3スピードアップする。
我々は,LAT法と併用してMiniLM蒸留を行い,低ビット量子化を適用して効率をさらに高めている。
論文 参考訳(メタデータ) (2022-10-31T07:42:52Z) - Transkimmer: Transformer Learns to Layer-wise Skim [17.188613474427054]
Transformerベースのモデルの主要な計算非効率の1つは、すべての層で同じ量の計算に費やしていることである。
本稿では,レイヤ毎に不要な隠れ状態トークンを識別するTranskimmerアーキテクチャを提案する。
スキミングされたトークンは直接最終出力に転送され、連続するレイヤの計算が削減される。
論文 参考訳(メタデータ) (2022-05-15T16:23:30Z) - ReZero is All You Need: Fast Convergence at Large Depth [14.729829527661966]
1つのゼロdパラメータを用いて各残余接続をゲーティングする最も単純なアーキテクチャ変更は、初期力学等尺性を満たすことを示す。
前者よりもはるかにシンプルだが、このゲートは高速収束で数千の完全に接続された層を訓練することができる。
論文 参考訳(メタデータ) (2020-03-10T17:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。