論文の概要: Think-at-Hard: Selective Latent Iterations to Improve Reasoning Language Models
- arxiv url: http://arxiv.org/abs/2511.08577v1
- Date: Wed, 12 Nov 2025 02:05:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.871048
- Title: Think-at-Hard: Selective Latent Iterations to Improve Reasoning Language Models
- Title(参考訳): Think-at-Hard: 推論言語モデルを改善するための選択的な遅延イテレーション
- Authors: Tianyu Fu, Yichen You, Zekai Chen, Guohao Dai, Huazhong Yang, Yu Wang,
- Abstract要約: シンク・アット・ハード(Think-at-Hard, TaH)は、ハードトークンでのみ深く反復する動的潜在思考法である。
TaHは5つの挑戦的なベンチマークで推論のパフォーマンスを向上する。
- 参考スコア(独自算出の注目度): 22.525318796588568
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Improving reasoning capabilities of Large Language Models (LLMs), especially under parameter constraints, is crucial for real-world applications. Prior work proposes recurrent transformers, which allocate a fixed number of extra iterations per token to improve generation quality. After the first, standard forward pass, instead of verbalization, last-layer hidden states are fed back as inputs for additional iterations to refine token predictions. Yet we identify a latent overthinking phenomenon: easy token predictions that are already correct after the first pass are sometimes revised into errors in additional iterations. To address this, we propose Think-at-Hard (TaH), a dynamic latent thinking method that iterates deeper only at hard tokens. It employs a lightweight neural decider to trigger latent iterations only at tokens that are likely incorrect after the standard forward pass. During latent iterations, Low-Rank Adaptation (LoRA) modules shift the LLM objective from general next-token prediction to focused hard-token refinement. We further introduce a duo-causal attention mechanism that extends attention from the token sequence dimension to an additional iteration depth dimension. This enables cross-iteration information flow while maintaining full sequential parallelism. Experiments show that TaH boosts LLM reasoning performance across five challenging benchmarks while maintaining the same parameter count. Compared with baselines that iterate twice for all output tokens, TaH delivers 8.1-11.3% accuracy gains while exempting 94% of tokens from the second iteration. Against strong single-iteration Qwen3 models finetuned with the same data, it also delivers 4.0-5.0% accuracy gains. When allowing less than 3% additional parameters from LoRA and the iteration decider, the gains increase to 8.5-12.6% and 5.3-5.4%, respectively. Our code is available at https://github.com/thu-nics/TaH.
- Abstract(参考訳): 大規模言語モデル(LLM)の推論能力の改善は、特にパラメータ制約の下では、現実世界のアプリケーションにとって不可欠である。
以前の作業では、生成品質を改善するためにトークン毎に一定数の追加イテレーションを割り当てるリカレントトランスフォーマーが提案されていた。
第一に、標準的なフォワードパスは、動詞化ではなく、最後の層隠れ状態がトークン予測を洗練するための追加イテレーションの入力として返される。
簡単なトークン予測は、最初のパス後にすでに修正されているが、追加のイテレーションでエラーに修正されることもある。
そこで我々は,ハードトークンのみを深く反復する動的潜在思考法であるThink-at-Hard (TaH)を提案する。
軽量なニューラル決定器を使用して遅延反復をトリガーし、標準のフォワードパス後に誤る可能性のあるトークンのみをトリガーする。
潜時繰り返しにおいて、ローランド適応 (LoRA) モジュールはLLMの目的を一般の次点予測から焦点を絞った強点修正へとシフトさせる。
さらに、トークン列次元から追加の反復深さ次元への注意を拡大する二重因果的注意機構を導入する。
これにより、完全なシーケンシャル並列性を維持しながら、クロスイテレーション情報フローが可能になる。
実験により、TaHは、同じパラメータ数を維持しながら、5つの挑戦的なベンチマークでLSM推論性能を向上することが示された。
すべての出力トークンを2回繰り返すベースラインと比較すると、TaHは8.1-11.3%の精度向上を実現し、第2イテレーションからトークンの94%を除外している。
同じデータで微調整された強力なシングルイテレーションQwen3モデルに対して、精度は4.0-5.0%向上する。
LoRAと反復判定器から3%未満の追加パラメータを許可すると、それぞれ8.5-12.6%と5.3-5.4%に上昇する。
私たちのコードはhttps://github.com/thu-nics/TaH.comで利用可能です。
関連論文リスト
- Continuous Autoregressive Language Models [56.49239051750678]
我々はCALM(Continuous Autoregressive Language Models)を紹介する。
CALMは高忠実度オートエンコーダを使用して、Kトークンの塊を1つの連続ベクトルに圧縮する。
我々は、堅牢なトレーニング、評価、および制御可能なサンプリングを可能にする包括的可能性のないフレームワークを開発する。
論文 参考訳(メタデータ) (2025-10-31T17:58:11Z) - Diffusion Language Models Know the Answer Before Decoding [56.96815863705218]
拡散言語モデル (DLM) は自己回帰的アプローチの代替として登場した。
我々の研究は、DLMの早期回答収束の見過ごされた特性を強調し、活用する。
Prophetは、早期コミット復号を可能にするトレーニングフリーの高速復号化パラダイムである。
論文 参考訳(メタデータ) (2025-08-27T15:40:25Z) - Your LLM Knows the Future: Uncovering Its Multi-Token Prediction Potential [12.719829360337833]
本稿では,バニラ自己回帰言語モデルにおける未来のトークンに関する固有知識を活用する新しいフレームワークを提案する。
本手法は,事前学習モデルの教師付き微調整により,大幅な高速化を実現する。
論文 参考訳(メタデータ) (2025-07-16T02:31:40Z) - Multipole Attention for Efficient Long Context Reasoning [64.94673641704289]
大規模推論モデル (LRM) は複雑な問題解決タスクにおいて有望な精度の向上を示す。
LRMは、答える前に考えるために、長い連鎖推論を生成する必要がある。
本稿では,重要なトークンに対してのみ正確に注意を払うことで,自己回帰推論を高速化するマルチポール注意法を提案する。
論文 参考訳(メタデータ) (2025-06-16T03:00:40Z) - Gumiho: A Hybrid Architecture to Prioritize Early Tokens in Speculative Decoding [11.07450742824775]
投機的復号化は、ターゲットの大規模言語モデルの自動回帰トークン生成プロセスを加速することを目的としている。
いくつかのアプローチでは、複数のヘッドを持つドラフトモデルを使用して、各ヘッドがシーケンス内のトークンを処理する将来のトークンのシーケンスを予測する。
本稿では,シリアルヘッドと並列ヘッドを組み合わせたハイブリッドモデルであるGumihoを提案する。
論文 参考訳(メタデータ) (2025-03-13T07:55:38Z) - Regress, Don't Guess -- A Regression-like Loss on Number Tokens for Language Models [2.5464748274973026]
トークンレベルで純粋に動作する回帰的な損失を示す。
我々の提案したナンバートークン損失(NTL)は2つのフレーバーを持ち、$L_p$ノルムまたはワッサーシュタイン距離を最小化する。
提案手法を様々な数学的データセット上で評価し,数学関連タスクの性能を継続的に改善することを発見した。
論文 参考訳(メタデータ) (2024-11-04T13:43:24Z) - FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。
いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-27T15:53:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。