論文の概要: Entropy-Aware Branching for Improved Mathematical Reasoning
- arxiv url: http://arxiv.org/abs/2503.21961v1
- Date: Thu, 27 Mar 2025 20:18:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 19:09:59.477505
- Title: Entropy-Aware Branching for Improved Mathematical Reasoning
- Title(参考訳): 数学的推論改善のためのエントロピー対応分岐法
- Authors: Xianzhi Li, Ethan Callanan, Xiaodan Zhu, Mathieu Sibue, Antony Papadimitriou, Mahmoud Mahfouz, Zhiqiang Ma, Xiaomo Liu,
- Abstract要約: 大規模言語モデル(LLM)は、広範囲な事前学習と微調整によって効果的に整列する。
モデル出力分布において,高いエントロピーおよびエントロピーのばらつきを示すトークンにおいて,エラーが発生する可能性が高くなる。
本稿では,要求に応じて生成プロセスを動的に分岐する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 25.362529360045237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Large Language Models (LLMs) are effectively aligned through extensive pre-training and fine-tuning, they still struggle with varying levels of uncertainty during token generation. In our investigation of mathematical reasoning, we observe that errors are more likely to arise at tokens exhibiting high entropy and variance of entropy in the model's output distribution. Based on the observation, we propose a novel approach that dynamically branches the generation process on demand instead of defaulting to the single most probable token. By exploring in parallel multiple branches stemming from high probability tokens of critical decision points, the model can discover diverse reasoning paths that might otherwise be missed. We further harness external feedback from larger models to rank and select the most coherent and accurate reasoning branch. Our experimental results on mathematical word problems and calculation questions show that this branching strategy boosts the reasoning capabilities of small LLMs up to 4.6% compared to conventional argmax decoding.
- Abstract(参考訳): 大規模言語モデル(LLM)は、広範囲な事前トレーニングと微調整を通じて効果的に整列するが、トークン生成の間、さまざまなレベルの不確実性に苦慮している。
数学的推論の研究において、モデル出力分布において高いエントロピーおよびエントロピーのばらつきを示すトークンにおいて、エラーが発生する可能性がより高いことが観察された。
そこで本研究では,要求に応じて生成プロセスを動的に分岐する手法を提案する。
臨界決定点の確率トークンから生じる複数の分岐を並列に探索することにより、モデルは見逃される可能性のある様々な推論経路を発見することができる。
さらに、より大きなモデルからの外部からのフィードバックをランク付けし、最も一貫性があり正確な推論ブランチを選択する。
数学的単語問題と計算問題に関する実験結果から,この分岐戦略は従来のargmax復号法と比較して,小型LLMの推論能力を最大4.6%向上させることが示された。
関連論文リスト
- Think Deep, Think Fast: Investigating Efficiency of Verifier-free Inference-time-scaling Methods [39.89239733570008]
本研究は推論モデルと非推論モデルの両方に対する推論時間スケーリング手法を包括的に解析する。
非推論モデルは、非常に高い推論予算にもかかわらず、推論モデルに大きく遅れていることが分かっています。
推論モデルでは、多数決は堅牢な推論戦略であり、一般的に競争力があるか、あるいは他のより洗練されたITC手法よりも優れていることが証明されている。
論文 参考訳(メタデータ) (2025-04-18T19:32:55Z) - THOUGHTTERMINATOR: Benchmarking, Calibrating, and Mitigating Overthinking in Reasoning Models [65.39456695678713]
本稿では,問題レベルの難易度を近似的に測定し,問題の難易度と最適なトークン使用量との間に明確な関係があることを実証する。
一般に、推論モデルは、特に簡単な問題に対して、キャリブレーションが不十分である。
トレーニング不要なブラックボックス復号法であるTHOUGHTTERMINATORを導入する。
論文 参考訳(メタデータ) (2025-04-17T22:16:30Z) - Self-Evolved Preference Optimization for Enhancing Mathematical Reasoning in Small Language Models [17.673293240849787]
我々は、小言語モデル(SLM)における推論を強化する自己進化型データ生成パイプラインSPHEREを紹介する。
SPHEREは、 (i) 自己生成(Self-Generation)、 (ii) 自己補正(Self-Correction)、 (iii) 多様性誘導(diversity induction)、そして、複数の有効な推論軌道を通じて堅牢性を改善する。
本研究では,SPHERE学習モデルがベースバージョンよりも大幅に向上し,特定のベンチマークでGPT-4oにマッチすることを示す。
論文 参考訳(メタデータ) (2025-03-04T14:43:25Z) - Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning [113.49074603075032]
近年の研究では、モデルをより長い思考の連鎖(CoTs)を通して考える時間を増やすことで、複雑な推論タスクにおいて大幅な改善が得られることが示されている。
より長いCoTによるスケーリングが、特定のドメインにおけるLarge Language Model(LLM)の推論性能を損なうかどうかを考察する。
論文 参考訳(メタデータ) (2025-02-25T10:48:05Z) - Quantifying Logical Consistency in Transformers via Query-Key Alignment [20.636818928993684]
本稿では,論理的推論のための新しい軽量評価手法を提案する。
提案手法は,1つのフォワードパスを計算し,慎重に選択されたヘッドから「QKスコア」を抽出することにより,無効な推論から確実に分離した潜在表現を明らかにする。
論文 参考訳(メタデータ) (2025-02-24T10:02:50Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - Token-Supervised Value Models for Enhancing Mathematical Problem-Solving Capabilities of Large Language Models [56.32800938317095]
既存の検証器はテスト時の木探索技術に準最適である。
トークン制御値モデル(TVM)を提案する。
TVMは各トークンに、正しい最終回答に達する確率を反映した確率を割り当てる。
論文 参考訳(メタデータ) (2024-07-12T13:16:50Z) - Language Model Cascades: Token-level uncertainty and beyond [65.38515344964647]
言語モデル(LM)の最近の進歩により、複雑なNLPタスクの品質が大幅に向上した。
Cascadingは、より好ましいコスト品質のトレードオフを達成するためのシンプルな戦略を提供する。
トークンレベルの不確実性を学習後遅延ルールに組み込むことで,単純な集約戦略を著しく上回ることを示す。
論文 参考訳(メタデータ) (2024-04-15T21:02:48Z) - Exposing Attention Glitches with Flip-Flop Language Modeling [55.0688535574859]
この研究は、大きな言語モデルにおける注意点の現象を特定し、分析する。
ニューラルネットワークモデルの外挿挙動を探索するために設計された,合成ベンチマークのファミリであるフリップフロップ言語モデリング(FFLM)を導入する。
その結果,Transformer FFLM は散発的推論誤差の長い尾に悩まされていることがわかった。
論文 参考訳(メタデータ) (2023-06-01T17:44:35Z) - Identifying and Mitigating Spurious Correlations for Improving
Robustness in NLP Models [19.21465581259624]
多くの問題は、刺激的な相関を利用したモデルや、トレーニングデータとタスクラベルの間のショートカットに起因する可能性がある。
本論文では,NLPモデルにおけるこのような素因的相関を大規模に同定することを目的とする。
提案手法は,スケーラブルな「ショートカット」の集合を効果的かつ効率的に同定し,複数のアプリケーションにおいてより堅牢なモデルに導かれることを示す。
論文 参考訳(メタデータ) (2021-10-14T21:40:03Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。