論文の概要: Self-Consistency via Marginal Sharpening
- arxiv url: http://arxiv.org/abs/2605.28142v1
- Date: Wed, 27 May 2026 08:24:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.889558
- Title: Self-Consistency via Marginal Sharpening
- Title(参考訳): マージナルシャープニングによる自己整合性
- Authors: Aleksei Arzhantsev, Otmane Sakhi, Nicolas Chopin,
- Abstract要約: 推論時間サンプリングは、追加のトレーニングなしで言語モデルから強力な推論能力を引き出すことができる。
本稿では,数学やコーディングベンチマークにおける標準電力サンプリングよりも高い性能を示す,単純で純粋に自己回帰的な並列サンプリングアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 7.735925614494125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inference-time sampling can elicit strong reasoning abilities from language models without additional training. Existing power-sampling methods do so by sharpening the distribution over full generated outputs, favoring completions that are individually likely under the model. We argue that this is the wrong object to target for reasoning: a completion entangles a reasoning trace with a final answer, whereas what matters is whether an answer is supported by many plausible reasoning paths. We therefore shift the target from the full-output distribution to the sharpened answer marginal, making self-consistency an inference-time objective rather than a post-hoc voting criterion. Surprisingly, this marginal target admits an efficient approximation: we propose a simple, purely autoregressive parallel sampling algorithm that approximately samples from the sharpened answer marginal, eliciting stronger performance than standard power sampling on mathematics and coding benchmarks while being orders of magnitude faster.
- Abstract(参考訳): 推論時間サンプリングは、追加のトレーニングなしで言語モデルから強力な推論能力を引き出すことができる。
既存のパワーサンプリング手法は、完全な出力の分布をシャープにすることで、モデルの下で個別に起こりうる完了を優先することで実現している。
完備化は最終解答で推論トレースを絡み合わせるが、重要なことは、答えは多くの妥当な推論パスによって支持されるかどうかである。
したがって、ターゲットを全出力分布からシャープな回答限界にシフトさせ、自己整合性をポストホック投票基準よりも推論時間目標とする。
より高速な順序を保ちながら、数学やコーディングベンチマークの標準パワーサンプリングよりも高い性能を付与し、シャープ化された回答の辺りからおよそのサンプルを抽出する、単純で純粋に自己回帰的な並列サンプリングアルゴリズムを提案する。
関連論文リスト
- Locally Confident, Globally Stuck: The Quality-Exploration Dilemma in Diffusion Language Models [52.61023005303122]
低信頼度再マッシングは、誘導配列分布のエントロピーを制約しながら、品質のプロキシを改善することを示す。
我々は,デコード時に,この分布をほぼ対象とする簡易なインディペンデント・ハスティングス・サンプリング器を開発した。
論文 参考訳(メタデータ) (2026-04-01T02:01:30Z) - InfoDensity: Rewarding Information-Dense Traces for Efficient Reasoning [36.37924312794855]
冗長性は単に長さの問題ではなく、中間的推論品質の低下の症状であると主張する。
本稿では,AUCに基づく報酬と単調報酬を組み合わせたRLトレーニングのための報奨フレームワークであるInfoDensityを,推論品質の統一尺度として提案する。
論文 参考訳(メタデータ) (2026-03-18T03:11:36Z) - Test-Time Scaling with Diffusion Language Models via Reward-Guided Stitching [66.39914384073145]
本稿では,安価な拡散サンプリング推論をステップレベル候補の再利用プールに変換する自己整合性フレームワークを提案する。
ステップレベルの再結合は、難しい問題に対して最も有益であることがわかった。
トレーニング不要のフレームワークは、6つの数学およびコーディングタスクの平均精度を最大2倍改善します。
論文 参考訳(メタデータ) (2026-02-26T11:08:39Z) - In-Token Rationality Optimization: Towards Accurate and Concise LLM Reasoning via Self-Feedback [38.915062716409686]
InTROはトークンレベルの探索と,正確かつ簡潔な推論のための自己フィードバックを可能にする,新たなフレームワークである。
InTROは他のベースラインを一貫して上回り、ベースモデルと比較して解の精度を最大20%向上させる。
その思考の連鎖は明らかに簡潔であり、冗長性が低下している。
論文 参考訳(メタデータ) (2025-11-13T01:47:06Z) - Answer-Consistent Chain-of-thought Reinforcement Learning For Multi-modal Large Langauge Models [33.398631680508814]
本稿では,GRPOアルゴリズムを補助的整合性チェックで修正するAnswer-Consistent Reinforcement Learningを提案する。
我々は、オリジナルとポストシャッフルの両方の回答が一致して正しい場合にのみ高い報酬を与える一貫性検証報酬を設計する。
我々は、ACREを挑戦的なビデオ推論ベンチマークとマルチモーダル数学推論ベンチマークで評価し、平均2.2%と1.5%の改善を達成した。
論文 参考訳(メタデータ) (2025-10-11T08:32:52Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - Scalable Best-of-N Selection for Large Language Models via Self-Certainty [75.1351701045874]
Best-of-N selectionは、Large Language Models(LLMs)の推論性能を改善するための重要なテクニックである。
本稿では, LLM出力の固有確率分布を利用して, 外部報酬モデルを必要としない応答品質を推定する, 新規で効率的な指標である自己確実性を提案する。
本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文 参考訳(メタデータ) (2025-02-25T19:08:07Z) - Lachesis: Predicting LLM Inference Accuracy using Structural Properties of Reasoning Paths [12.377041655669728]
自己整合性に基づくLLM推論の予測モデルであるLachesisを紹介する。
我々は,最近提案されたLLMに基づく障害局所化手法であるAutoFLを用いて実験的に評価した。
結果は、Lachesisが解の正しさを最大0.8136の精度で予測できることを示唆している。
論文 参考訳(メタデータ) (2024-12-11T10:56:47Z) - Path-Consistency with Prefix Enhancement for Efficient Inference in LLMs [3.6696973040141034]
path-consistencyは推論遅延を最大40.5%改善し、タスク間のタスク精度を維持している。
実験の結果,経路整合性は,タスク間のタスク精度を維持しつつ,最大40.5%の推論遅延を改善することが示された。
論文 参考訳(メタデータ) (2024-08-25T01:45:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。