論文の概要: A Single Revision Step Improves Token-Efficient LLM Reasoning
- arxiv url: http://arxiv.org/abs/2602.02828v1
- Date: Mon, 02 Feb 2026 21:28:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.096692
- Title: A Single Revision Step Improves Token-Efficient LLM Reasoning
- Title(参考訳): トーケン効率のLLM推論を改良した単一修正ステップ
- Authors: Yingchuan Zhang, Terry Ma, Wenxuan Zhong, Ping Ma,
- Abstract要約: 大規模言語モデルのためのトレーニングフリーで推論のみのフレームワークであるPacket-Conditioned Revision (PACER)を紹介した。
PACERは、推論トレースを使用して、構造化された調整ステップを通じて結論を修正できる。
競争力のある数学のベンチマークでは、PACERは256サンプルの多数決の正確さと一致または超える。
- 参考スコア(独自算出の注目度): 3.344806691289323
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) achieve higher accuracy on challenging reasoning tasks by scaling test-time compute through multiple trajectory sampling. However, standard aggregation methods like majority voting or individual confidence-based filtering face a fundamental "blind spot": they evaluate each trace in isolation. As problems scale in difficulty, models often generate hallucinated paths that exhibit misleadingly high confidence, causing the true solution to be suppressed by a narrow margin in traditional voting. We ask: can we enable traces to "peer-review" each other to resolve these near-miss errors? We introduce Packet-Conditioned Revision (PACER), a training-free, inference-only framework that enables reasoning traces to revise their conclusions through a structured coordination step. After a preliminary screening of generated traces, PACER constructs a compact consensus packet containing (i) unique candidate answers, (ii) their aggregated confidence scores, and (iii) representative reasoning summaries for each candidate answer. Individual traces then perform a targeted self-review conditioned on this packet, allowing them to identify specific logical junctions where they diverged from the broader consensus and pivot if their original reasoning is found to be flawed. Final predictions are obtained via confidence-weighted voting over these revised trajectories. On challenging competitive math benchmarks such as AIME and BRUMO, PACER matches or exceeds the accuracy of 256-sample majority voting, significantly outperforming raw ensemble baselines by transforming simple consensus into a collaborative logical refinement process.
- Abstract(参考訳): 大規模言語モデル(LLM)は、複数の軌道サンプリングを通してテスト時間計算をスケールすることで、困難な推論タスクにおいて高い精度を達成する。
しかし、多数決や個人信頼に基づくフィルタリングのような標準的な集計手法は、それぞれのトレースを独立して評価する、基本的な「盲点」に直面している。
難易度が大きくなるにつれて、モデルはしばしば、誤解を招くほど高い信頼を示す幻覚パスを生成し、伝統的な投票において、真の解決策は狭いマージンによって抑制される。
トレースを相互に"ピア・リビュー"して、これらのニアミスエラーを解決できますか?
Packet-Conditioned Revision (PACER) は、学習不要で推論のみのフレームワークで、推論トレースが構造化された調整ステップを通じて結論を修正できるようにする。
生成されたトレースの予備スクリーニングの後、PACERはコンパクトコンセンサスパケットを構成する。
(i)独特な候補回答。
(二)集計された信頼点、及び
三 各候補者の回答の要約を代表する。
個々のトレースは、このパケット上でターゲットの自己レビュー条件を実行し、より広範なコンセンサスから分岐した特定の論理的ジャンクションを特定し、元の推論に欠陥があるかどうかを判断する。
最終的な予測は、これらの修正軌跡に対する信頼度重み付け投票によって得られる。
AIMEやBRUMOのような競争力のある数学ベンチマークでは、PACERは256サンプルの多数決の正確さと一致し、単純なコンセンサスを協調的な論理的洗練プロセスに変換することにより、生のアンサンブルベースラインを大幅に上回っている。
関連論文リスト
- Beyond Majority Voting: Towards Fine-grained and More Reliable Reward Signal for Test-Time Reinforcement Learning [12.354777054071379]
テスト時間強化学習は、多数決結果を擬似ラベルとして使用することにより、注釈付きデータへの依存を軽減する。
この投票戦略は、しばしば確認バイアスを引き起こし、スパース報酬に悩まされ、全体的なパフォーマンスが制限される。
これらの問題に対処するために,サブグループ固有のステップワイド信頼度重み付き擬似ラベル推定(SCOPE)を提案する。
論文 参考訳(メタデータ) (2025-12-17T07:21:54Z) - TRACE: A Framework for Analyzing and Enhancing Stepwise Reasoning in Vision-Language Models [9.607579442309639]
本稿では,トランスペアレント推論と一貫性評価のためのフレームワークであるTRACEを紹介する。
TRACEleverages Auxiliary Reasoning Setsは複雑な問題を分解する。
実験の結果, ARS間の整合性は最終回答の正しさと相関していることがわかった。
TRACEは信頼できない推論パスと信頼できない推論パスを区別する信頼領域を定義する。
論文 参考訳(メタデータ) (2025-12-05T18:40:18Z) - Sample Smart, Not Hard: Correctness-First Decoding for Better Reasoning in LLMs [72.82403830490084]
我々は、復号規則は正確さによって校正されるべきであり、自信だけではならないと論じている。
Greedy-Threshold はこの目標を達成するための単純な戦略を提案します。
この結果から,不確実性の下での復号化が問題視され,数学や一般推論のベンチマークで有意な差がみられた。
論文 参考訳(メタデータ) (2025-10-07T14:46:12Z) - Critique to Verify: Accurate and Honest Test-Time Scaling with RL-Trained Verifiers [63.99316853136304]
ミラー・クリティク(Mirror-Critique)は、情報的批評で検証者を訓練する枠組みである。
我々は、高品質な批判データを合成するために、小さな命令調整モデルを展開する。
結果として得られるミラー検証は、ソリューション毎に複数の批判を生成することで、候補ソリューションを評価するためにデプロイされる。
論文 参考訳(メタデータ) (2025-09-27T06:50:24Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Project-Probe-Aggregate: Efficient Fine-Tuning for Group Robustness [61.45587642780908]
画像テキスト基礎モデルのパラメータ効率向上のための3段階のアプローチを提案する。
本手法は, マイノリティ標本同定とロバストトレーニングアルゴリズムの2つの重要な要素を改良する。
我々の理論分析は,PPAが少数群の識別を向上し,バランスの取れたグループエラーを最小限に抑えるためにベイズが最適であることを示している。
論文 参考訳(メタデータ) (2025-03-12T15:46:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。