論文の概要: PiCSAR: Probabilistic Confidence Selection And Ranking
- arxiv url: http://arxiv.org/abs/2508.21787v1
- Date: Fri, 29 Aug 2025 17:03:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:11.126886
- Title: PiCSAR: Probabilistic Confidence Selection And Ranking
- Title(参考訳): PiCSAR:確率的信頼選択とランク付け
- Authors: Joshua Ong Jun Leang, Zheng Zhao, Aryo Pradipta Gema, Sohee Yang, Wai-Chung Kwan, Xuanli He, Wenda Li, Pasquale Minervini, Eleonora Giunchiglia, Shay B. Cohen,
- Abstract要約: 推論タスクの鍵となる課題は、接地的真実の答えにアクセスせずに正しい推論チェーンを識別できるスコアリング関数を設計することである。
本稿では,確率的信頼度選択とランク付け(PiCSAR)を提案する。
解析の結果,正しい推論連鎖は高い推論と回答の信頼性を示し,PiCSARの有効性を正当化していることがわかった。
- 参考スコア(独自算出の注目度): 46.51719514052471
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Best-of-n sampling improves the accuracy of large language models (LLMs) and large reasoning models (LRMs) by generating multiple candidate solutions and selecting the one with the highest reward. The key challenge for reasoning tasks is designing a scoring function that can identify correct reasoning chains without access to ground-truth answers. We propose Probabilistic Confidence Selection And Ranking (PiCSAR): a simple, training-free method that scores each candidate generation using the joint log-likelihood of the reasoning and final answer. The joint log-likelihood of the reasoning and final answer naturally decomposes into reasoning confidence and answer confidence. PiCSAR achieves substantial gains across diverse benchmarks (+10.18 on MATH500, +9.81 on AIME2025), outperforming baselines with at least 2x fewer samples in 16 out of 20 comparisons. Our analysis reveals that correct reasoning chains exhibit significantly higher reasoning and answer confidence, justifying the effectiveness of PiCSAR.
- Abstract(参考訳): Best-of-nサンプリングは、複数の候補解を生成し、最も報酬の高いものを選択することにより、大きな言語モデル(LLM)と大きな推論モデル(LRM)の精度を向上させる。
推論タスクの鍵となる課題は、接地的真実の答えにアクセスせずに正しい推論チェーンを識別できるスコアリング関数を設計することである。
確率的信頼度選択とランク付け(PiCSAR: Probabilistic Confidence Selection And Ranking)を提案する。
推論と最終回答の合同ログは、自然に信頼性を推論し、信頼に答えるものとして分解される。
PiCSARは様々なベンチマーク(MATH500では+10.18、AIME2025では+9.81)で大幅に向上し、20のベンチマークのうち16のベンチマークでは少なくとも2倍のサンプルでベースラインを上回っている。
解析の結果,正しい推論連鎖は高い推論と回答の信頼性を示し,PiCSARの有効性を正当化していることがわかった。
関連論文リスト
- A Single Revision Step Improves Token-Efficient LLM Reasoning [3.344806691289323]
大規模言語モデルのためのトレーニングフリーで推論のみのフレームワークであるPacket-Conditioned Revision (PACER)を紹介した。
PACERは、推論トレースを使用して、構造化された調整ステップを通じて結論を修正できる。
競争力のある数学のベンチマークでは、PACERは256サンプルの多数決の正確さと一致または超える。
論文 参考訳(メタデータ) (2026-02-02T21:28:42Z) - Reasoning Planning for Language Models [23.519351730129426]
本稿では,コントラスト学習フレームワークであるEPICを紹介する。
EPICは、モデル推論能力とクエリメソッド互換性の両方をキャプチャする共有表現空間を学習する。
多様な数学的推論タスクの実験は、EPICが常に最適な推論方法を選択することを示している。
論文 参考訳(メタデータ) (2025-11-01T11:51:53Z) - Answer-Consistent Chain-of-thought Reinforcement Learning For Multi-modal Large Langauge Models [33.398631680508814]
本稿では,GRPOアルゴリズムを補助的整合性チェックで修正するAnswer-Consistent Reinforcement Learningを提案する。
我々は、オリジナルとポストシャッフルの両方の回答が一致して正しい場合にのみ高い報酬を与える一貫性検証報酬を設計する。
我々は、ACREを挑戦的なビデオ推論ベンチマークとマルチモーダル数学推論ベンチマークで評価し、平均2.2%と1.5%の改善を達成した。
論文 参考訳(メタデータ) (2025-10-11T08:32:52Z) - Sample Smart, Not Hard: Correctness-First Decoding for Better Reasoning in LLMs [72.82403830490084]
我々は、復号規則は正確さによって校正されるべきであり、自信だけではならないと論じている。
Greedy-Threshold はこの目標を達成するための単純な戦略を提案します。
この結果から,不確実性の下での復号化が問題視され,数学や一般推論のベンチマークで有意な差がみられた。
論文 参考訳(メタデータ) (2025-10-07T14:46:12Z) - The Majority is not always right: RL training for solution aggregation [53.1050856072799]
我々はアグリゲータモデルをトレーニングし、最終的な正解をレビューし、精査し、合成する。
重要な要素は、簡単なトレーニング例と厳しいトレーニング例のバランスを取ることだ。
我々の手法であるAggLMは、強いルールベースと報酬モデルベースラインの両方を上回ります。
論文 参考訳(メタデータ) (2025-09-08T16:39:38Z) - Self-Aligned Reward: Towards Effective and Efficient Reasoners [16.740993145927774]
自己整合報酬 (Self-aligned reward, SAR) は、検証可能な報酬を補完し、推論精度と効率の両方を奨励する自己誘導信号である。
SARは, 正確さ, 正解スコアが冗長性よりも高く, 正解スコアが完全誤解よりも高いという, 解答品質を確実に区別することを示す。
論文 参考訳(メタデータ) (2025-09-05T20:39:43Z) - RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。
提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。
実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文 参考訳(メタデータ) (2025-05-28T14:55:33Z) - Beyond the Last Answer: Your Reasoning Trace Uncovers More than You Think [51.0691253204425]
我々は2つの質問に答えるために中間的推論ステップを解析する: 最終的な答えはモデルの最適結論を確実に表すか?
我々のアプローチは、推論トレースを言語的手がかりに基づくシーケンシャルなサブソートに分割することである。
これらの解答を最も頻繁な解(モード)を選択して集約すると、元の完全トレースから得られる解のみに依存するよりも、はるかに高い精度が得られることが判明した。
論文 参考訳(メタデータ) (2025-04-29T12:39:07Z) - Scalable Best-of-N Selection for Large Language Models via Self-Certainty [65.31658824274894]
Best-of-N選択は、大規模言語モデルの推論性能を改善するための重要なテクニックである。
本稿では,外部報酬モデルを必要とすることなく,応答品質を推定する新規かつ効率的な指標である自己確実性を提案する。
本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文 参考訳(メタデータ) (2025-02-25T19:08:07Z) - Rationale-Aware Answer Verification by Pairwise Self-Evaluation [11.763229353978321]
信頼性のある検証器の訓練には,最終回答の正しさに加えて,有理数の有効性の確保が必要であることを示す。
本結果から, 信頼性検証には, 正解の正確性に加えて, 有理数の有効性の確保が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-10-07T08:53:00Z) - DCR: Divide-and-Conquer Reasoning for Multi-choice Question Answering with LLMs [9.561022942046279]
大規模言語モデル(LLM)の推論能力を高めるため,DCR(Divide and Conquer Reasoning)を提案する。
まず、信頼性スコア(mathcalCS$)に基づいて質問を2つのサブセットに分類する。
特に,質問を信頼性スコア(mathcalCS$)に基づいて2つのサブセットに分類する。
論文 参考訳(メタデータ) (2024-01-10T14:38:46Z) - Improving Selective Visual Question Answering by Learning from Your
Peers [74.20167944693424]
VQA(Visual Question Answering)モデルは、間違っていた場合の回答を控えるのに苦労する可能性がある。
本稿では,複数モーダル選択関数の学習におけるLearning from Your Peers (LYP) アプローチを提案する。
提案手法では,学習データの異なるサブセットに基づいて訓練されたモデルの予測を,選択的VQAモデルの最適化のターゲットとして利用する。
論文 参考訳(メタデータ) (2023-06-14T21:22:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。