論文の概要: Boosting Self-Consistency with Ranking
- arxiv url: http://arxiv.org/abs/2606.05054v1
- Date: Wed, 03 Jun 2026 16:12:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.885473
- Title: Boosting Self-Consistency with Ranking
- Title(参考訳): ランク付けによる自己整合性向上
- Authors: Maria Marina, Daniil Moskovskiy, Sergey Pletenev, Mikhail Salnikov, Alexander Panchenko, Viktor Moskvoretskii,
- Abstract要約: 自己整合性は、複数の推論パスをサンプリングし、最も頻繁な回答を選択することで、大きな言語モデルを改善する。
この制限は、自己整合性における解答選択をランク付け問題として再構成する、ランク付け改善自己整合性(RISC)に対処する。
- 参考スコア(独自算出の注目度): 56.38798757709555
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-consistency improves large language models by sampling multiple reasoning paths and selecting the most frequent answer, but majority voting often fails to recover correct answers that are already present among the samples. We address this limitation with Ranking-Improved Self-Consistency (RISC), which reformulates answer selection in self-consistency as a ranking problem. Instead of relying on a single uncertainty or confidence signal, RISC uses a lightweight LambdaRank model to score candidate answers with five carefully designed features that capture answer frequency, semantic centrality, and reasoning-trace consistency. We evaluate RISC on three datasets under a range of test-time budgets. Across datasets, RISC consistently achieves a better accuracy-efficiency trade-off than standard self-consistency and strong baselines, with particularly large gains on question answering benchmarks. Further analysis shows that the proposed features are individually useful and, more importantly, complementary, highlighting the value of learning to combine multiple informative signals for test-time answer selection.
- Abstract(参考訳): 自己整合性は、複数の推論パスをサンプリングし、最も頻繁な回答を選択することで、大きな言語モデルを改善するが、多数決は、サンプルの中にすでに存在している正しい回答を復元するのに失敗することが多い。
この制限は、自己整合性における解答選択をランク付け問題として再構成する、ランク付け改善自己整合性(RISC)に対処する。
RISCは、単一の不確実性や信頼性信号に頼る代わりに、軽量のLambdaRankモデルを使用して、回答頻度、セマンティックな中心性、推論とトレースの整合性をキャプチャする5つの慎重に設計された特徴で、候補回答をスコアする。
テストタイム予算の範囲で3つのデータセット上でRISCを評価する。
データセット全体にわたって、RISCは標準の自己整合性と強力なベースラインよりも高い精度と効率のトレードオフを一貫して達成している。
さらに分析した結果,提案した特徴は個々に有用であり,さらに重要なのが補完的であり,テスト時応答選択に複数の情報信号を組み合わせる学習の価値を強調している。
関連論文リスト
- Beyond Majority Voting: Efficient Best-Of-N with Radial Consensus Score [13.41454380481593]
Radial Consensus Score (RCS) は、N選択のための単純で効率的で訓練のない方法である。
RCSは、重み付きフレシェ平均(意味中心)を計算して意味的コンセンサスをモデル化する。
論文 参考訳(メタデータ) (2026-04-14T02:02:20Z) - Confidence Before Answering: A Paradigm Shift for Efficient LLM Uncertainty Estimation [47.91529693614168]
既存の方法は、主に回答ファーストであり、回答を生成した後のみ信頼を生み出す。
モデルが答える前に信頼を出力する信頼第一パラダイムについて検討し、このスコアを正解する確率として解釈する。
我々は,信頼度校正と正解精度をセグメント化された信用代入を通じて協調的に最適化する強化学習フレームワークであるCoCAを提案する。
論文 参考訳(メタデータ) (2026-03-06T04:03:13Z) - Reliability-Aware Adaptive Self-Consistency for Efficient Sampling in LLM Reasoning [20.371912257758634]
自己整合性はマルチサンプルアグリゲーションによる推論信頼性を向上させるが、かなりの推論コストを発生させる。
本稿では,この制限に対処する信頼性適応型自己整合性(ReASC)を提案する。
ReASCは、既存のベースラインと比較して常に最高の精度とコストのトレードオフを達成し、3Bから27Bパラメータのモデルスケールでの推論効率を向上させる。
論文 参考訳(メタデータ) (2026-01-06T12:27:53Z) - Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - Self-Consistency as a Free Lunch: Reducing Hallucinations in Vision-Language Models via Self-Reflection [71.8243083897721]
視覚言語モデルは、しばしば詳細を幻覚させ、既存のオブジェクトを生成するか、出力信頼性を損なう不正確な属性を生成する。
本稿では、長文応答と短文応答の自己整合性を利用して、学習のための選好ペアを生成する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-27T10:37:11Z) - Critique to Verify: Accurate and Honest Test-Time Scaling with RL-Trained Verifiers [63.99316853136304]
ミラー・クリティク(Mirror-Critique)は、情報的批評で検証者を訓練する枠組みである。
我々は、高品質な批判データを合成するために、小さな命令調整モデルを展開する。
結果として得られるミラー検証は、ソリューション毎に複数の批判を生成することで、候補ソリューションを評価するためにデプロイされる。
論文 参考訳(メタデータ) (2025-09-27T06:50:24Z) - Mind the Gap: A Closer Look at Tokenization for Multiple-Choice Question Answering with LLMs [16.357595595062946]
植民地の後に空間をトークン化する方法には合意がないが、しばしば自明な選択として見過ごされる。
驚いたことに、私たちは1つの特定の戦略 -- 回答のレターとともにスペースをトークン化する -- を推奨できます。
本研究は、注意深い評価設計の重要性を強調し、標準化された透明な評価プロトコルの必要性を強調した。
論文 参考訳(メタデータ) (2025-09-18T14:47:58Z) - Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)の評価には,MCQA(Multiple-Choice Question Answering)が広く用いられている。
報告されたLCMの性能には,複数の要因が大きな影響を及ぼす可能性が示唆された。
既存の回答抽出手法が人間の判断と一致しているかどうかを解析する。
論文 参考訳(メタデータ) (2025-03-19T08:45:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。