論文の概要: Beyond Majority Voting: Efficient Best-Of-N with Radial Consensus Score
- arxiv url: http://arxiv.org/abs/2604.12196v1
- Date: Tue, 14 Apr 2026 02:02:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.195024
- Title: Beyond Majority Voting: Efficient Best-Of-N with Radial Consensus Score
- Title(参考訳): 多数決投票を超えて: ラジアル・コンセンサススコアによる効率の良いベストOf-N
- Authors: Manh Nguyen, Sunil Gupta, Hung Le,
- Abstract要約: Radial Consensus Score (RCS) は、N選択のための単純で効率的で訓練のない方法である。
RCSは、重み付きフレシェ平均(意味中心)を計算して意味的コンセンサスをモデル化する。
- 参考スコア(独自算出の注目度): 13.41454380481593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) frequently generate multiple candidate responses for a given prompt, yet selecting the most reliable one remains challenging, especially when correctness diverges from surface-level majority agreement. Existing approaches, such as self-consistency, rely on discrete voting, while probability-based methods often fail to capture relationships among candidate answers or tend to underweight high-quality but less frequent responses, and do not fully leverage the geometric structure of answer representations. To address these limitations, we introduce Radial Consensus Score (RCS), a simple, efficient, and training-free method for best-of-N selection. RCS models semantic consensus by computing a weighted Fréchet mean (semantic center) of answer embeddings and ranking candidates by their radial distance to this center. Importantly, RCS provides a general framework that supports multiple weighting schemes, including uniform, frequency-based, and probability-based variants, enabling flexible integration of agreement signals and model confidence while remaining fully applicable in black-box settings. Extensive experiments across seven benchmarks covering short-form QA and long-form reasoning tasks, and five open-weight models, demonstrate that RCS variants consistently outperform strong baselines, with gains becoming more pronounced as the sampling budget increases. RCS also serves as an effective drop-in replacement for majority voting in multi-agent debate and exhibits strong robustness in black-box scenarios. Overall, these results highlight geometric consensus as a scalable and broadly applicable principle for reliable answer selection, extending beyond majority voting to more expressive and robust aggregation in LLM inference.
- Abstract(参考訳): 大規模言語モデル(LLM)は、与えられたプロンプトに対して複数の候補応答を頻繁に生成するが、最も信頼性の高いものを選択することは、特に表面的な多数決から正確性が分岐する場合は困難である。
自己整合性のような既存のアプローチは、離散的な投票に依存しているが、確率ベースの手法は、しばしば候補者の回答間の関係を捉えたり、より低品質で頻繁な応答を控える傾向があり、答え表現の幾何学的構造を完全に活用しない。
これらの制約に対処するために,N 選択のための単純で効率的かつトレーニング不要な Radial Consensus Score (RCS) を導入する。
RCSは、重み付きフレシェ平均(意味中心)を計算して意味的コンセンサスをモデル化する。
重要なことに、RCSは、一様、周波数ベース、確率ベースの変種を含む複数の重み付けスキームをサポートする一般的なフレームワークを提供し、ブラックボックス設定に完全に適用しながら、合意信号とモデルの信頼性の柔軟な統合を可能にする。
ショートフォームQAとロングフォーム推論タスク、および5つのオープンウェイトモデルをカバーする7つのベンチマークの広範な実験は、RCSの変種が、サンプリング予算が増加するにつれて利得がより顕著になることを示す。
RCSはまた、マルチエージェント討論における多数決の効果的な代替として機能し、ブラックボックスのシナリオで強い堅牢性を示す。
全体として、これらの結果は、信頼性の高い回答選択のためのスケーラブルで広く適用可能な原理としての幾何学的コンセンサスを強調し、多数決を超えて、LLM推論においてより表現力が高く頑健なアグリゲーションへと拡張する。
関連論文リスト
- Beyond Majority Voting: Towards Fine-grained and More Reliable Reward Signal for Test-Time Reinforcement Learning [12.354777054071379]
テスト時間強化学習は、多数決結果を擬似ラベルとして使用することにより、注釈付きデータへの依存を軽減する。
この投票戦略は、しばしば確認バイアスを引き起こし、スパース報酬に悩まされ、全体的なパフォーマンスが制限される。
これらの問題に対処するために,サブグループ固有のステップワイド信頼度重み付き擬似ラベル推定(SCOPE)を提案する。
論文 参考訳(メタデータ) (2025-12-17T07:21:54Z) - Robust Preference Alignment via Directional Neighborhood Consensus [13.313830197011983]
本稿では,指向性近傍のコンセンサスを利用したポストホックなトレーニングフリー手法であるRobust Preference Selection(RPS)を紹介する。
RPSは、関連する好みの地域からの複数の応答をサンプリングし、優れた候補プールを作成する。
本研究は, 嗜好整合モデルの信頼性を高めるための, 実用的, 理論的に基礎的なソリューションを提案する。
論文 参考訳(メタデータ) (2025-10-23T12:39:20Z) - The Majority is not always right: RL training for solution aggregation [53.1050856072799]
我々はアグリゲータモデルをトレーニングし、最終的な正解をレビューし、精査し、合成する。
重要な要素は、簡単なトレーニング例と厳しいトレーニング例のバランスを取ることだ。
我々の手法であるAggLMは、強いルールベースと報酬モデルベースラインの両方を上回ります。
論文 参考訳(メタデータ) (2025-09-08T16:39:38Z) - Learning to Refine: Self-Refinement of Parallel Reasoning in LLMs [102.48588475875749]
本稿では,新しい並列テスト時間スケーリングフレームワークであるGenerative Self-Refinement (GSR)を紹介する。
GSRは一連の候補応答を並列に生成し、その後自己精製を行い、新しい優れた解を合成する。
提案手法は,5つの数学ベンチマークにおいて,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-08-27T06:51:48Z) - Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
本稿では,集中的思考と深い報酬の粒度で視覚的推論を強化する新しいフレームワークであるTW-GRPOを提案する。
具体的には,高情報密度のトークンを優先するトークン重み付け機構を用いる。
また,シングルチョイスからマルチチョイスQAタスクにシフトすることで,RLトレーニングを再構築する。
論文 参考訳(メタデータ) (2025-05-30T15:42:19Z) - Multivariate Conformal Selection [9.431551477608528]
本稿では,厳密な不確実性定量化を実現するために,コンフォーマルセレクション(CS)の一般化を提案する。
距離ベーススコアを用いたmCS-distと、微分可能な最適化により最適なスコアを学習するmCS-learnの2つの変種を提示する。
シミュレーションおよび実世界のデータセットの実験により、mCSはFalse Discovery Rate(FDR)制御を維持しながら選択能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-05-01T23:33:57Z) - More is Less: The Pitfalls of Multi-Model Synthetic Preference Data in DPO Safety Alignment [80.04449725137177]
直接選好最適化(DPO)は、人間のフィードバックによる強化学習の、シンプルで効果的な代替手段として登場した。
我々の研究は、DPOアライメントに関連する、目覚ましい、安全性に特有な現象を明らかにした。
選択されたペアと拒否されたペアに対してのみ自己生成されたレスポンスを使用することで、より強力なモデルからのレスポンスを含む構成を大幅に上回る。
論文 参考訳(メタデータ) (2025-04-03T00:36:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。