Fugu-MT 論文翻訳(概要): VecCISC: Improving Confidence-Informed Self-Consistency with Reasoning Trace Clustering and Candidate Answer Selection

論文の概要: VecCISC: Improving Confidence-Informed Self-Consistency with Reasoning Trace Clustering and Candidate Answer Selection

arxiv url: http://arxiv.org/abs/2605.08070v1
Date: Fri, 08 May 2026 17:54:38 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-11 19:43:39.257807
Title: VecCISC: Improving Confidence-Informed Self-Consistency with Reasoning Trace Clustering and Candidate Answer Selection
Title（参考訳）: VecCISC: トレースクラスタリングと候補回答選択による信頼性インフォームド自己整合性の向上
Authors: James Petullo, Sonny George, Dylan Cashman, Nianwen Xue,
Abstract要約: VecCISCは軽量で適応的なフレームワークで、意味的類似性の尺度を使って推論トレースをフィルタする。 VecCISCはトークンの総使用量を47%削減し、CISCの精度を維持したり超えたりしている。
参考スコア（独自算出の注目度）: 6.090625902337103
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A standard technique for scaling inference-time reasoning is Self-Consistency, whereby multiple candidate answers are sampled from an LLM and the most common answer is selected. More recently, it has been shown that weighted majority voting (e.g. Confidence-Informed Self Consistency (CISC)), which assigns a confidence value to each candidate answer and chooses the answer with the largest accumulated score, tends to be more accurate on a wide range of popular benchmarks. In practice, weighted majority voting necessitates calling a critic LLM on each candidate's reasoning trace to produce the answer's confidence score. This secondary series of LLM calls greatly increases the overhead and cost of weighted majority voting, despite its potential performance benefits. To reduce this expense, we propose VecCISC, a lightweight, adaptive framework that uses a measure of semantic similarity to filter reasoning traces that are semantically equivalent to others, degenerate, or hallucinated, thus decreasing the number of candidate answers that must be evaluated by the critic. To ensure adequate experimental thoroughness, we evaluate VecCISC on five challenging, widely-adopted datasets spanning the domains of mathematics, chemistry, biology, commonsense reasoning, and the humanities. Our results demonstrate that VecCISC reduces the total token usage by 47%, while maintaining or exceeding the accuracy of CISC.
Abstract（参考訳）: 推論時間推論をスケールする標準的な手法は自己整合性であり、複数の候補解がLLMからサンプリングされ、最も一般的な解が選択される。最近では、各候補に信頼値を割り当て、最も多く蓄積されたスコアで回答を選択する重み付き多数決(CISC)が、幅広い人気ベンチマークでより正確であることが示されている。実際には、重み付けされた多数決は、各候補者の推理の痕跡に批評家のLSMを呼び出して、回答の信頼性スコアを生成する必要がある。この第2のLLMコールは、パフォーマンス上の利点があるにもかかわらず、重み付けされた多数決のオーバーヘッドとコストを大幅に高めている。このコストを削減するために、VecCISCという軽量で適応的なフレームワークを提案する。これは、他と意味論的に等価な推論トレースをフィルタリングしたり、縮退したり、幻覚させたりすることで、批判者が評価しなければならない候補回答の数を減少させる。適切な実験的網羅性を確保するため,VecCISCを数学,化学,生物学,常識推論,人文科学の領域にまたがる5つの挑戦的,広く研究されているデータセットで評価した。以上の結果から,VecCISCはトークンの総使用量を47%削減し,CISCの精度を維持した。

関連論文リスト

Beyond Majority Voting: Efficient Best-Of-N with Radial Consensus Score [13.41454380481593]
Radial Consensus Score (RCS) は、N選択のための単純で効率的で訓練のない方法である。 RCSは、重み付きフレシェ平均(意味中心)を計算して意味的コンセンサスをモデル化する。
論文参考訳（メタデータ） (2026-04-14T02:02:20Z)
A Single Revision Step Improves Token-Efficient LLM Reasoning [3.344806691289323]
大規模言語モデルのためのトレーニングフリーで推論のみのフレームワークであるPacket-Conditioned Revision (PACER)を紹介した。 PACERは、推論トレースを使用して、構造化された調整ステップを通じて結論を修正できる。競争力のある数学のベンチマークでは、PACERは256サンプルの多数決の正確さと一致または超える。
論文参考訳（メタデータ） (2026-02-02T21:28:42Z)
SSR: Socratic Self-Refine for Large Language Model Reasoning [78.62319252287938]
Socratic Self-Refine (SSR)は、大規模言語モデル(LLM)のきめ細かい評価と精度向上のための新しいフレームワークである。提案したSSRはモデル応答を検証可能な(サブクエスト,サブサブアンサー)ペアに分解し,ステップレベルの信頼度推定を可能にする。 5つの推論ベンチマークと3つのLCMによる実証的な結果から、SSRは一貫して最先端の反復的自己修正ベースラインを上回っていることが分かる。
論文参考訳（メタデータ） (2025-11-13T18:47:07Z)
Critique to Verify: Accurate and Honest Test-Time Scaling with RL-Trained Verifiers [63.99316853136304]
ミラー・クリティク(Mirror-Critique)は、情報的批評で検証者を訓練する枠組みである。我々は、高品質な批判データを合成するために、小さな命令調整モデルを展開する。結果として得られるミラー検証は、ソリューション毎に複数の批判を生成することで、候補ソリューションを評価するためにデプロイされる。
論文参考訳（メタデータ） (2025-09-27T06:50:24Z)
Learning to Refine: Self-Refinement of Parallel Reasoning in LLMs [102.48588475875749]
本稿では,新しい並列テスト時間スケーリングフレームワークであるGenerative Self-Refinement (GSR)を紹介する。 GSRは一連の候補応答を並列に生成し、その後自己精製を行い、新しい優れた解を合成する。提案手法は,5つの数学ベンチマークにおいて,最先端性能を実現する。
論文参考訳（メタデータ） (2025-08-27T06:51:48Z)
Scalable Best-of-N Selection for Large Language Models via Self-Certainty [75.1351701045874]
Best-of-N selectionは、Large Language Models(LLMs)の推論性能を改善するための重要なテクニックである。本稿では, LLM出力の固有確率分布を利用して, 外部報酬モデルを必要としない応答品質を推定する, 新規で効率的な指標である自己確実性を提案する。本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文参考訳（メタデータ） (2025-02-25T19:08:07Z)
Crowd Comparative Reasoning: Unlocking Comprehensive Evaluations for LLM-as-a-Judge [90.8674158031845]
提案するクラウド・ベース・コンピレーション・アセスメントは,提案するクラウド・レスポンスを,候補の応答と比較するための追加のクラウド・レスポンスを導入する。このプロセスはLLM-as-a-Judgeを効果的に誘導し、より詳細なCoT判定を提供する。提案手法は, 高い品質のCoTを製造し, 蒸留を判断し, 拒絶サンプリングにおいて優れた性能を示す。
論文参考訳（メタデータ） (2025-02-18T03:31:06Z)
Confidence Improves Self-Consistency in LLMs [17.280967928501678]
信頼性インフォームド・セルフ一貫性(CISC)について紹介する。 CISCは、モデルから直接得られる信頼度スコアに基づいて、重み付けされた多数決を行う。 9つのモデルと4つのデータセットでテストすると、CISCはほぼすべての構成で自己整合性を上回っます。
論文参考訳（メタデータ） (2025-02-10T08:10:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。