論文の概要: Latent Self-Consistency for Reliable Majority-Set Selection in Short- and Long-Answer Reasoning
- arxiv url: http://arxiv.org/abs/2508.18395v1
- Date: Mon, 25 Aug 2025 18:36:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.555206
- Title: Latent Self-Consistency for Reliable Majority-Set Selection in Short- and Long-Answer Reasoning
- Title(参考訳): 短時間・長期回答における信頼度の高い候補選択のための潜時自己整合性
- Authors: Jeong-seok Oh, Jay-yoon Lee,
- Abstract要約: 本稿では,学習可能なトークン埋め込みを用いて,最も意味的に一貫性のある応答を選択する潜在自己整合性を提案する。
軽量な要約トークンのフォワード生成は、推論時間を1%以下にし、モデルアーキテクチャの変更を必要としない。
- 参考スコア(独自算出の注目度): 17.045726739741813
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Probabilistic decoding in Large Language Models (LLMs) often yields inconsistent outputs, particularly on complex or long-form questions. Self-Consistency (SC) mitigates this for short-form QA by majority voting over exact strings, whereas Universal Self-Consistency (USC) and Weighted Unigram Consistency Score (WUCS) extend to long-form responses but lose accuracy on short-form benchmarks. We introduce Latent Self-Consistency (LSC), which selects the most semantically consistent response using learnable token embeddings. A lightweight forward generation of summary tokens increases inference time by less than 1% and requires no changes to the model architecture. Across 6 short-form and 5 long-form reasoning benchmarks (e.g., MATH, MMLU, TruthfulQA), LSC surpasses SC, USC and WUCS on all short-form and long-form ones on average, while maintaining negligible computational overhead. These results position LSC as a practical consistency-selection method that works reliably across answer formats. Additionally, LSC provides well-calibrated confidence estimates, maintaining low Expected Calibration Error across both answer formats.
- Abstract(参考訳): LLM(Large Language Models)における確率的復号化は、特に複雑または長期の質問において、一貫性のない出力をもたらすことが多い。
一方、Universal Self-Consistency (USC) とWeighted Unigram Consistency Score (WUCS) は長文の応答に拡張されるが、短文のベンチマークでは精度が低下している。
本稿では,学習可能なトークン埋め込みを用いて,最も意味的に一貫性のある応答を選択するLatent Self-Consistency (LSC)を提案する。
軽量な要約トークンのフォワード生成は、推論時間を1%以下にし、モデルアーキテクチャの変更を必要としない。
6つのショートフォームと5つのロングフォーム推論ベンチマーク(例えば、MATH、MMLU、TruthfulQA)で、LCCはSC、USC、WUCSを平均で上回り、計算オーバーヘッドは無視できる。
これらの結果から,LCCは解答形式間で確実に機能する実用的一貫性選択法として位置づけられた。
さらに、LCCは、双方の回答フォーマットで期待の低いキャリブレーションエラーを保ちながら、十分にキャリブレーションされた信頼推定を提供する。
関連論文リスト
- UNCLE: Uncertainty Expressions in Long-Form Generation [48.7696074873262]
大型言語モデル(LLM)は幻覚を起こす傾向があり、特に長期の世代では顕著である。
長文と短文の問合せ(QA)における不確実性評価のためのベンチマークであるUNCLEを紹介する。
私たちのデータセットは、ペアの質問とゴールドスタンダードの回答で、ショートとロングフォームのQAを直接ブリッジする最初のものです。
論文 参考訳(メタデータ) (2025-05-22T17:16:08Z) - Scalable Best-of-N Selection for Large Language Models via Self-Certainty [65.31658824274894]
Best-of-N選択は、大規模言語モデルの推論性能を改善するための重要なテクニックである。
本稿では,外部報酬モデルを必要とすることなく,応答品質を推定する新規かつ効率的な指標である自己確実性を提案する。
本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文 参考訳(メタデータ) (2025-02-25T19:08:07Z) - Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities? [61.85289698610747]
我々は,o1-like large language model (LLMs) が本当にテスト時間スケーリング機能を持っているか検討した。
これらのo1型モデルの長いCoTは、常に精度を向上しないことがわかった。
並列スケーリング戦略とCoT長特性を組み合わせた手法であるShortest Majority Voteを提案する。
論文 参考訳(メタデータ) (2025-02-17T07:21:11Z) - Confidence Improves Self-Consistency in LLMs [9.764747744761085]
信頼性インフォームド・セルフ一貫性(CISC)について紹介する。
CISCは、モデルから直接得られる信頼度スコアに基づいて、重み付けされた多数決を行う。
9つのモデルと4つのデータセットでテストすると、CISCはほぼすべての構成で自己整合性を上回っます。
論文 参考訳(メタデータ) (2025-02-10T08:10:29Z) - Reasoning Aware Self-Consistency: Leveraging Reasoning Paths for Efficient LLM Sampling [9.44858963874474]
自己整合性は、複数の推論経路をサンプリングすることによって、大規模言語モデル(LLM)における幻覚を緩和する。
本稿では、サンプリング効率を高め、忠実性を推論する新しいフレームワークであるReasoning-Aware Self-Consistency (RASC)を紹介する。
論文 参考訳(メタデータ) (2024-08-30T05:14:59Z) - Atomic Self-Consistency for Better Long Form Generations [12.753854064540636]
原子自己整合性(アトミック自己整合性、Atomic Self-Consistency、ASC)は、長期応答における関連情報のリコールを改善する技術である。
ASCは最近の研究に続いて、複数のサンプルを使用して長期応答を改善するユニバーサル自己整合性(USC)を開発した。
広範囲な実験と改善を通じて,複数のサンプルの関連部分を統合することで,単一のサンプルを選択するよりもはるかに優れた性能が得られた。
論文 参考訳(メタデータ) (2024-05-21T18:05:44Z) - Soft Self-Consistency Improves Language Model Agents [57.66282463340297]
現在の「サンプルとセレクト」メソッドは、回答を得るために多数決に頼っている。
SOFT-SC(Soft Self-Consistency)は、SCの不連続スコアをモデル確率から計算した連続スコアに置き換える。
一定の数のサンプルに対して、SOFT-SCはSCを1.3%上回り、bashプログラムの絶対的な成功率、オンラインショッピングの6.6%増、インタラクティブホームゲームでは4.7%増となる。
論文 参考訳(メタデータ) (2024-02-20T18:22:38Z) - Universal Self-Consistency for Large Language Model Generation [72.6761480346095]
CoT(Self-Consistency with chain-of- Thought prompting)は、困難なタスクにおいて顕著なパフォーマンス向上を示す。
本稿では,大規模言語モデル(LLM)を活用し,最も一貫した回答を選択するユニバーサル自己整合性(USC)を提案する。
論文 参考訳(メタデータ) (2023-11-29T02:07:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。