論文の概要: Confidence-Weighted Token Set Cover for Early Hypothesis Pruning in Self-Consistency
- arxiv url: http://arxiv.org/abs/2508.03979v1
- Date: Wed, 06 Aug 2025 00:14:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.47763
- Title: Confidence-Weighted Token Set Cover for Early Hypothesis Pruning in Self-Consistency
- Title(参考訳): 自己整合性の初期仮説作成のための信頼度重み付きトークンセットカバー
- Authors: Md Arafat Sultan, Ramón Fernandez Astudillo,
- Abstract要約: 我々は,長期的連鎖推論タスクにおいて,自己整合性をよりトークン効率の高いものにできるかどうかを検討する。
すべての解を並列に生成するが、周期的に不規則な中間仮説が成り立つ。
3つのベンチマークで5つのLCMを評価したところ、この手法は全モデルのトークン効率を10~35%向上できることがわかった。
- 参考スコア(独自算出の注目度): 15.463112285139157
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite its simplicity and efficacy, the high token expenditure of self-consistency can limit its practical utility. Here we investigate if self-consistency can be made more token-efficient for long chain-of-thought reasoning tasks, while preserving its parallelism, through early hypothesis pruning. Concretely, we generate all solutions in parallel, but periodically prune intermediate hypotheses that are deemed unnecessary based on two lightweight indicators: (a) the model's own confidence in individual hypotheses, and (b) lexical coverage of all current hypotheses by candidate subsets that are under consideration for continued retention. We design a fast weighted set cover algorithm that utilizes the two indicators; our evaluation of five LLMs on three math benchmarks shows that this method can improve token efficiency for all models, by 10-35% in many cases.
- Abstract(参考訳): その単純さと有効性にもかかわらず、自己整合性の高いトークン支出は実用性を制限することができる。
ここでは, 自己整合性は, 仮説の早期決定を通じて, 並列性を保ちながら, 長い連鎖推論タスクに対してよりトークン効率を高めることができるかを検討する。
具体的には、すべての解を並列に生成するが、周期的に不必要な中間仮説を2つの軽量な指標に基づいて提示する。
(a)個人仮説に対するモデル自身の自信、及び
b) 継続保持を検討中の候補部分集合による現在のすべての仮説の語彙的カバレッジ。
我々は,2つの指標を用いた高速な重み付き集合被覆アルゴリズムを設計し,この手法が全モデルのトークン効率を10~35%向上できることを示す。
関連論文リスト
- The Consistency Hypothesis in Uncertainty Quantification for Large Language Models [22.60039074743706]
モデルAPIアクセスのみに依存するブラックボックス不確実性定量化(UQ)手法は,その実用的メリットから人気を博している。
本稿では,自信の代用として生成整合性を利用するUQ手法の背景にある暗黙的な仮定について検討する。
信頼度推定のための世代間類似性を集約するデータフリーなブラックボックスUQ手法を提案する。
論文 参考訳(メタデータ) (2025-06-27T01:53:15Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - ConCISE: Confidence-guided Compression in Step-by-step Efficient Reasoning [75.1101108949743]
大規模推論モデル(LRM)は、Chain-of-Thought (CoT)プロンプトを介して複雑な推論タスクを強く行う。
LRMは冗長なコンテンツによる冗長なアウトプット、計算オーバーヘッドの増加、ユーザエクスペリエンスの低下に悩まされることが多い。
本稿では,推論中のモデルの信頼性を高めることによって推論チェーンを簡素化するフレームワークであるConCISEを提案する。
論文 参考訳(メタデータ) (2025-05-08T01:40:40Z) - Saliency-driven Dynamic Token Pruning for Large Language Models [32.903622070917194]
塩分駆動型動的トケンプルーニング(SDTP)
軽量なサリエンシ駆動予測モジュールは、各トークンの重要度をその隠れ状態で推定するように設計されている。
ランキングに基づく最適化手法を提案し,評価スコアと予測重要スコアのランキングばらつきを最小化する。
論文 参考訳(メタデータ) (2025-04-06T15:15:07Z) - Scalable Best-of-N Selection for Large Language Models via Self-Certainty [65.31658824274894]
Best-of-N選択は、大規模言語モデルの推論性能を改善するための重要なテクニックである。
本稿では,外部報酬モデルを必要とすることなく,応答品質を推定する新規かつ効率的な指標である自己確実性を提案する。
本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文 参考訳(メタデータ) (2025-02-25T19:08:07Z) - Confidence Improves Self-Consistency in LLMs [9.764747744761085]
信頼性インフォームド・セルフ一貫性(CISC)について紹介する。
CISCは、モデルから直接得られる信頼度スコアに基づいて、重み付けされた多数決を行う。
9つのモデルと4つのデータセットでテストすると、CISCはほぼすべての構成で自己整合性を上回っます。
論文 参考訳(メタデータ) (2025-02-10T08:10:29Z) - Mirror-Consistency: Harnessing Inconsistency in Majority Voting [54.30719306011487]
本稿では,標準的な自己整合性アプローチの強化であるミラー・一貫性について述べる。
Mirror-Consistencyは「反射鏡」を自己組織化復号プロセスに組み込む。
ミラー一貫性は自己整合性と比較して,推理精度と信頼性校正の両面において優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-10-07T03:41:08Z) - Path-Consistency: Prefix Enhancement for Efficient Inference in LLM [3.309813585671485]
textitpath-consistencyは、自己整合性においてランダムまたはあまり有用なサンプリングからエラーと冗長の両方を緩和する。
textitpath-consistencyは7.8%$から40.5%$までの推論遅延を著しく加速する。
論文 参考訳(メタデータ) (2024-08-25T01:45:53Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - On Efficient and Robust Metrics for RANSAC Hypotheses and 3D Rigid
Registration [51.64236850960365]
本稿では, 高精度な3次元剛性登録を実現するために, RANSAC仮説の効率的かつ堅牢な評価指標の開発に焦点をあてる。
Inlierとoutlierのコントリビューションを分析し、RANSAC仮説の異なる設計モチベーションを持つ、いくつかの効率的で堅牢なメトリクスを提案する。
論文 参考訳(メタデータ) (2020-11-10T02:22:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。