Fugu-MT 論文翻訳(概要): Learning When to Sample: Confidence-Aware Self-Consistency for Efficient LLM Chain-of-Thought Reasoning

論文の概要: Learning When to Sample: Confidence-Aware Self-Consistency for Efficient LLM Chain-of-Thought Reasoning

arxiv url: http://arxiv.org/abs/2603.08999v1
Date: Mon, 09 Mar 2026 22:34:06 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-11 15:25:23.861889
Title: Learning When to Sample: Confidence-Aware Self-Consistency for Efficient LLM Chain-of-Thought Reasoning
Title（参考訳）: いつサンプルになるか: 信頼を意識したLLMチェイン・オブ・ソート推論のための自己整合性
Authors: Juming Xiong, Kevin Guo, Congning Ni, Chao Yan, Katherine Brown, Avinash Baidya, Xiang Gao, Bradley Marlin, Zhijun Yin,
Abstract要約: 大規模言語モデル(LLM)は、チェーン・オブ・ソート(CoT)推論によって強い推論性能を達成する。最近の自己整合性に基づくアプローチは、精度をさらに向上するが、複数の推論軌道のサンプリングと集約が必要である。本稿では,単一経路と複数経路の推論を適応的に選択するための単一経路推論軌道を解析する信頼度対応決定フレームワークを提案する。
参考スコア（独自算出の注目度）: 7.8668388431725695
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) achieve strong reasoning performance through chain-of-thought (CoT) reasoning, yet often generate unnecessarily long reasoning paths that incur high inference cost. Recent self-consistency-based approaches further improve accuracy but require sampling and aggregating multiple reasoning trajectories, leading to substantial additional computational overhead. This paper introduces a confidence-aware decision framework that analyzes a single completed reasoning trajectory to adaptively select between single-path and multi-path reasoning. The framework is trained using sentence-level numeric and linguistic features extracted from intermediate reasoning states in the MedQA dataset and generalizes effectively to MathQA, MedMCQA, and MMLU without additional fine-tuning. Experimental results show that the proposed method maintains accuracy comparable to multi-path baselines while using up to 80\% fewer tokens. These findings demonstrate that reasoning trajectories contain rich signals for uncertainty estimation, enabling a simple, transferable mechanism to balance accuracy and efficiency in LLM reasoning.
Abstract（参考訳）: 大規模言語モデル(LLM)は、チェーン・オブ・ソート(CoT)推論を通じて強力な推論性能を達成するが、しばしば高い推論コストを発生させる必要のない長い推論経路を生成する。最近の自己整合性に基づくアプローチは精度をさらに向上するが、複数の推論軌道をサンプリングし集約する必要があるため、計算オーバーヘッドは大幅に増加する。本稿では,単一経路と複数経路の推論を適応的に選択するための単一経路推論軌道を解析する信頼度対応決定フレームワークを提案する。このフレームワークは、MedQAデータセットの中間的推論状態から抽出された文レベル数値および言語的特徴を用いて訓練され、追加の微調整なしでMathQA、MedMCQA、MMLUに効果的に一般化される。実験の結果,提案手法は最大80%のトークンを用いて,マルチパスベースラインに匹敵する精度を維持していることがわかった。これらの結果から, 推理軌道には不確実性推定のための豊富な信号が含まれており, LLM推理における精度と効率のバランスをシンプルかつ伝達可能な機構が可能であることが示唆された。

関連論文リスト

Balancing Faithfulness and Performance in Reasoning via Multi-Listener Soft Execution [79.98699884805636]
Reasoning Execution by Multiple Listeners (REMUL) は多人数の強化学習手法である。 REMULは、推論が他の当事者に従えるかがより忠実になるという仮説に基づいている。スピーカーは、リスナーにとって明らかな推論を生み出すことで報われます。
論文参考訳（メタデータ） (2026-02-18T02:55:55Z)
Efficient Thought Space Exploration through Strategic Intervention [54.35208611253168]
本稿では,この知見を2つの相乗的コンポーネントを通して操作するHint-Practice Reasoning(HPR)フレームワークを提案する。フレームワークの中核となる革新は、動的に介入点を識別する分散不整合低減(DIR)である。算術的および常識的推論ベンチマークによる実験は、HPRの最先端の効率-精度トレードオフを実証している。
論文参考訳（メタデータ） (2025-11-13T07:26:01Z)
In-Token Rationality Optimization: Towards Accurate and Concise LLM Reasoning via Self-Feedback [38.915062716409686]
InTROはトークンレベルの探索と,正確かつ簡潔な推論のための自己フィードバックを可能にする,新たなフレームワークである。 InTROは他のベースラインを一貫して上回り、ベースモデルと比較して解の精度を最大20%向上させる。その思考の連鎖は明らかに簡潔であり、冗長性が低下している。
論文参考訳（メタデータ） (2025-11-13T01:47:06Z)
Verifying Large Language Models' Reasoning Paths via Correlation Matrix Rank [71.09032766271493]
大規模言語モデル (LLM) は誤りや幻覚を引き起こす傾向がある。アウトプットを効果的かつ効率的にチェックする方法は、アプリケーションにとって重要な問題となっている。
論文参考訳（メタデータ） (2025-10-28T11:01:10Z)
PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文参考訳（メタデータ） (2025-05-29T17:55:49Z)
LIMOPro: Reasoning Refinement for Efficient and Effective Test-time Scaling [39.61818305829112]
PIR(Perplexity-based Importance Refinement)は,各推論ステップの重要性を定量的に評価するフレームワークである。 PIRは、プログレッシブ推論コンポーネントを保持しながら、低重要機能ステップのみを特定し、選択的にプーンする。我々のアプローチは、異なるモデルサイズ、データソース、トークン予算にまたがる強力な一般化可能性を示す。
論文参考訳（メタデータ） (2025-05-25T15:17:57Z)
Stepwise Reasoning Checkpoint Analysis: A Test Time Scaling Method to Enhance LLMs' Reasoning [81.50681925980135]
本稿では,ステップワイズ推論チェックポイント分析(SRCA)を提案する。本研究は,(1)中間チェックポイント回答による経路推論をグループ化して品質を確保しつつ多様性を維持するAnswer-Clustered Search,(2)最終決定にすべての中間回答を活用するCheckpoint Candidate Augmentationの2つの主要な戦略を取り入れた。提案手法は経路均質化を効果的に低減し,高品質な中間結果を活用することにより耐故障機構を創出する。
論文参考訳（メタデータ） (2025-05-23T12:42:50Z)
The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。 UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文参考訳（メタデータ） (2025-03-04T18:56:03Z)
Lachesis: Predicting LLM Inference Accuracy using Structural Properties of Reasoning Paths [12.377041655669728]
自己整合性に基づくLLM推論の予測モデルであるLachesisを紹介する。我々は,最近提案されたLLMに基づく障害局所化手法であるAutoFLを用いて実験的に評価した。結果は、Lachesisが解の正しさを最大0.8136の精度で予測できることを示唆している。
論文参考訳（メタデータ） (2024-12-11T10:56:47Z)
Reasoning Aware Self-Consistency: Leveraging Reasoning Paths for Efficient LLM Sampling [9.44858963874474]
自己整合性は、複数の推論経路をサンプリングすることによって、大規模言語モデル(LLM)における幻覚を緩和する。本稿では、サンプリング効率を高め、忠実性を推論する新しいフレームワークであるReasoning-Aware Self-Consistency (RASC)を紹介する。
論文参考訳（メタデータ） (2024-08-30T05:14:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。