論文の概要: Reasoning Aware Self-Consistency: Leveraging Reasoning Paths for Efficient LLM Sampling
- arxiv url: http://arxiv.org/abs/2408.17017v3
- Date: Tue, 04 Feb 2025 03:59:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:21:52.862506
- Title: Reasoning Aware Self-Consistency: Leveraging Reasoning Paths for Efficient LLM Sampling
- Title(参考訳): 自己整合性に気付く推論:効率的なLCMサンプリングのための推論経路の活用
- Authors: Guangya Wan, Yuqi Wu, Jie Chen, Sheng Li,
- Abstract要約: 自己整合性は、複数の推論経路をサンプリングすることによって、大規模言語モデル(LLM)における幻覚を緩和する。
本稿では、サンプリング効率を高め、忠実性を推論する新しいフレームワークであるReasoning-Aware Self-Consistency (RASC)を紹介する。
- 参考スコア(独自算出の注目度): 9.44858963874474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-Consistency mitigates hallucinations in Large Language Models (LLMs) by sampling multiple reasoning paths,but it lacks a systematic approach to determine the optimal number of samples or select the most faithful rationale. To address this limitation, we introduce Reasoning-Aware Self-Consistency (RASC), a novel framework that enhances sampling efficiency and reasoning faithfulness by dynamically evaluating both outputs and rationales. RASC assesses the quality of reasoning and the consistency of answers for each generated sample, using these assessments to guide early stopping decisions and rationale selection. The framework employs criteria-based stopping and weighted majority voting, enabling more informed choices on when to halt sampling and which rationale to select. Our comprehensive experiments across diverse question-answering datasets demonstrate that RASC outperforms existing methods, reducing sample usage by approximately 70% while maintaining accuracy. Moreover, RASC facilitates the selection of high-fidelity rationales, thereby improving the faithfulness of LLM outputs. Our approach effectively addresses the efficiency-accuracy trade-off in LLM reasoning tasks, offering a new perspective for more nuanced, faithful, and effective utilization of LLMs in resource-constrained environments.
- Abstract(参考訳): 自己整合性(Self-Consistency)は、複数の推論経路をサンプリングすることによって、大規模言語モデル(LLM)における幻覚を緩和するが、最適なサンプル数を決定する体系的なアプローチや、最も忠実な論理を選択できない。
この制限に対処するために、我々は、サンプリング効率を高め、出力と合理性の両方を動的に評価することで忠実性を推論する新しいフレームワークであるReasoning-Aware Self-Consistency (RASC)を導入する。
RASCは、これらの評価を用いて、早期停止決定と合理化選択を導くことによって、生成された各サンプルに対する推論の質と回答の整合性を評価する。
このフレームワークでは、基準ベースのストップと重み付けされた多数決を採用しており、サンプリングをいつ停止するか、どの論理を選択すべきかについて、より詳しい選択を可能にする。
様々な質問応答データセットを対象とした総合的な実験により、RASCは既存の手法よりも優れており、精度を維持しながらサンプル使用量を約70%削減していることが示された。
さらに、RASCは、高忠実な有理数の選択を容易にし、LCM出力の忠実度を向上させる。
提案手法は, LLM推論タスクにおける効率・精度のトレードオフを効果的に解決し, 資源制約環境におけるLCMのよりきめ細やかな, 忠実な, 効果的利用の新たな視点を提供する。
関連論文リスト
- Scalable Best-of-N Selection for Large Language Models via Self-Certainty [65.31658824274894]
Best-of-N選択は、大規模言語モデルの推論性能を改善するための重要なテクニックである。
本稿では,外部報酬モデルを必要とすることなく,応答品質を推定する新規かつ効率的な指標である自己確実性を提案する。
本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文 参考訳(メタデータ) (2025-02-25T19:08:07Z) - Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。
RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。
RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-01-31T17:19:57Z) - Reinforcing Thinking through Reasoning-Enhanced Reward Models [6.636512424910708]
大規模言語モデル(LLM)は、推論時思考による複雑な多段階推論において大きな可能性を秘めている。
LLMは、知識境界に対する自己認識が限られているため、いつ思考をやめるかを決めるのに苦労する。
この研究は、LLM自身の推論プロセスを合成行動データに蒸留することで、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-12-31T04:50:15Z) - An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。
我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。
我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文 参考訳(メタデータ) (2024-11-08T12:08:17Z) - Aligning with Logic: Measuring, Evaluating and Improving Logical Preference Consistency in Large Language Models [31.558429029429863]
大規模言語モデル(LLM)は、信頼できる意思決定システムをサポートするために予測可能で信頼性が高いと期待されている。
本研究では、より信頼性の高いLLMシステムを構築するための基本的な要件として、論理的選好整合性を検討する。
一貫性の向上はLLM駆動論理ベースのアルゴリズムの性能向上につながることを示す。
論文 参考訳(メタデータ) (2024-10-03T04:34:04Z) - Path-Consistency: Prefix Enhancement for Efficient Inference in LLM [3.309813585671485]
textitpath-consistencyは、自己整合性においてランダムまたはあまり有用なサンプリングからエラーと冗長の両方を緩和する。
textitpath-consistencyは7.8%$から40.5%$までの推論遅延を著しく加速する。
論文 参考訳(メタデータ) (2024-08-25T01:45:53Z) - Make Every Penny Count: Difficulty-Adaptive Self-Consistency for Cost-Efficient Reasoning [19.408941114068444]
自己整合性(英: Self-Consistency, SC)は、思考の連鎖推論のための復号法である。
その変種である適応自己整合(ASC)とアーリーストッピング自己整合(ESC)は、プレサンプルの集合の後方分布に基づいて標本の数を動的に調整する。
本稿では,事前視点と後方視点の両方からの難易度情報を利用して,推論資源を適応的に割り当てるDifficulty-Adaptive Self-Consistency (DSC)を提案する。
論文 参考訳(メタデータ) (2024-08-24T04:03:35Z) - Integrate the Essence and Eliminate the Dross: Fine-Grained Self-Consistency for Free-Form Language Generation [20.138831477848615]
本研究では,複数のサンプルから得られた詳細なコンセンサス知識を効果的に活用することにより,出力品質を最適化するFSCを提案する。
FSCの有効性は、要約、コード生成、数学的推論など、様々なタスクに関する広範な実験を通じて実証される。
論文 参考訳(メタデータ) (2024-07-02T08:38:31Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - Leveraging LLMs for Dialogue Quality Measurement [27.046917937460798]
大規模言語モデル(LLM)は、NLPタスク全体で堅牢なゼロショットと少数ショットの機能を提供する。
モデルサイズ,文脈内例,選択手法などの操作要因を考察し,CoT推論とラベル抽出手法について検討する。
この結果から,適切な微調整と十分な推論能力を有するLCMを自動対話評価に活用できることが示唆された。
論文 参考訳(メタデータ) (2024-06-25T06:19:47Z) - Balancing Rigor and Utility: Mitigating Cognitive Biases in Large Language Models for Multiple-Choice Questions [0.46873264197900916]
認知バイアスが合理的な偏差やショートカットによって意思決定効率を高めることを示す。
モデレーションと禁忌オプションを導入することで、エラー率を減らし、意思決定精度を改善し、意思決定率を最適化する。
このアプローチは、認知バイアスを活用する新しい方法を提供し、大きな言語モデルの実用性を改善する。
論文 参考訳(メタデータ) (2024-06-16T16:25:22Z) - Finite-Time Convergence and Sample Complexity of Actor-Critic Multi-Objective Reinforcement Learning [20.491176017183044]
本稿では多目的強化学習(MORL)問題に取り組む。
MOACと呼ばれる革新的なアクター批判アルゴリズムを導入し、競合する報酬信号間のトレードオフを反復的に行うことでポリシーを見出す。
論文 参考訳(メタデータ) (2024-05-05T23:52:57Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - Let's Sample Step by Step: Adaptive-Consistency for Efficient Reasoning
and Coding with LLMs [60.58434523646137]
大規模言語モデル(LLM)からの出力の正確性を改善するための一般的なアプローチは、自己整合性である。
コスト効率のよいモデルに依存しない手法であるAdaptive-Consistencyを導入し,各質問のサンプル数を動的に調整する。
実験の結果,Adaptive-Consistencyはサンプル予算を最大7.9倍に削減し,平均精度は0.1%以下であった。
論文 参考訳(メタデータ) (2023-05-19T17:49:25Z) - Solving Multistage Stochastic Linear Programming via Regularized Linear
Decision Rules: An Application to Hydrothermal Dispatch Planning [77.34726150561087]
AdaSO(Adaptive least absolute shrinkage and selection operator)に基づく線形決定規則(LDR)の新しい正規化手法を提案する。
実験により、MSLPを解くために古典的な非正規化LDRを使用する場合、過度に適合する脅威は無視できないことが示された。
LHDP問題に対しては、非正規化ベンチマークと比較して、提案したフレームワークの次の利点を強調した。
論文 参考訳(メタデータ) (2021-10-07T02:36:14Z) - Doubly Robust Off-Policy Actor-Critic: Convergence and Optimality [131.45028999325797]
ディスカウント型MDPのための2倍堅牢なオフポリチックAC(DR-Off-PAC)を開発した。
DR-Off-PACは、俳優と批評家の両方が一定のステップで同時に更新される単一のタイムスケール構造を採用しています。
有限時間収束速度を研究し, dr-off-pac のサンプル複雑性を特徴とし, $epsilon$-accurate optimal policy を得る。
論文 参考訳(メタデータ) (2021-02-23T18:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。