論文の概要: Reasoning Aware Self-Consistency: Leveraging Reasoning Paths for Efficient LLM Sampling
- arxiv url: http://arxiv.org/abs/2408.17017v3
- Date: Tue, 04 Feb 2025 03:59:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:55:49.660525
- Title: Reasoning Aware Self-Consistency: Leveraging Reasoning Paths for Efficient LLM Sampling
- Title(参考訳): 自己整合性に気付く推論:効率的なLCMサンプリングのための推論経路の活用
- Authors: Guangya Wan, Yuqi Wu, Jie Chen, Sheng Li,
- Abstract要約: 自己整合性は、複数の推論経路をサンプリングすることによって、大規模言語モデル(LLM)における幻覚を緩和する。
本稿では、サンプリング効率を高め、忠実性を推論する新しいフレームワークであるReasoning-Aware Self-Consistency (RASC)を紹介する。
- 参考スコア(独自算出の注目度): 9.44858963874474
- License:
- Abstract: Self-Consistency mitigates hallucinations in Large Language Models (LLMs) by sampling multiple reasoning paths,but it lacks a systematic approach to determine the optimal number of samples or select the most faithful rationale. To address this limitation, we introduce Reasoning-Aware Self-Consistency (RASC), a novel framework that enhances sampling efficiency and reasoning faithfulness by dynamically evaluating both outputs and rationales. RASC assesses the quality of reasoning and the consistency of answers for each generated sample, using these assessments to guide early stopping decisions and rationale selection. The framework employs criteria-based stopping and weighted majority voting, enabling more informed choices on when to halt sampling and which rationale to select. Our comprehensive experiments across diverse question-answering datasets demonstrate that RASC outperforms existing methods, reducing sample usage by approximately 70% while maintaining accuracy. Moreover, RASC facilitates the selection of high-fidelity rationales, thereby improving the faithfulness of LLM outputs. Our approach effectively addresses the efficiency-accuracy trade-off in LLM reasoning tasks, offering a new perspective for more nuanced, faithful, and effective utilization of LLMs in resource-constrained environments.
- Abstract(参考訳): 自己整合性(Self-Consistency)は、複数の推論経路をサンプリングすることによって、大規模言語モデル(LLM)における幻覚を緩和するが、最適なサンプル数を決定する体系的なアプローチや、最も忠実な論理を選択できない。
この制限に対処するために、我々は、サンプリング効率を高め、出力と合理性の両方を動的に評価することで忠実性を推論する新しいフレームワークであるReasoning-Aware Self-Consistency (RASC)を導入する。
RASCは、これらの評価を用いて、早期停止決定と合理化選択を導くことによって、生成された各サンプルに対する推論の質と回答の整合性を評価する。
このフレームワークでは、基準ベースのストップと重み付けされた多数決を採用しており、サンプリングをいつ停止するか、どの論理を選択すべきかについて、より詳しい選択を可能にする。
様々な質問応答データセットを対象とした総合的な実験により、RASCは既存の手法よりも優れており、精度を維持しながらサンプル使用量を約70%削減していることが示された。
さらに、RASCは、高忠実な有理数の選択を容易にし、LCM出力の忠実度を向上させる。
提案手法は, LLM推論タスクにおける効率・精度のトレードオフを効果的に解決し, 資源制約環境におけるLCMのよりきめ細やかな, 忠実な, 効果的利用の新たな視点を提供する。
関連論文リスト
- Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。
RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。
RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-01-31T17:19:57Z) - Reinforcing Thinking through Reasoning-Enhanced Reward Models [6.636512424910708]
大規模言語モデル(LLM)は、推論時思考による複雑な多段階推論において大きな可能性を秘めている。
LLMは、知識境界に対する自己認識が限られているため、いつ思考をやめるかを決めるのに苦労する。
この研究は、LLM自身の推論プロセスを合成行動データに蒸留することで、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-12-31T04:50:15Z) - Aligning with Logic: Measuring, Evaluating and Improving Logical Preference Consistency in Large Language Models [31.558429029429863]
大規模言語モデル(LLM)は、信頼できる意思決定システムをサポートするために予測可能で信頼性が高いと期待されている。
本研究では、より信頼性の高いLLMシステムを構築するための基本的な要件として、論理的選好整合性を検討する。
一貫性の向上はLLM駆動論理ベースのアルゴリズムの性能向上につながることを示す。
論文 参考訳(メタデータ) (2024-10-03T04:34:04Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - Leveraging LLMs for Dialogue Quality Measurement [27.046917937460798]
大規模言語モデル(LLM)は、NLPタスク全体で堅牢なゼロショットと少数ショットの機能を提供する。
モデルサイズ,文脈内例,選択手法などの操作要因を考察し,CoT推論とラベル抽出手法について検討する。
この結果から,適切な微調整と十分な推論能力を有するLCMを自動対話評価に活用できることが示唆された。
論文 参考訳(メタデータ) (2024-06-25T06:19:47Z) - Grade Score: Quantifying LLM Performance in Option Selection [0.0]
グレードスコア」は、大規模言語モデル(LLM)の一貫性と公平性を評価するために設計された新しい計量である
グレードスコアは、順序バイアスを測定するエントロピーと、選択安定性を評価するモード周波数を組み合わせる。
本研究は,グレードスコアを最適化するために,プロンプトエンジニアリングやオプションサンプリング戦略などの手法を探求する。
論文 参考訳(メタデータ) (2024-06-17T19:29:39Z) - Balancing Rigor and Utility: Mitigating Cognitive Biases in Large Language Models for Multiple-Choice Questions [0.46873264197900916]
本稿では,大規模言語モデル(LLM)の意思決定過程における認知バイアスの役割について検討する。
適切なバランスをとると、ある程度の認知バイアスが合理的な偏差やショートカットによって意思決定効率を高めることが示される。
論文 参考訳(メタデータ) (2024-06-16T16:25:22Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - Solving Multistage Stochastic Linear Programming via Regularized Linear
Decision Rules: An Application to Hydrothermal Dispatch Planning [77.34726150561087]
AdaSO(Adaptive least absolute shrinkage and selection operator)に基づく線形決定規則(LDR)の新しい正規化手法を提案する。
実験により、MSLPを解くために古典的な非正規化LDRを使用する場合、過度に適合する脅威は無視できないことが示された。
LHDP問題に対しては、非正規化ベンチマークと比較して、提案したフレームワークの次の利点を強調した。
論文 参考訳(メタデータ) (2021-10-07T02:36:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。