論文の概要: Dynamic Self-Consistency: Leveraging Reasoning Paths for Efficient LLM Sampling
- arxiv url: http://arxiv.org/abs/2408.17017v1
- Date: Fri, 30 Aug 2024 05:14:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-02 16:29:13.299371
- Title: Dynamic Self-Consistency: Leveraging Reasoning Paths for Efficient LLM Sampling
- Title(参考訳): 動的自己整合性:効率的なLDMサンプリングのための推論経路の活用
- Authors: Guangya Wan, Yuqi Wu, Jie Chen, Sheng Li,
- Abstract要約: 自己整合性(SC)は、生成されたサンプルの数に比例した計算コストをもたらす。
我々は,サンプル生成数を調整する革新的な早期停止フレームワークであるReasoning-Aware Self-Consistency (RASC)を提案する。
RASCはサンプル使用量を平均80%削減し、元のSCに比べて5%まで精度を維持または改善した。
- 参考スコア(独自算出の注目度): 9.44858963874474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-Consistency (SC) is a widely used method to mitigate hallucinations in Large Language Models (LLMs) by sampling the LLM multiple times and outputting the most frequent solution. Despite its benefits, SC results in significant computational costs proportional to the number of samples generated. Previous early-stopping approaches, such as Early Stopping Self Consistency and Adaptive Consistency, have aimed to reduce these costs by considering output consistency, but they do not analyze the quality of the reasoning paths (RPs) themselves. To address this issue, we propose Reasoning-Aware Self-Consistency (RASC), an innovative early-stopping framework that dynamically adjusts the number of sample generations by considering both the output answer and the RPs from Chain of Thought (CoT) prompting. RASC assigns confidence scores sequentially to the generated samples, stops when certain criteria are met, and then employs weighted majority voting to optimize sample usage and enhance answer reliability. We comprehensively test RASC with multiple LLMs across varied QA datasets. RASC outperformed existing methods and significantly reduces sample usage by an average of 80% while maintaining or improving accuracy up to 5% compared to the original SC
- Abstract(参考訳): 自己整合性(英: Self-Consistency, SC)とは、LLMを複数回サンプリングし、最も頻繁な解を出力することによって、大規模言語モデル(LLM)における幻覚を緩和する手法である。
その利点にもかかわらず、SCは生成されたサンプルの数に比例して計算コストがかなり高い。
早期停止自己整合性や適応整合性(Adaptive Consistency)といった従来の早期停止アプローチは、出力の整合性を考慮してこれらのコストを削減することを目的としているが、それ自身は推論経路(RP)の品質を分析していない。
この問題に対処するために,提案するRASC(Reasoning-Aware Self-Consistency)は,CoT(Chain of Thought)プロンプトからの出力応答とRPの両方を考慮することで,サンプル生成数を動的に調整する,革新的な早期停止フレームワークである。
RASCは、生成したサンプルに逐次信頼スコアを割り当て、一定の基準が満たされたときに停止し、サンプル使用を最適化し、回答信頼性を高めるために重み付けされた多数決を採用する。
RASCを様々なQAデータセットにまたがって複数のLLMで包括的にテストする。
RASCは既存の手法より優れており、サンプル使用量を平均80%削減し、元のSCに比べて5%まで精度を維持・改善した。
関連論文リスト
- An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。
我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。
我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文 参考訳(メタデータ) (2024-11-08T12:08:17Z) - Path-Consistency: Prefix Enhancement for Efficient Inference in LLM [3.309813585671485]
textitpath-consistencyは、自己整合性においてランダムまたはあまり有用なサンプリングからエラーと冗長の両方を緩和する。
textitpath-consistencyは7.8%$から40.5%$までの推論遅延を著しく加速する。
論文 参考訳(メタデータ) (2024-08-25T01:45:53Z) - Make Every Penny Count: Difficulty-Adaptive Self-Consistency for Cost-Efficient Reasoning [19.408941114068444]
自己整合性(英: Self-Consistency, SC)は、思考の連鎖推論のための復号法である。
その変種である適応自己整合(ASC)とアーリーストッピング自己整合(ESC)は、プレサンプルの集合の後方分布に基づいて標本の数を動的に調整する。
本稿では,事前視点と後方視点の両方からの難易度情報を利用して,推論資源を適応的に割り当てるDifficulty-Adaptive Self-Consistency (DSC)を提案する。
論文 参考訳(メタデータ) (2024-08-24T04:03:35Z) - Integrate the Essence and Eliminate the Dross: Fine-Grained Self-Consistency for Free-Form Language Generation [20.138831477848615]
本研究では,複数のサンプルから得られた詳細なコンセンサス知識を効果的に活用することにより,出力品質を最適化するFSCを提案する。
FSCの有効性は、要約、コード生成、数学的推論など、様々なタスクに関する広範な実験を通じて実証される。
論文 参考訳(メタデータ) (2024-07-02T08:38:31Z) - Finite-Time Convergence and Sample Complexity of Actor-Critic Multi-Objective Reinforcement Learning [20.491176017183044]
本稿では多目的強化学習(MORL)問題に取り組む。
MOACと呼ばれる革新的なアクター批判アルゴリズムを導入し、競合する報酬信号間のトレードオフを反復的に行うことでポリシーを見出す。
論文 参考訳(メタデータ) (2024-05-05T23:52:57Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Let's Sample Step by Step: Adaptive-Consistency for Efficient Reasoning
and Coding with LLMs [60.58434523646137]
大規模言語モデル(LLM)からの出力の正確性を改善するための一般的なアプローチは、自己整合性である。
コスト効率のよいモデルに依存しない手法であるAdaptive-Consistencyを導入し,各質問のサンプル数を動的に調整する。
実験の結果,Adaptive-Consistencyはサンプル予算を最大7.9倍に削減し,平均精度は0.1%以下であった。
論文 参考訳(メタデータ) (2023-05-19T17:49:25Z) - Solving Multistage Stochastic Linear Programming via Regularized Linear
Decision Rules: An Application to Hydrothermal Dispatch Planning [77.34726150561087]
AdaSO(Adaptive least absolute shrinkage and selection operator)に基づく線形決定規則(LDR)の新しい正規化手法を提案する。
実験により、MSLPを解くために古典的な非正規化LDRを使用する場合、過度に適合する脅威は無視できないことが示された。
LHDP問題に対しては、非正規化ベンチマークと比較して、提案したフレームワークの次の利点を強調した。
論文 参考訳(メタデータ) (2021-10-07T02:36:14Z) - Doubly Robust Off-Policy Actor-Critic: Convergence and Optimality [131.45028999325797]
ディスカウント型MDPのための2倍堅牢なオフポリチックAC(DR-Off-PAC)を開発した。
DR-Off-PACは、俳優と批評家の両方が一定のステップで同時に更新される単一のタイムスケール構造を採用しています。
有限時間収束速度を研究し, dr-off-pac のサンプル複雑性を特徴とし, $epsilon$-accurate optimal policy を得る。
論文 参考訳(メタデータ) (2021-02-23T18:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。