Fugu-MT 論文翻訳(概要): Dynamic Self-Consistency: Leveraging Reasoning Paths for Efficient LLM Sampling

論文の概要: Dynamic Self-Consistency: Leveraging Reasoning Paths for Efficient LLM Sampling

arxiv url: http://arxiv.org/abs/2408.17017v2
Date: Sun, 10 Nov 2024 10:04:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:34.850057
Title: Dynamic Self-Consistency: Leveraging Reasoning Paths for Efficient LLM Sampling
Title（参考訳）: 動的自己整合性:効率的なLDMサンプリングのための推論経路の活用
Authors: Guangya Wan, Yuqi Wu, Jie Chen, Sheng Li,
Abstract要約: 自己整合性(SC)は、生成されたサンプルの数に比例した計算コストをもたらす。我々は,サンプル生成数を調整する革新的な早期停止フレームワークであるReasoning-Aware Self-Consistency (RASC)を提案する。 RASCはサンプル使用量を平均80%削減し、元のSCに比べて5%まで精度を維持または改善した。
参考スコア（独自算出の注目度）: 9.44858963874474
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Self-Consistency (SC) is a widely used method to mitigate hallucinations in Large Language Models (LLMs) by sampling the LLM multiple times and outputting the most frequent solution. Despite its benefits, SC results in significant computational costs proportional to the number of samples generated. Previous early-stopping approaches, such as Early Stopping Self Consistency and Adaptive Consistency, have aimed to reduce these costs by considering output consistency, but they do not analyze the quality of the reasoning paths (RPs) themselves. To address this issue, we propose Reasoning-Aware Self-Consistency (RASC), an innovative early-stopping framework that dynamically adjusts the number of sample generations by considering both the output answer and the RPs from Chain of Thought (CoT) prompting. RASC assigns confidence scores sequentially to the generated samples, stops when certain criteria are met, and then employs weighted majority voting to optimize sample usage and enhance answer reliability. We comprehensively test RASC with multiple LLMs across varied QA datasets. RASC outperformed existing methods and significantly reduces sample usage by an average of 80% while maintaining or improving accuracy up to 5% compared to the original SC
Abstract（参考訳）: 自己整合性(英: Self-Consistency, SC)とは、LLMを複数回サンプリングし、最も頻繁な解を出力することによって、大規模言語モデル(LLM)における幻覚を緩和する手法である。その利点にもかかわらず、SCは生成されたサンプルの数に比例して計算コストがかなり高い。早期停止自己整合性や適応整合性(Adaptive Consistency)といった従来の早期停止アプローチは、出力の整合性を考慮してこれらのコストを削減することを目的としているが、それ自身は推論経路(RP)の品質を分析していない。この問題に対処するために,提案するRASC(Reasoning-Aware Self-Consistency)は,CoT(Chain of Thought)プロンプトからの出力応答とRPの両方を考慮することで,サンプル生成数を動的に調整する,革新的な早期停止フレームワークである。 RASCは、生成したサンプルに逐次信頼スコアを割り当て、一定の基準が満たされたときに停止し、サンプル使用を最適化し、回答信頼性を高めるために重み付けされた多数決を採用する。 RASCを様々なQAデータセットにまたがって複数のLLMで包括的にテストする。 RASCは既存の手法より優れており、サンプル使用量を平均80%削減し、元のSCに比べて5%まで精度を維持・改善した。

関連論文リスト

SGIC: A Self-Guided Iterative Calibration Framework for RAG [45.17496149653415]
大規模言語モデル(LLM)は、頑健な文脈内推論を生かしている。ツールとして不確実性スコアを用いる新しいフレームワークを提案する。また、反復的な自己校正訓練セットを構築するための革新的なアプローチも導入する。
論文参考訳（メタデータ） (2025-06-19T09:45:13Z)
Training-free LLM Verification via Recycling Few-shot Examples [8.919343613551183]
LLM出力の検証にFew-shot例をリサイクルする新しいフレームワークを提案する(Referi)。私たちのキーとなるアイデアは、与えられた少数ショットの例を付加して、ターゲットクエリの候補出力を評価することです。 Referiはベイズのルールからモチベーションを得た2つの異なるスコアを組み合わせて生成した出力を評価し、その後、自信を持って決定され、文脈的に一貫性のある候補を選択する。
論文参考訳（メタデータ） (2025-06-08T10:02:07Z)
Speculative Reward Model Boosts Decision Making Ability of LLMs Cost-Effectively [13.40488551654639]
本稿では,検索戦略の費用対効果を評価するために3E基準を導入する。本稿では,既存の検索戦略とシームレスに統合するプラグイン・アンド・プレイ・フレームワークであるSpeculative Reward Model (SRM)を提案する。実験の結果,RMは,有効性を保ちながら,従来の検索フレームワークの1/10までコストを削減できることがわかった。
論文参考訳（メタデータ） (2025-05-31T05:32:12Z)
Stepwise Reasoning Checkpoint Analysis: A Test Time Scaling Method to Enhance LLMs' Reasoning [81.50681925980135]
本稿では,ステップワイズ推論チェックポイント分析(SRCA)を提案する。本研究は,(1)中間チェックポイント回答による経路推論をグループ化して品質を確保しつつ多様性を維持するAnswer-Clustered Search,(2)最終決定にすべての中間回答を活用するCheckpoint Candidate Augmentationの2つの主要な戦略を取り入れた。提案手法は経路均質化を効果的に低減し,高品質な中間結果を活用することにより耐故障機構を創出する。
論文参考訳（メタデータ） (2025-05-23T12:42:50Z)
Direct Retrieval-augmented Optimization: Synergizing Knowledge Selection and Language Models [83.8639566087953]
本稿では,2つの主要コンポーネントのエンドツーエンドトレーニングを可能にするDROという,直接検索拡張最適化フレームワークを提案する。 DROは、 (i) 文書置換推定と (ii) 再重み付けされ、段階的に改善されたRAGコンポーネントの2つのフェーズの間で交代する。理論解析により,DROは強化学習における政策段階的な手法に類似していることが明らかとなった。
論文参考訳（メタデータ） (2025-05-05T23:54:53Z)
Scalable Best-of-N Selection for Large Language Models via Self-Certainty [65.31658824274894]
Best-of-N選択は、大規模言語モデルの推論性能を改善するための重要なテクニックである。本稿では,外部報酬モデルを必要とすることなく,応答品質を推定する新規かつ効率的な指標である自己確実性を提案する。本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文参考訳（メタデータ） (2025-02-25T19:08:07Z)
Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。 RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。 RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文参考訳（メタデータ） (2025-01-31T17:19:57Z)
Reinforcing Thinking through Reasoning-Enhanced Reward Models [6.636512424910708]
大規模言語モデル(LLM)は、推論時思考による複雑な多段階推論において大きな可能性を秘めている。 LLMは、知識境界に対する自己認識が限られているため、いつ思考をやめるかを決めるのに苦労する。この研究は、LLM自身の推論プロセスを合成行動データに蒸留することで、これらの課題に対処する。
論文参考訳（メタデータ） (2024-12-31T04:50:15Z)
An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文参考訳（メタデータ） (2024-11-08T12:08:17Z)
Aligning with Logic: Measuring, Evaluating and Improving Logical Preference Consistency in Large Language Models [31.558429029429863]
大規模言語モデル(LLM)は、信頼できる意思決定システムをサポートするために予測可能で信頼性が高いと期待されている。本研究では、より信頼性の高いLLMシステムを構築するための基本的な要件として、論理的選好整合性を検討する。一貫性の向上はLLM駆動論理ベースのアルゴリズムの性能向上につながることを示す。
論文参考訳（メタデータ） (2024-10-03T04:34:04Z)
Path-Consistency: Prefix Enhancement for Efficient Inference in LLM [3.309813585671485]
textitpath-consistencyは、自己整合性においてランダムまたはあまり有用なサンプリングからエラーと冗長の両方を緩和する。 textitpath-consistencyは7.8%$から40.5%$までの推論遅延を著しく加速する。
論文参考訳（メタデータ） (2024-08-25T01:45:53Z)
Make Every Penny Count: Difficulty-Adaptive Self-Consistency for Cost-Efficient Reasoning [19.408941114068444]
自己整合性(英: Self-Consistency, SC)は、思考の連鎖推論のための復号法である。その変種である適応自己整合(ASC)とアーリーストッピング自己整合(ESC)は、プレサンプルの集合の後方分布に基づいて標本の数を動的に調整する。本稿では,事前視点と後方視点の両方からの難易度情報を利用して,推論資源を適応的に割り当てるDifficulty-Adaptive Self-Consistency (DSC)を提案する。
論文参考訳（メタデータ） (2024-08-24T04:03:35Z)
Integrate the Essence and Eliminate the Dross: Fine-Grained Self-Consistency for Free-Form Language Generation [20.138831477848615]
本研究では,複数のサンプルから得られた詳細なコンセンサス知識を効果的に活用することにより,出力品質を最適化するFSCを提案する。 FSCの有効性は、要約、コード生成、数学的推論など、様々なタスクに関する広範な実験を通じて実証される。
論文参考訳（メタデータ） (2024-07-02T08:38:31Z)
Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文参考訳（メタデータ） (2024-06-28T20:06:30Z)
Leveraging LLMs for Dialogue Quality Measurement [27.046917937460798]
大規模言語モデル(LLM)は、NLPタスク全体で堅牢なゼロショットと少数ショットの機能を提供する。モデルサイズ,文脈内例,選択手法などの操作要因を考察し,CoT推論とラベル抽出手法について検討する。この結果から,適切な微調整と十分な推論能力を有するLCMを自動対話評価に活用できることが示唆された。
論文参考訳（メタデータ） (2024-06-25T06:19:47Z)
Balancing Rigor and Utility: Mitigating Cognitive Biases in Large Language Models for Multiple-Choice Questions [0.46873264197900916]
認知バイアスが合理的な偏差やショートカットによって意思決定効率を高めることを示す。モデレーションと禁忌オプションを導入することで、エラー率を減らし、意思決定精度を改善し、意思決定率を最適化する。このアプローチは、認知バイアスを活用する新しい方法を提供し、大きな言語モデルの実用性を改善する。
論文参考訳（メタデータ） (2024-06-16T16:25:22Z)
Finite-Time Convergence and Sample Complexity of Actor-Critic Multi-Objective Reinforcement Learning [20.491176017183044]
本稿では多目的強化学習(MORL)問題に取り組む。 MOACと呼ばれる革新的なアクター批判アルゴリズムを導入し、競合する報酬信号間のトレードオフを反復的に行うことでポリシーを見出す。
論文参考訳（メタデータ） (2024-05-05T23:52:57Z)
Take the Bull by the Horns: Hard Sample-Reweighted Continual Training Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文参考訳（メタデータ） (2024-02-22T04:10:57Z)
Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。我々はLSMに答えを自己評価するように指示する。自己評価に基づくスコアリング手法をベンチマークする。
論文参考訳（メタデータ） (2023-12-14T19:09:22Z)
Let's reward step by step: Step-Level reward model as the Navigators for Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。 LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文参考訳（メタデータ） (2023-10-16T05:21:50Z)
Let's Sample Step by Step: Adaptive-Consistency for Efficient Reasoning and Coding with LLMs [60.58434523646137]
大規模言語モデル(LLM)からの出力の正確性を改善するための一般的なアプローチは、自己整合性である。コスト効率のよいモデルに依存しない手法であるAdaptive-Consistencyを導入し,各質問のサンプル数を動的に調整する。実験の結果,Adaptive-Consistencyはサンプル予算を最大7.9倍に削減し,平均精度は0.1%以下であった。
論文参考訳（メタデータ） (2023-05-19T17:49:25Z)
Solving Multistage Stochastic Linear Programming via Regularized Linear Decision Rules: An Application to Hydrothermal Dispatch Planning [77.34726150561087]
AdaSO(Adaptive least absolute shrinkage and selection operator)に基づく線形決定規則(LDR)の新しい正規化手法を提案する。実験により、MSLPを解くために古典的な非正規化LDRを使用する場合、過度に適合する脅威は無視できないことが示された。 LHDP問題に対しては、非正規化ベンチマークと比較して、提案したフレームワークの次の利点を強調した。
論文参考訳（メタデータ） (2021-10-07T02:36:14Z)
Doubly Robust Off-Policy Actor-Critic: Convergence and Optimality [131.45028999325797]
ディスカウント型MDPのための2倍堅牢なオフポリチックAC(DR-Off-PAC)を開発した。 DR-Off-PACは、俳優と批評家の両方が一定のステップで同時に更新される単一のタイムスケール構造を採用しています。有限時間収束速度を研究し, dr-off-pac のサンプル複雑性を特徴とし, $epsilon$-accurate optimal policy を得る。
論文参考訳（メタデータ） (2021-02-23T18:56:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。