論文の概要: Self-Training Large Language Models with Confident Reasoning
- arxiv url: http://arxiv.org/abs/2505.17454v1
- Date: Fri, 23 May 2025 04:25:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.808865
- Title: Self-Training Large Language Models with Confident Reasoning
- Title(参考訳): 信頼関係を考慮した自己学習型大規模言語モデル
- Authors: Hyosoon Jang, Yunhui Jang, Sungjae Lee, Jungseul Ok, Sungsoo Ahn,
- Abstract要約: 大規模言語モデル(LLM)は、最終回答の前に推論パスを生成することで、印象的なパフォーマンスを示している。
政策最適化による高共役共振経路を微調整する新しい自己学習手法であるCORE-POを提案する。
実験の結果,CORE-POは既存の自己学習法と比較して,4つの分布内および2つの分布外ベンチマークの出力精度を向上することがわかった。
- 参考スコア(独自算出の注目度): 15.260831996769962
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown impressive performance by generating reasoning paths before final answers, but learning such a reasoning path requires costly human supervision. To address this issue, recent studies have explored self-training methods that improve reasoning capabilities using pseudo-labels generated by the LLMs themselves. Among these, confidence-based self-training fine-tunes LLMs to prefer reasoning paths with high-confidence answers, where confidence is estimated via majority voting. However, such methods exclusively focus on the quality of the final answer and may ignore the quality of the reasoning paths, as even an incorrect reasoning path leads to a correct answer by chance. Instead, we advocate the use of reasoning-level confidence to identify high-quality reasoning paths for self-training, supported by our empirical observations. We then propose a new self-training method, CORE-PO, that fine-tunes LLMs to prefer high-COnfidence REasoning paths through Policy Optimization. Our experiments show that CORE-PO improves the accuracy of outputs on four in-distribution and two out-of-distribution benchmarks, compared to existing self-training methods.
- Abstract(参考訳): 大規模言語モデル (LLM) は最終回答の前に推論経路を生成することで印象的な性能を示したが、そのような推論経路を学習するには人的監督がかかる。
この問題に対処するため、近年の研究では、LLM自体が生成する擬似ラベルを用いて推論能力を向上させる自己学習手法について検討している。
これらのうち、信頼に基づく自己学習型微調整LPMは、信頼度の高い回答を持つ推論パスを好んでおり、多数決によって信頼度が推定される。
しかし、そのような手法は最終回答の質にのみ焦点を合わせ、誤った推論経路でさえ偶然に正しい答えにつながるため、推論パスの品質を無視する可能性がある。
代わりに、自己学習のための高品質な推論経路を特定するための推論レベルの信頼性の使用を、経験的観察によって支持する。
次に、ポリシー最適化による高共役共振経路を微調整する新しい自己学習手法、CORE-POを提案する。
実験の結果,CORE-POは既存の自己学習法と比較して,4つの分布内および2つの分布外ベンチマークの出力精度を向上することがわかった。
関連論文リスト
- Dancing with Critiques: Enhancing LLM Reasoning with Stepwise Natural Language Self-Critique [66.94905631175209]
我々は、段階的に自然言語の自己批判(PANEL)を行う新しい推論時間スケーリング手法を提案する。
ステップレベルの探索プロセスのガイドとして、自己生成の自然言語批判をフィードバックとして採用している。
このアプローチは、タスク固有の検証と関連するトレーニングオーバーヘッドの必要性を回避します。
論文 参考訳(メタデータ) (2025-03-21T17:59:55Z) - R1-VL: Learning to Reason with Multimodal Large Language Models via Step-wise Group Relative Policy Optimization [86.32257216965229]
そこで本稿では,MLLMの自己改善を支援するオンライン強化学習フレームワークを提案する。
StepGRPOは、Step-wise Reasoning Accuracy Reward (StepRAR)とStep-wise Reasoning Validity Reward (StepRVR)の2つの新しいルールベースの推論報酬を導入した。
提案するStepGRPOでは,ステップバイステップ推論に優れた機能を持つMLLMのシリーズであるR1-VLを紹介する。
論文 参考訳(メタデータ) (2025-03-17T08:51:44Z) - Scalable Best-of-N Selection for Large Language Models via Self-Certainty [65.31658824274894]
Best-of-N選択は、大規模言語モデルの推論性能を改善するための重要なテクニックである。
本稿では,外部報酬モデルを必要とすることなく,応答品質を推定する新規かつ効率的な指標である自己確実性を提案する。
本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文 参考訳(メタデータ) (2025-02-25T19:08:07Z) - Confidence Improves Self-Consistency in LLMs [9.764747744761085]
信頼性インフォームド・セルフ一貫性(CISC)について紹介する。
CISCは、モデルから直接得られる信頼度スコアに基づいて、重み付けされた多数決を行う。
9つのモデルと4つのデータセットでテストすると、CISCはほぼすべての構成で自己整合性を上回っます。
論文 参考訳(メタデータ) (2025-02-10T08:10:29Z) - Self-Improvement in Language Models: The Sharpening Mechanism [70.9248553790022]
我々は、レンズを通して自己改善の能力について、新たな視点を提供する。
言語モデルは、正しい応答を生成する場合よりも、応答品質の検証が優れているという観察に感銘を受けて、後学習において、モデル自体を検証対象として、自己改善を形式化する。
SFTとRLHFに基づく自己改善アルゴリズムの2つの自然ファミリーを解析する。
論文 参考訳(メタデータ) (2024-12-02T20:24:17Z) - Self-Training Meets Consistency: Improving LLMs' Reasoning with Consistency-Driven Rationale Evaluation [15.124701883286436]
大規模言語モデル(LLM)の自己学習アプローチは、自己生成的理性に基づいてモデルをトレーニングすることで推論能力を向上させる。
これまでのアプローチでは、与えられた質問に対する正しい答えをトレーニングに適するように、合理的にラベル付けしてきた。
CREST(Consistency-driven Rationale Evaluation for Self-Training)は,フォローアップ質問を通じて各根拠を更に評価する自己学習フレームワークである。
論文 参考訳(メタデータ) (2024-11-10T08:11:05Z) - ReGenesis: LLMs can Grow into Reasoning Generalists via Self-Improvement [70.09541267910974]
学習後の大規模言語モデル (LLM) は推論能力を高めることができる。
既存の自己合成手法は、一般化の貧弱さからドメイン外推論(OOD)タスクに悩まされる。
本稿では,学習後データとして推論経路を自己合成する手法であるSelf-Improvement (ReGenesis) による推論ジェネリストを提案する。
論文 参考訳(メタデータ) (2024-10-03T00:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。