論文の概要: Theoretical Modeling of LLM Self-Improvement Training Dynamics Through Solver-Verifier Gap
- arxiv url: http://arxiv.org/abs/2507.00075v1
- Date: Sun, 29 Jun 2025 06:48:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:58.251643
- Title: Theoretical Modeling of LLM Self-Improvement Training Dynamics Through Solver-Verifier Gap
- Title(参考訳): ソルバー検証ギャップによるLLM自己改善トレーニングダイナミクスの理論モデリング
- Authors: Yifan Sun, Yushan Liang, Zhen Zhang, Jiaye Teng,
- Abstract要約: 理論的には、ソルバ検証ギャップの概念を用いて自己改善の訓練力学をモデル化する。
分析を拡張して、外部データがフレームワーク内のこれらのダイナミクスにどのように影響するかを調べます。
- 参考スコア(独自算出の注目度): 12.199491975804785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-improvement is among the most prominent techniques within the realm of large language models (LLM), aiming to enhance the LLM performance without relying on external data. Despite its significance, generally how LLM performances evolve during the self-improvement process remains underexplored. In this paper, we theoretically model the training dynamics of self-improvement via the concept of solver-verifier gap. This is inspired by the conjecture that the performance enhancement of self-improvement stems from the gap between LLM's solver capability and verifier capability. Based on the theoretical framework, we further introduce how to predict the ultimate power of self-improvement using only information from the first few training epochs. We empirically validate the effectiveness of the theoretical model on various LLMs and datasets. Beyond self-improvement, we extend our analysis to investigate how external data influences these dynamics within the framework. Notably, we find that under limited external data regimes, such external data can be utilized at any stage without significantly affecting final performances, which accords with the empirical observations.
- Abstract(参考訳): 自己改善は大規模言語モデル(LLM)の領域でもっとも顕著な技術であり、外部データに頼ることなくLLMの性能を向上させることを目的としている。
その重要性にもかかわらず、一般的に自己改善過程においてLLMのパフォーマンスがどのように進化するかは未解明のままである。
本稿では,ソルバ検証ギャップの概念を用いて,自己改善のトレーニング力学を理論的にモデル化する。
これは、自己改善の性能向上は、LLMのソルバ能力と検証能力のギャップに起因するという予想に着想を得たものである。
理論的枠組みに基づいて,最初の少数の訓練エポックの情報のみを用いて,自己改善の究極のパワーを予測する方法について,さらに紹介する。
理論モデルの有効性を,様々なLLMおよびデータセット上で実証的に検証した。
自己改善以外にも、外部データがフレームワーク内のこれらのダイナミクスにどのように影響するかを調べるために分析を拡張します。
特に、限られた外部データ体制の下では、このような外部データは、実験的な観測結果に応じて、最終的なパフォーマンスに大きな影響を及ぼすことなく、任意の段階で利用することができる。
関連論文リスト
- Mitigating Forgetting in LLM Fine-Tuning via Low-Perplexity Token Learning [61.99353167168545]
LLM生成データによる微調整により,目標タスクの性能が向上し,非目標タスクの劣化が低減されることを示す。
微調整後のLSMにおける破滅的忘れを緩和するために、トークンの難易度低減に基づく経験的説明を提供する最初の研究である。
論文 参考訳(メタデータ) (2025-01-24T08:18:56Z) - Mind the Gap: Examining the Self-Improvement Capabilities of Large Language Models [10.449015816015566]
自己改善は、Large Language Model(LLM)の事前トレーニング、ポストトレーニング、テストタイム推論におけるメカニズムである。
本稿では,自己改善のための数学的定式化について述べる。
また、自己改善がいつ可能か、反復的な自己改善手順、その性能改善方法についても検討する。
論文 参考訳(メタデータ) (2024-12-03T18:47:26Z) - LLMs Could Autonomously Learn Without External Supervision [36.36147944680502]
大規模言語モデル(LLM)は、伝統的に人間の注釈付きデータセットと事前定義されたトレーニング目標に結び付けられてきた。
本稿では,LLMのための自律学習手法を提案する。
本手法は, LLMに対して, 文章と直接対話して自己学習を行う能力を与える。
論文 参考訳(メタデータ) (2024-06-02T03:36:37Z) - Comprehensive Reassessment of Large-Scale Evaluation Outcomes in LLMs: A Multifaceted Statistical Approach [64.42462708687921]
評価の結果、スケーリング、トレーニングタイプ、アーキテクチャなどの要因がLLMのパフォーマンスに大きな影響を与えていることが明らかになった。
本研究は, これらのLCMの徹底的な再検討に着手し, 現状評価手法における不整合性に着目した。
これには、ANOVA、Tukey HSDテスト、GAMM、クラスタリング技術などが含まれる。
論文 参考訳(メタデータ) (2024-03-22T14:47:35Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - SELF: Self-Evolution with Language Feedback [68.6673019284853]
SELF(Self-Evolution with Language Feedback)は、大規模言語モデルを進化させる新しいアプローチである。
LLMは、人間の学習プロセスと同様、自己回帰を通じて自己改善を可能にする。
数学および一般タスクにおける実験により,SELFは人間の介入なしにLLMの能力を高めることができることが示された。
論文 参考訳(メタデータ) (2023-10-01T00:52:24Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。