論文の概要: Progress or Regress? Self-Improvement Reversal in Post-training
- arxiv url: http://arxiv.org/abs/2407.05013v1
- Date: Sat, 6 Jul 2024 09:07:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 21:28:00.693901
- Title: Progress or Regress? Self-Improvement Reversal in Post-training
- Title(参考訳): 進歩と回帰 : ポストトレーニングにおける自己改善の逆転
- Authors: Ting Wu, Xuefeng Li, Pengfei Liu,
- Abstract要約: 本稿では,自己改善のためのポストトレーニングパラダイムの根底にある拡張を精査する包括的評価フレームワークを提案する。
ベンチマークで改善されたパフォーマンスを示すモデルは、パラドックス的により広範で必須の能力の低下を示す。
これらの結果から, ポストトレーニングによる現在の自己改善実践は, より複雑な問題に対処するためのモデルの装備に不十分であることが示唆された。
- 参考スコア(独自算出の注目度): 26.051637877066327
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-improvement through post-training methods such as iterative preference learning has been acclaimed for enhancing the problem-solving capabilities (e.g., mathematical reasoning) of Large Language Models (LLMs) without human intervention. However, as exploration deepens, it becomes crucial to assess whether these improvements genuinely signify progress in solving more challenging problems or if they could lead to unintended regressions. To address this, we propose a comprehensive evaluative framework that goes beyond the superficial pass@1 metric to scrutinize the underlying enhancements of post-training paradigms for self-improvement. Through rigorous experimentation and analysis across diverse problem-solving tasks, the empirical results point out the phenomenon of \emph{self-improvement reversal}, where models showing improved performance across benchmarks will paradoxically exhibit declines in broader, essential capabilities, like output diversity and out-of-distribution (OOD) generalization. These findings indicate that current self-improvement practices through post-training are inadequate for equipping models to tackle more complex problems. Furthermore, they underscore the necessity of our critical evaluation metrics in discerning the \emph{progress or regress} dichotomy for self-improving LLMs.
- Abstract(参考訳): 反復選好学習のようなポストトレーニング手法による自己改善は、人間の介入なしに大規模言語モデル(LLM)の問題解決能力(例えば、数学的推論)を向上させることが評価されている。
しかし、調査が深まるにつれ、これらの改善がより困難な問題の解決の進歩を真に表しているか、意図しない回帰につながるかを評価することが重要になる。
これを解決するために、我々は、自己改善のためのポストトレーニングパラダイムの根底にある拡張を精査するために、表面的なpass@1メトリックを超えて包括的な評価フレームワークを提案する。
様々な問題解決タスクに対する厳密な実験と分析を通じて、実験結果は、ベンチマークで改善されたパフォーマンスを示すモデルが、出力の多様性やアウト・オブ・ディストリビューション(OOD)の一般化のようなより広範な本質的な能力の低下をパラドックス的に示すという、'emph{self-improvement reversal} の現象を指摘した。
これらの結果から, ポストトレーニングによる現在の自己改善実践は, より複雑な問題に対処するためのモデルの装備に不十分であることが示唆された。
さらに, 自己改善LDMに対するemph{progress or regress}二分法を識別する上で, 重要な評価指標の必要性を強調した。
関連論文リスト
- Adversarial Alignment for LLMs Requires Simpler, Reproducible, and More Measurable Objectives [52.863024096759816]
相反する研究目的は、過去10年間に敵対的堅牢性研究の進展を妨げてきた。
我々は、対立するアライメントの有意義な進展には、リアライメントの目的が必要であると論じる。
論文 参考訳(メタデータ) (2025-02-17T15:28:40Z) - Iterative Deepening Sampling for Large Language Models [27.807695570974644]
効果的な自己補正と自己補正を実現するためのトレーニングモデルは、依然として重要な課題である。
自己補正の強化と高品質なサンプル生成を目的とした,新しい反復サンプリングアルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-08T04:39:51Z) - Mind the Gap: Examining the Self-Improvement Capabilities of Large Language Models [10.449015816015566]
自己改善は、Large Language Model(LLM)の事前トレーニング、ポストトレーニング、テストタイム推論におけるメカニズムである。
本稿では,自己改善のための数学的定式化について述べる。
また、自己改善がいつ可能か、反復的な自己改善手順、その性能改善方法についても検討する。
論文 参考訳(メタデータ) (2024-12-03T18:47:26Z) - Self-Improvement in Language Models: The Sharpening Mechanism [70.9248553790022]
我々は、レンズを通して自己改善の能力について、新たな視点を提供する。
言語モデルは、正しい応答を生成する場合よりも、応答品質の検証が優れているという観察に感銘を受けて、後学習において、モデル自体を検証対象として、自己改善を形式化する。
SFTとRLHFに基づく自己改善アルゴリズムの2つの自然ファミリーを解析する。
論文 参考訳(メタデータ) (2024-12-02T20:24:17Z) - Contextual Bandits in Payment Processing: Non-uniform Exploration and Supervised Learning at Adyen [0.0]
回帰オラクルは、一様でない探索と教師あり学習を組み合わせたものである。
我々は、大規模なグローバル決済プロセッサであるAdyenにおいて、現実の産業状況におけるこれらのアプローチを分析した。
回帰オラクルは性能を著しく向上させるが、厳密なアルゴリズムの仮定による課題を導入する。
論文 参考訳(メタデータ) (2024-11-30T19:45:23Z) - Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。
まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。
テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文 参考訳(メタデータ) (2024-11-25T17:11:54Z) - Recursive Introspection: Teaching Language Model Agents How to Self-Improve [30.086494067593268]
RISE: Recursive IntroSpEctionは,大規模言語モデルを微調整する手法である。
実験の結果,RISEはLlama2,Llama3,Mistralの各モデルに対して,数学推論タスクのターン数を増やすことで自己改善を可能にすることがわかった。
論文 参考訳(メタデータ) (2024-07-25T17:35:59Z) - Improving the Robustness of Large Language Models via Consistency Alignment [36.24876571343749]
大規模言語モデル(LLM)は、ユーザ命令に従い、有用な応答を生成することで大きな成功を収めている。
LLMは、言語化された命令の微妙な変化により、非常に矛盾した応答を生成する。
本稿では,教師付き微調整と整合性調整を併用した2段階のトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-21T08:21:12Z) - Augmenting Unsupervised Reinforcement Learning with Self-Reference [63.68018737038331]
人間は、新しいタスクを学ぶ際に、過去の経験を明確に表現する能力を持っている。
本稿では,歴史情報を活用するためのアドオンモジュールとして,自己参照(SR)アプローチを提案する。
提案手法は,非教師付き強化学習ベンチマークにおけるIQM(Interquartile Mean)性能と最適ギャップ削減の両面から,最先端の成果を実現する。
論文 参考訳(メタデータ) (2023-11-16T09:07:34Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。