論文の概要: AdaSTaR: Adaptive Data Sampling for Training Self-Taught Reasoners
- arxiv url: http://arxiv.org/abs/2505.16322v1
- Date: Thu, 22 May 2025 07:24:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.117166
- Title: AdaSTaR: Adaptive Data Sampling for Training Self-Taught Reasoners
- Title(参考訳): AdaSTaR: 自己学習型推論学習のための適応型データサンプリング
- Authors: Woosung Koh, Wonbeen Oh, Jaein Jang, MinHyung Lee, Hyeongjin Kim, Ah Yeon Kim, Joonkee Kim, Junghyun Lee, Taehyeon Kim, Se-Young Yun,
- Abstract要約: Self-Taughters (STaR)は、自己改善推論言語モデル(LM)のトレーニングパイプラインの不可欠な部分である。
本稿では,2つの適応サンプリング原理を組み込んだ新しいアルゴリズムであるAdaptive STaR(AdaSTaR)を紹介する。
AdaSTaRは全てのインスタンスで最高のテスト精度を達成し、幅広いベースラインリストに対して平均58.6%のトレーニングFLOPを削減している。
- 参考スコア(独自算出の注目度): 19.27201880632717
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-Taught Reasoners (STaR), synonymously known as Rejection sampling Fine-Tuning (RFT), is an integral part of the training pipeline of self-improving reasoning Language Models (LMs). The self-improving mechanism often employs random observation (data) sampling. However, this results in trained observation imbalance; inefficiently over-training on solved examples while under-training on challenging ones. In response, we introduce Adaptive STaR (AdaSTaR), a novel algorithm that rectifies this by integrating two adaptive sampling principles: (1) Adaptive Sampling for Diversity: promoting balanced training across observations, and (2) Adaptive Sampling for Curriculum: dynamically adjusting data difficulty to match the model's evolving strength. Across six benchmarks, AdaSTaR achieves best test accuracy in all instances (6/6) and reduces training FLOPs by an average of 58.6% against an extensive list of baselines. These improvements in performance and efficiency generalize to different pre-trained LMs and larger models, paving the way for more efficient and effective self-improving LMs.
- Abstract(参考訳): リジェクションサンプリングファインチューニング(Rejection sample Fine-Tuning、RFT)は、自己改善推論言語モデル(LM)のトレーニングパイプラインの不可欠な部分である。
自己改善機構は、しばしばランダムな観測(データ)サンプリングを用いる。
しかし、これは訓練された観察の不均衡をもたらし、解決された例では非効率に過度に過度に学習し、難解な例では過度に訓練する。
これに対応するために,(1) 適応サンプリング: 観察間のバランスの取れたトレーニングを促進する,(2) 適応サンプリング: カリキュラムの適応サンプリング: モデルの進化強度に合わせてデータ困難を動的に調整する,という2つの適応サンプリング原理を統合することによって,これを修正するアルゴリズムであるAdaptive STaR(AdaSTaR)を導入する。
6つのベンチマークで、AdaSTaRは全てのインスタンス(6/6)で最高のテスト精度を達成し、ベースラインの広範なリストに対して平均58.6%のトレーニングFLOPを削減した。
これらの性能と効率の改善は、異なる事前訓練されたLMとより大きなモデルに一般化され、より効率的で効果的な自己改善型LMへの道を開いた。
関連論文リスト
- LEAD: Iterative Data Selection for Efficient LLM Instruction Tuning [22.242445543184264]
我々は,標準トレーニングループ内でサンプルユーティリティを完全に正確に推定する,効率的な反復的データ選択フレームワークであるLEADを提案する。
実験の結果、LEADは最先端の手法を著しく上回り、平均モデル性能は6.1%-10.8%向上し、トレーニングデータの2.5%しか使用せず、全体のトレーニング時間を5-10倍短縮した。
論文 参考訳(メタデータ) (2025-05-12T10:57:51Z) - Training Language Models to Self-Correct via Reinforcement Learning [98.35197671595343]
自己補正は、現代の大規模言語モデル(LLM)では、ほとんど効果がないことが判明した。
完全自己生成データを用いたLLMの自己補正能力を大幅に向上させるマルチターンオンライン強化学習手法であるSCoReを開発した。
SCoReは最先端の自己補正性能を実現し,MATHとHumanEvalでそれぞれ15.6%,9.1%向上した。
論文 参考訳(メタデータ) (2024-09-19T17:16:21Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - REALM: Robust Entropy Adaptive Loss Minimization for Improved
Single-Sample Test-Time Adaptation [5.749155230209001]
フルテスト時間適応(F-TTA)は、列車とテストデータの分散シフトによる性能損失を軽減することができる。
本稿では,F-TTAの雑音に対する堅牢性向上のための一般的な枠組みについて述べる。
論文 参考訳(メタデータ) (2023-09-07T18:44:58Z) - DELTA: degradation-free fully test-time adaptation [59.74287982885375]
テスト時間バッチ正規化(BN)や自己学習といった,一般的な適応手法では,2つの好ましくない欠陥が隠されていることがわかった。
まず、テスト時間BNにおける正規化統計は、現在受信されているテストサンプルに完全に影響され、その結果、不正確な推定結果が得られることを明らかにする。
第二に、テスト時間適応中にパラメータ更新が支配的なクラスに偏っていることを示す。
論文 参考訳(メタデータ) (2023-01-30T15:54:00Z) - Data Curation Alone Can Stabilize In-context Learning [20.874674130060388]
In-context Learning (ICL) は、大規模な言語モデルに対して、一連のトレーニング例でそれらを促すことで、新しいタスクを実行することを可能にする。
トレーニングセットからランダムにサンプルをサンプリングすると、パフォーマンスのばらつきが高くなります。
トレーニングデータのサブセットを慎重にキュレートすることは、ICLアルゴリズムに他の変更を加えることなく、ICLのパフォーマンスを大幅に安定化させることを示す。
論文 参考訳(メタデータ) (2022-12-20T15:58:54Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Efficient Test-Time Model Adaptation without Forgetting [60.36499845014649]
テストタイム適応は、トレーニングとテストデータの間の潜在的な分散シフトに取り組むことを目指している。
信頼性および非冗長なサンプルを同定するためのアクティブなサンプル選択基準を提案する。
また、重要なモデルパラメータを劇的な変化から制約するFisher regularizerを導入します。
論文 参考訳(メタデータ) (2022-04-06T06:39:40Z) - Listen, Adapt, Better WER: Source-free Single-utterance Test-time
Adaptation for Automatic Speech Recognition [65.84978547406753]
Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。
単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
論文 参考訳(メタデータ) (2022-03-27T06:38:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。