論文の概要: Dynamic Sampling that Adapts: Iterative DPO for Self-Aware Mathematical Reasoning
- arxiv url: http://arxiv.org/abs/2505.16176v1
- Date: Thu, 22 May 2025 03:27:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.011522
- Title: Dynamic Sampling that Adapts: Iterative DPO for Self-Aware Mathematical Reasoning
- Title(参考訳): 適応する動的サンプリング: 自己認識数学的推論のための反復的DPO
- Authors: Jun Rao, Xuebo Liu, Hexuan Deng, Zepeng Lin, Zixiong Yu, Jiansheng Wei, Xiaojun Meng, Min Zhang,
- Abstract要約: SAI-DPO(SAI-DPO)は、モデルのステージ固有の推論能力を評価することにより、トレーニングデータを動的に選択するアルゴリズムである。
リアルタイムモデルのパフォーマンスフィードバックを統合することで、SAI-DPOはモデルの進化する強みと弱みに適応的にデータ選択を適用する。
- 参考スコア(独自算出の注目度): 21.819667909631576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the realm of data selection for reasoning tasks, existing approaches predominantly rely on externally predefined static metrics such as difficulty and diversity, which are often designed for supervised fine-tuning (SFT) and lack adaptability to continuous training processes. A critical limitation of these methods is their inability to dynamically align with the evolving capabilities of models during online training, a gap that becomes increasingly pronounced with the rise of dynamic training paradigms and online reinforcement learning (RL) frameworks (e.g., R1 models). To address this, we introduce SAI-DPO, an algorithm that dynamically selects training data by continuously assessing a model's stage-specific reasoning abilities across different training phases. By integrating real-time model performance feedback, SAI-DPO adaptively adapts data selection to the evolving strengths and weaknesses of the model, thus enhancing both data utilization efficiency and final task performance. Extensive experiments on three state-of-the-art models and eight mathematical reasoning benchmarks, including challenging competition-level datasets (e.g., AIME24 and AMC23), demonstrate that SAI-DPO achieves an average performance boost of up to 21.3 percentage points, with particularly notable improvements of 10 and 15 points on AIME24 and AMC23, respectively. These results highlight the superiority of dynamic, model-adaptive data selection over static, externally defined strategies in advancing reasoning.
- Abstract(参考訳): 推論タスクのためのデータ選択の分野では、既存のアプローチは、しばしば監督された微調整(SFT)のために設計され、継続的なトレーニングプロセスへの適応性に欠ける難易度や多様性といった、外部的に事前に定義された静的メトリクスに依存している。
これらの手法の限界は、オンライントレーニング中にモデルの進化する能力と動的に整合することができないことであり、ダイナミックトレーニングパラダイムやオンライン強化学習(RL)フレームワーク(例えばR1モデル)の台頭とともに、そのギャップがますます顕著になる。
そこで,SAI-DPO(SAI-DPO)を提案する。SAI-DPO(SAI-DPO)は,モデルの段階別推論能力を異なる学習段階にわたって連続的に評価することにより,トレーニングデータを動的に選択するアルゴリズムである。
リアルタイムモデルの性能フィードバックを統合することで、SAI-DPOはモデルの進化する強みと弱みにデータ選択を適応的に適応させ、データ利用効率と最終タスク性能の両方を向上させる。
競争レベルのデータセット(例えば AIME24 と AMC23)の挑戦を含む、最先端の3つのモデルと8つの数学的推論ベンチマークに関する大規模な実験は、SAI-DPO がそれぞれ 21.3 ポイントまでの性能向上を達成し、特に AIME24 と AMC23 の 10 ポイントと 15 ポイントの改善が顕著であることを示した。
これらの結果は、推論を進める上で、静的で外部的に定義された戦略よりも、動的でモデル適応的なデータ選択の優位性を強調します。
関連論文リスト
- ToReMi: Topic-Aware Data Reweighting for Dynamic Pre-Training Data Selection [28.75333303894706]
ToReMiは、トピックの関連や観察された学習パターンに応じてトレーニングサンプル重量を調整する新しいフレームワークである。
実験の結果,ToReMiの変種は従来の事前学習手法よりも優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2025-04-01T12:06:42Z) - Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。
動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。
当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文 参考訳(メタデータ) (2025-02-10T17:57:15Z) - MITA: Bridging the Gap between Model and Data for Test-time Adaptation [68.62509948690698]
テスト時間適応(TTA)は、モデルの一般化性を高めるための有望なパラダイムとして登場した。
本稿では,Met-In-The-MiddleをベースとしたMITAを提案する。
論文 参考訳(メタデータ) (2024-10-12T07:02:33Z) - P3: A Policy-Driven, Pace-Adaptive, and Diversity-Promoted Framework for data pruning in LLM Training [22.61313628957683]
本稿では、反復データプルーニングによるタスク固有の微調整プロセスの最適化を目的とした適応型フレームワークであるP3を紹介する。
P3は、政策駆動型困難度測定、ペース適応選択、多様性促進の3つの主要な構成要素で構成されている。
我々は,従来のデータプルーニング手法に対して,P3を推論シナリオであるAPPSとMATHで検証し,大幅な改善を示した。
論文 参考訳(メタデータ) (2024-08-10T12:44:49Z) - Adaptive Training Meets Progressive Scaling: Elevating Efficiency in Diffusion Models [52.1809084559048]
TDCトレーニングと呼ばれる新しい2段階分割型トレーニング戦略を提案する。
タスクの類似性と難易度に基づいてタイムステップをグループ化し、高度にカスタマイズされた復調モデルを各グループに割り当て、拡散モデルの性能を向上させる。
2段階のトレーニングでは、各モデルを個別にトレーニングする必要がなくなるが、総トレーニングコストは、単一の統合されたデノナイジングモデルをトレーニングするよりもさらに低い。
論文 参考訳(メタデータ) (2023-12-20T03:32:58Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - Improving GANs with A Dynamic Discriminator [106.54552336711997]
我々は、オンザフライで調整可能な判別器は、そのような時間変化に適応できると論じる。
総合的な実証研究により、提案したトレーニング戦略がDynamicDと呼ばれ、追加のコストやトレーニング目標を発生させることなく、合成性能を向上させることが確認された。
論文 参考訳(メタデータ) (2022-09-20T17:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。