論文の概要: Data Mixing Agent: Learning to Re-weight Domains for Continual Pre-training
- arxiv url: http://arxiv.org/abs/2507.15640v1
- Date: Mon, 21 Jul 2025 14:01:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.431446
- Title: Data Mixing Agent: Learning to Re-weight Domains for Continual Pre-training
- Title(参考訳): データ混合エージェント: 継続的な事前トレーニングのための再重み付きドメインへの学習
- Authors: Kailai Yang, Xiao Liu, Lei Ji, Hao Li, Yeyun Gong, Peng Cheng, Mao Yang,
- Abstract要約: Data Mixing Agentは、ドメインの再重み付けを学ぶエンドツーエンドフレームワークである。
未確認のソースフィールド、ターゲットモデル、そして再トレーニングなしでドメイン空間をうまく一般化する。
- 参考スコア(独自算出の注目度): 30.915768238214653
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continual pre-training on small-scale task-specific data is an effective method for improving large language models in new target fields, yet it risks catastrophic forgetting of their original capabilities. A common solution is to re-weight training data mixtures from source and target fields on a domain space to achieve balanced performance. Previous domain reweighting strategies rely on manual designation with certain heuristics based on human intuition or empirical results. In this work, we prove that more general heuristics can be parameterized by proposing Data Mixing Agent, the first model-based, end-to-end framework that learns to re-weight domains. The agent learns generalizable heuristics through reinforcement learning on large quantities of data mixing trajectories with corresponding feedback from an evaluation environment. Experiments in continual pre-training on math reasoning show that Data Mixing Agent outperforms strong baselines in achieving balanced performance across source and target field benchmarks. Furthermore, it generalizes well across unseen source fields, target models, and domain spaces without retraining. Direct application to the code generation field also indicates its adaptability across target domains. Further analysis showcases the agents' well-aligned heuristics with human intuitions and their efficiency in achieving superior model performance with less source-field data.
- Abstract(参考訳): 小規模タスク固有データに対する継続的な事前学習は,新たな対象分野における大規模言語モデルの改善に有効な方法であるが,本来の能力を忘れてしまう恐れがある。
一般的な解決策は、ドメイン空間のソースフィールドとターゲットフィールドから混在するデータを再重み付けすることで、バランスの取れたパフォーマンスを実現することである。
それまでのドメイン再重み付け戦略は、人間の直感や経験的な結果に基づく特定のヒューリスティックスによる手動の指定に依存していた。
本研究では,ドメインの再重み付けを学習する最初のモデルベースエンドツーエンドフレームワークであるData Mixing Agentを提案することにより,より一般的なヒューリスティックをパラメータ化できることを実証する。
エージェントは、評価環境から対応するフィードバックとともに、大量のデータ混合軌跡の強化学習を通じて一般化可能なヒューリスティックスを学ぶ。
データ混合エージェントは、ソースとターゲットフィールドのベンチマークでバランスのとれたパフォーマンスを達成する上で、強いベースラインを上回ります。
さらに、未確認のソースフィールド、ターゲットモデル、そして再トレーニングなしでドメイン空間をうまく一般化する。
コード生成フィールドへの直接適用はまた、ターゲットドメイン間の適応性を示している。
さらなる分析では、エージェントの人間の直感との整合したヒューリスティックスと、ソースフィールドデータが少なくて優れたモデル性能を達成するための効率が示される。
関連論文リスト
- Bridging the Domain Gap in Equation Distillation with Reinforcement Feedback [37.06543502352577]
データ2Eqnタスクの基本モデルのドメイン適応性を高めるための強化学習に基づく微調整フレームワークを提案する。
提案手法により,モデルが特定の複雑なデータ分布に適応し,数学的に意味のある方程式を生成することができる。
論文 参考訳(メタデータ) (2025-05-21T14:25:41Z) - Similarity-Based Domain Adaptation with LLMs [13.692329347889212]
教師なしのドメイン適応は、様々なソースドメインからの豊富なラベル付きデータを活用し、ラベルなしのターゲットデータに一般化する。
本稿では,Large Language Models(LLM)の印象的な一般化機能をターゲットデータアノテーションに活用する,シンプルなフレームワークを提案する。
我々のフレームワークは,SOTA法と比較して2.44%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-03-07T09:51:07Z) - Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。
既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。
本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文 参考訳(メタデータ) (2024-06-16T17:09:24Z) - Noisy Self-Training with Synthetic Queries for Dense Retrieval [49.49928764695172]
合成クエリと組み合わせた,ノイズの多い自己学習フレームワークを提案する。
実験結果から,本手法は既存手法よりも一貫した改善が得られた。
我々の手法はデータ効率が良く、競争のベースラインより優れています。
論文 参考訳(メタデータ) (2023-11-27T06:19:50Z) - Back to Basics: A Simple Recipe for Improving Out-of-Domain Retrieval in
Dense Encoders [63.28408887247742]
得られたモデルにおいて,より優れた一般化能力を得るために,トレーニング手順の改善が可能であるかを検討する。
我々は、高密度エンコーダをトレーニングするための簡単なレシピを推奨する: LoRAのようなパラメータ効率のよいMSMARCOのトレーニング。
論文 参考訳(メタデータ) (2023-11-16T10:42:58Z) - DoGE: Domain Reweighting with Generalization Estimation [42.32000165235568]
一般化推定(DoGE)を用いたDOmain再重み付けを提案する。
実験では、DoGEがベースモデルの一般化をターゲットデータ混合にどのように改善するかを広範囲に示す。
DoGEはドメイン間の依存関係を効果的に識別することができ、一貫してターゲットドメインにおけるテストの難易度を向上する。
論文 参考訳(メタデータ) (2023-10-23T22:51:58Z) - Distributionally Robust Learning for Multi-source Unsupervised Domain Adaptation [9.359714425373616]
対象ドメインの分布がソースドメインの分布と異なる場合、経験的リスクはよく機能しない。
我々は、複数のソースドメインからのラベル付きデータと対象ドメインからのラベルなしデータを活用する、教師なしのドメイン適応アプローチを開発する。
論文 参考訳(メタデータ) (2023-09-05T13:19:40Z) - Self-balanced Learning For Domain Generalization [64.99791119112503]
ドメインの一般化は、モデルが未知の統計を持つ対象のドメインに一般化できるように、マルチドメインのソースデータの予測モデルを学ぶことを目的としている。
既存のアプローチのほとんどは、ソースデータがドメインとクラスの両方の観点からバランスよく調整されているという前提の下で開発されている。
本稿では,多領域ソースデータの分布の違いによるバイアスを軽減するために,損失の重み付けを適応的に学習する自己均衡型領域一般化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-31T03:17:54Z) - Gradual Domain Adaptation via Self-Training of Auxiliary Models [50.63206102072175]
ソースとターゲットドメイン間のギャップを増やすことで、ドメイン適応はより難しくなります。
中間領域のモデルを学習する補助モデル(AuxSelfTrain)の自己学習を提案する。
教師なしおよび半教師付きドメイン適応のベンチマークデータセットの実験は、その有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:15:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。