論文の概要: DIDS: Domain Impact-aware Data Sampling for Large Language Model Training
- arxiv url: http://arxiv.org/abs/2504.13227v1
- Date: Thu, 17 Apr 2025 13:09:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-28 20:54:28.355402
- Title: DIDS: Domain Impact-aware Data Sampling for Large Language Model Training
- Title(参考訳): DIDS: 大規模言語モデルトレーニングのためのドメインインパクト対応データサンプリング
- Authors: Weijie Shi, Jipeng Zhang, Yaguang Wu, Jingzhi Fang, Ruiyuan Zhang, Jiajie Xu, Jia Zhu, Hao Chen, Yao Zhao, Sirui Han, Xiaofang Zhou,
- Abstract要約: ドメインレベルのサンプリング戦略を最適化するために、ドメインインパクト対応データサンプリング(DIDS)を提案する。
DIDSは、同等のトレーニング効率を維持しながら平均パフォーマンスを3.4%向上させる。
- 参考スコア(独自算出の注目度): 41.86545248261005
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models (LLMs) are commonly trained on multi-domain datasets, where domain sampling strategies significantly impact model performance due to varying domain importance across downstream tasks. Existing approaches for optimizing domain-level sampling strategies struggle with maintaining intra-domain consistency and accurately measuring domain impact. In this paper, we present Domain Impact-aware Data Sampling (DIDS). To ensure intra-domain consistency, a gradient clustering algorithm is proposed to group training data based on their learning effects, where a proxy language model and dimensionality reduction are employed to reduce computational overhead. To accurately measure domain impact, we develop a Fisher Information Matrix (FIM) guided metric that quantifies how domain-specific parameter updates affect the model's output distributions on downstream tasks, with theoretical guarantees. Furthermore, to determine optimal sampling ratios, DIDS combines both the FIM-guided domain impact assessment and loss learning trajectories that indicate domain-specific potential, while accounting for diminishing marginal returns. Extensive experiments demonstrate that DIDS achieves 3.4% higher average performance while maintaining comparable training efficiency.
- Abstract(参考訳): 大規模言語モデル(LLM)は、一般的にマルチドメインデータセットでトレーニングされる。
ドメインレベルのサンプリング戦略を最適化するための既存のアプローチは、ドメイン内の一貫性を維持し、ドメインへの影響を正確に測定するのに苦労している。
本稿では,Domain Impact-Aware Data Smpling (DIDS)を提案する。
ドメイン内整合性を確保するため、学習効果に基づいて勾配クラスタリングアルゴリズムが提案され、計算オーバーヘッドを低減するためにプロキシ言語モデルと次元削減が使用される。
ドメインの影響を正確に測定するために、理論的保証とともに、ドメイン固有のパラメータ更新が下流タスクにおけるモデルの出力分布に与える影響を定量化するFisher Information Matrix (FIM) ガイドメトリックを開発した。
さらに、最適サンプリング比を決定するために、DIDSは、FIM誘導されたドメイン影響評価と、ドメイン固有のポテンシャルを示す損失学習軌跡を組み合わせ、限界リターンの減少を考慮に入れている。
大規模な実験では、DIDSは同等のトレーニング効率を維持しながら平均性能を3.4%向上することを示した。
関連論文リスト
- GDO: Gradual Domain Osmosis [1.62060928868899]
本稿では,GDA(Gradual Domain Adaptation)において,ソースドメインからターゲットドメインへのスムーズな知識マイグレーションの問題を解決することを目的とした,Gradual Domain Osmosisと呼ばれる新しい手法を提案する。
従来のGradual Domain Adaptationメソッドは、中間ドメインの導入と自己学習戦略によってドメインバイアスを軽減するが、多くの場合、中間ドメインにおける非効率的な知識マイグレーションや欠落データといった課題に直面している。
論文 参考訳(メタデータ) (2025-01-31T14:25:45Z) - Commute Your Domains: Trajectory Optimality Criterion for Multi-Domain Learning [50.80758278865274]
マルチドメイン学習では、共有知識を活用し、一般化を改善するために、多様なデータドメインで単一のモデルを訓練する。
これらのドメインからのデータがトレーニングに使用される順序は、各ドメインにおけるモデルの性能に大きく影響します。
勾配ベクトル場のリーブラケットの概念を用いたマルチドメイン学習における訓練順序(またはデータ混合)の影響について検討する。
論文 参考訳(メタデータ) (2025-01-26T15:12:06Z) - Stratified Domain Adaptation: A Progressive Self-Training Approach for Scene Text Recognition [1.2878987353423252]
シーンテキスト認識(STR)において、教師なしドメイン適応(UDA)がますます普及している。
本稿では,StrDA(Stratified Domain Adaptation)アプローチを導入し,学習プロセスにおける領域ギャップの段階的エスカレーションについて検討する。
本稿では,データサンプルの分布外および領域判別レベルを推定するために,領域判別器を用いる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-13T16:40:48Z) - Style Adaptation for Domain-adaptive Semantic Segmentation [2.1365683052370046]
ドメインの不一致は、ターゲットドメインに適用した場合、ソースドメインデータに基づいてトレーニングされた一般的なネットワークモデルの性能を著しく低下させる。
パラメータ計算を必要とせず、自己学習に基づくUDA手法とシームレスに統合する。
提案手法は,GTA->Cityscapesデータセット上で76.93 mIoUの有意なUDA性能を達成し,過去の成果に比べて+1.03ポイント向上したことを示す。
論文 参考訳(メタデータ) (2024-04-25T02:51:55Z) - Unsupervised Domain Adaptation Using Compact Internal Representations [23.871860648919593]
教師なしドメイン適応に対処する技術では、ソースとターゲットドメインの両方からデータポイントを共有埋め込み空間にマッピングする。
我々は、ソース領域の内部分布をよりコンパクトにする追加の手法を開発する。
組込み空間における異なるクラスのデータ表現間のマージンを増大させることで、UDAのモデル性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2024-01-14T05:53:33Z) - DoGE: Domain Reweighting with Generalization Estimation [42.32000165235568]
一般化推定(DoGE)を用いたDOmain再重み付けを提案する。
実験では、DoGEがベースモデルの一般化をターゲットデータ混合にどのように改善するかを広範囲に示す。
DoGEはドメイン間の依存関係を効果的に識別することができ、一貫してターゲットドメインにおけるテストの難易度を向上する。
論文 参考訳(メタデータ) (2023-10-23T22:51:58Z) - IDA: Informed Domain Adaptive Semantic Segmentation [51.12107564372869]
クラスレベルのセグメンテーション性能に基づいてデータを混合する自己学習フレームワークであるDomain Informed Adaptation (IDA) モデルを提案する。
IDAモデルでは、クラスレベルの性能を期待信頼スコア(ECS)によって追跡し、動的スケジュールを用いて異なる領域のデータに対する混合比を決定する。
提案手法は,GTA-Vの都市景観への適応において1.1 mIoU,SynTHIAの都市への適応において0.9 mIoUのマージンで,最先端のUDA-SS法よりも優れる。
論文 参考訳(メタデータ) (2023-03-05T18:16:34Z) - Generalized Semantic Segmentation by Self-Supervised Source Domain
Projection and Multi-Level Contrastive Learning [79.0660895390689]
ソースドメインでトレーニングされたディープネットワークは、未確認のターゲットドメインデータでテストした場合、パフォーマンスが低下している。
汎用セマンティックセグメンテーションのためのドメイン・プロジェクションとコントラシブ・ラーニング(DPCL)手法を提案する。
論文 参考訳(メタデータ) (2023-03-03T13:07:14Z) - MADAv2: Advanced Multi-Anchor Based Active Domain Adaptation
Segmentation [98.09845149258972]
セマンティックセグメンテーションタスクに関するドメイン適応を支援するために,アクティブなサンプル選択を導入する。
これらのサンプルを手動でアノテートする作業量が少ないため、ターゲット領域分布の歪みを効果的に緩和することができる。
長期分布問題を緩和するために、強力な半教師付きドメイン適応戦略を提案する。
論文 参考訳(メタデータ) (2023-01-18T07:55:22Z) - Multi-Source Domain Adaptation for Text Classification via
DistanceNet-Bandits [101.68525259222164]
本研究では,NLPタスクのコンテキストにおいて,サンプル推定に基づく領域間の相違を特徴付ける様々な距離ベース尺度について検討する。
タスクの損失関数と協調して最小化するために,これらの距離測度を付加的な損失関数として用いるディスタンスネットモデルを開発した。
マルチアーム・バンド・コントローラを用いて複数のソース・ドメインを動的に切り替えるDistanceNet-Banditモデルに拡張する。
論文 参考訳(メタデータ) (2020-01-13T15:53:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。