論文の概要: Sampling and Loss Weights in Multi-Domain Training
- arxiv url: http://arxiv.org/abs/2511.06913v1
- Date: Mon, 10 Nov 2025 10:08:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.197307
- Title: Sampling and Loss Weights in Multi-Domain Training
- Title(参考訳): マルチドメイントレーニングにおけるサンプリングとロスウェイト
- Authors: Mahdi Salmani, Pratik Worah, Meisam Razaviyayn, Vahab Mirrokni,
- Abstract要約: 各ドメインがバッチにどの程度貢献するかを制御するサンプリングウェイトと、トレーニング中に各ドメインの損失を拡大するロスウェイトという2種類の重みについて検討する。
まず、勾配降下(SGD)のような反復的手法における勾配推定のばらつきを減らすことができる。
- 参考スコア(独自算出の注目度): 39.9423858379436
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the training of large deep neural networks, there is a need for vast amounts of training data. To meet this need, data is collected from multiple domains, such as Wikipedia and GitHub. These domains are heterogeneous in both data quality and the diversity of information they provide. This raises the question of how much we should rely on each domain. Several methods have attempted to address this issue by assigning sampling weights to each data domain using heuristics or approximations. As a first step toward a deeper understanding of the role of data mixing, this work revisits the problem by studying two kinds of weights: sampling weights, which control how much each domain contributes in a batch, and loss weights, which scale the loss from each domain during training. Through a rigorous study of linear regression, we show that these two weights play complementary roles. First, they can reduce the variance of gradient estimates in iterative methods such as stochastic gradient descent (SGD). Second, they can improve generalization performance by reducing the generalization gap. We provide both theoretical and empirical support for these claims. We further study the joint dynamics of sampling weights and loss weights, examining how they can be combined to capture both contributions.
- Abstract(参考訳): 大きなディープニューラルネットワークのトレーニングでは、大量のトレーニングデータが必要である。
このニーズを満たすために、データはWikipediaやGitHubといった複数のドメインから収集される。
これらのドメインは、データ品質とそれらが提供する情報の多様性の両方において不均一である。
これにより、各ドメインにどの程度依存すべきかという疑問が持ち上がります。
ヒューリスティックスや近似を用いて各データ領域にサンプリング重み付けを割り当てることで、この問題に対処しようとする方法がいくつかある。
データミキシングの役割のより深い理解に向けた第一歩として、この研究は、各ドメインがバッチにどの程度貢献するかを制御するサンプリングウェイトと、トレーニング中に各ドメインから損失を拡大するロスウェイトという2種類の重みを研究することによって、この問題を再考する。
線形回帰の厳密な研究を通して、これらの2つの重みが相補的な役割を果たすことを示す。
まず、確率勾配降下(SGD)のような反復的な手法で勾配推定のばらつきを低減できる。
第2に、一般化ギャップを小さくすることで、一般化性能を向上させることができる。
これらの主張に対する理論的および実証的な支持を提供する。
さらに, サンプリング重量と損失重量のジョイントダイナミクスについて検討し, 両コントリビューションの獲得方法について検討した。
関連論文リスト
- Commute Your Domains: Trajectory Optimality Criterion for Multi-Domain Learning [50.80758278865274]
マルチドメイン学習では、共有知識を活用し、一般化を改善するために、多様なデータドメインで単一のモデルを訓練する。
これらのドメインからのデータがトレーニングに使用される順序は、各ドメインにおけるモデルの性能に大きく影響します。
勾配ベクトル場のリーブラケットの概念を用いたマルチドメイン学習における訓練順序(またはデータ混合)の影響について検討する。
論文 参考訳(メタデータ) (2025-01-26T15:12:06Z) - Improved Generalization of Weight Space Networks via Augmentations [53.87011906358727]
深度重み空間(DWS)における学習は新たな研究方向であり、2次元および3次元神経場(INRs, NeRFs)への応用
我々は、この過度な適合の理由を実証的に分析し、主要な理由は、DWSデータセットの多様性の欠如であることがわかった。
そこで本研究では,重み空間におけるデータ拡張戦略について検討し,重み空間に適応したMixUp法を提案する。
論文 参考訳(メタデータ) (2024-02-06T15:34:44Z) - Exploring Weight Balancing on Long-Tailed Recognition Problem [32.01426831450348]
クラスごとのサンプルサイズが重く歪んだ長いデータにおける認識問題の重要性が高まっている。
古典的正規化技術と2段階トレーニングを組み合わせた重みバランスが提案されている。
トレーニング段階ごとの神経崩壊とコーン効果に着目して重量バランスを解析した。
論文 参考訳(メタデータ) (2023-05-26T01:45:19Z) - The activity-weight duality in feed forward neural networks: The
geometric determinants of generalization [7.372592187197655]
ニューロンの特定の層における活動の変化と、任意のフィードフォワード神経ネットワーク内の密結合層内のニューロンの次の層に接続する重みの変化の間には、正確な双対性がある。
これらの洞察は、過度にパラメータ化されたニューラルネットワークでより一般化可能なソリューションを見つけるアルゴリズムの開発を導くのに使うことができる。
論文 参考訳(メタデータ) (2022-03-21T05:00:54Z) - Self-balanced Learning For Domain Generalization [64.99791119112503]
ドメインの一般化は、モデルが未知の統計を持つ対象のドメインに一般化できるように、マルチドメインのソースデータの予測モデルを学ぶことを目的としている。
既存のアプローチのほとんどは、ソースデータがドメインとクラスの両方の観点からバランスよく調整されているという前提の下で開発されている。
本稿では,多領域ソースデータの分布の違いによるバイアスを軽減するために,損失の重み付けを適応的に学習する自己均衡型領域一般化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-31T03:17:54Z) - Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。
本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。
ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文 参考訳(メタデータ) (2020-12-13T03:41:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。