論文の概要: Domain2Vec: Vectorizing Datasets to Find the Optimal Data Mixture without Training
- arxiv url: http://arxiv.org/abs/2506.10952v1
- Date: Thu, 12 Jun 2025 17:53:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.889494
- Title: Domain2Vec: Vectorizing Datasets to Find the Optimal Data Mixture without Training
- Title(参考訳): Domain2Vec: トレーニングなしで最適なデータミックスを見つけるためにデータセットをベクトル化する
- Authors: Mozhi Zhang, Howe Tissue, Lu Wang, Xipeng Qiu,
- Abstract要約: textscDomain2Vecは任意のデータセットを複数のEmphmetaドメインの線形結合に分解する
textscDomain2Vecは、最小の計算オーバーヘッドでダウンストリームタスクのパフォーマンスを向上させるデータミックスを見つけるのに役立つ。
- 参考スコア(独自算出の注目度): 53.07879717463279
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce~\textsc{Domain2Vec}, a novel approach that decomposes any dataset into a linear combination of several \emph{meta-domains}, a new concept designed to capture the key underlying features of datasets. \textsc{Domain2Vec} maintains a vocabulary of meta-domains and uses a classifier to decompose any given dataset into a domain vector that corresponds to a distribution over this vocabulary. These domain vectors enable the identification of the optimal data mixture for language model (LM) pretraining in a training-free manner under the \emph{\textbf{D}istribution \textbf{A}lignment \textbf{A}ssumption} (DA$^{2}$), which suggests that when the data distributions of the training set and the validation set are better aligned, a lower validation loss is achieved. Moreover, \textsc{Domain2vec} can be seamlessly integrated into previous works to model the relationship between domain vectors and LM performance, greatly enhancing the efficiency and scalability of previous methods. Extensive experiments demonstrate that \textsc{Domain2Vec} helps find the data mixture that enhances downstream task performance with minimal computational overhead. Specifically, \textsc{Domain2Vec} achieves the same validation loss on Pile-CC using only $51.5\%$ of the computation required when training on the original mixture of The Pile dataset. Under equivalent compute budget, \textsc{Domain2Vec} improves downstream performance by an average of $2.83\%$.
- Abstract(参考訳): これは、任意のデータセットを複数の \emph{meta-domains} の線形結合に分解する、新しいアプローチである。
\textsc{Domain2Vec} はメタドメインの語彙を保持し、任意のデータセットを分類器を使用して、この語彙上の分布に対応するドメインベクトルに分解する。
これらのドメインベクターは、トレーニング不要な訓練方法で言語モデル(LM)の最適データ混合を識別し、トレーニングセットと検証セットのデータ分布がより整合性が高い場合に、より低い検証損失が得られることを示唆する。
さらに、ドメインベクトルとLM性能の関係をモデル化するために、以前の研究とシームレスに統合することができ、従来の手法の効率性とスケーラビリティを大幅に向上させることができる。
大規模な実験では、計算オーバーヘッドが最小限に抑えられたダウンストリームタスクのパフォーマンスを向上させるデータミックスを見つけるのに、‘textsc{Domain2Vec} が役立ちます。
具体的には、‘textsc{Domain2Vec} は同じ検証損失を Pile-CC 上で達成する。
同等の計算予算の下では、 \textsc{Domain2Vec} は下流のパフォーマンスを平均 2.83 %$ で改善する。
関連論文リスト
- CLIMB: CLustering-based Iterative Data Mixture Bootstrapping for Language Model Pre-training [63.07024608399447]
本稿では,事前学習環境でデータ混合物を発見し,評価し,精製する自動フレームワークを提案する。
ClimbLabは、20のクラスタを研究用グラウンドとして、フィルタされた1.2トリリオントーケンコーパスであり、ClimbMixはコンパクトだが強力な400ビリオントーケンデータセットである。
論文 参考訳(メタデータ) (2025-04-17T17:58:13Z) - DUPRE: Data Utility Prediction for Efficient Data Valuation [49.60564885180563]
Data Shapleyのような協調ゲーム理論に基づくデータ評価では、データユーティリティを評価し、複数のデータサブセットに対してMLモデルを再トレーニングする必要がある。
我々のフレームワークである textttDUPRE は、モデル再学習による評価ではなく、データユーティリティを予測することによって、サブセット評価当たりのコストを削減できる代替手法を採用しています。
具体的には、いくつかのデータサブセットのデータユーティリティを評価すると、textttDUPREは、他のすべてのデータサブセットの有用性を予測するために、emphGaussianプロセス(GP)回帰モデルに適合する。
論文 参考訳(メタデータ) (2025-02-22T08:53:39Z) - Dataset Condensation with Latent Quantile Matching [5.466962214217334]
電流分布マッチング (DM) に基づく直流法は, 合成外乱と実外乱の遅延埋め込みの平均をマッチングすることにより, 合成データセットを学習する。
本稿では,2つの分布間の適合試験統計量の良さを最小化するために,遅延埋め込みの量子化と一致する潜在量子マッチング(LQM)を提案する。
論文 参考訳(メタデータ) (2024-06-14T09:20:44Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Provable Benefit of Mixup for Finding Optimal Decision Boundaries [18.668531108219415]
我々は、Mixupのようなペアワイドデータ拡張技術が最適な決定境界を見つける際のサンプルの複雑さにどのように影響するかを検討する。
サンプルの複雑さを著しく低減することで、Mixupがこの問題を軽減することを示す。
論文 参考訳(メタデータ) (2023-06-01T00:59:19Z) - Bridging the Domain Gaps in Context Representations for k-Nearest
Neighbor Neural Machine Translation [57.49095610777317]
$k$-Nearestの隣人機械翻訳($k$NN-MT)は、新しい翻訳ドメインに非パラメトリックに適応する能力によって注目を集めている。
本稿では,元のデータストアを再構築することで,$k$NN-MTのデータストア検索を高速化する手法を提案する。
提案手法は,$k$NN-MTのデータストア検索と翻訳品質を効果的に向上させることができる。
論文 参考訳(メタデータ) (2023-05-26T03:04:42Z) - Bi-level Alignment for Cross-Domain Crowd Counting [113.78303285148041]
現在の手法は、補助的なタスクを訓練したり、高価な粗大な見積もりを適用したりするための外部データに依存している。
そこで我々は, 簡易かつ効率的に適用可能な, 逆学習に基づく新しい手法を開発した。
実世界の5つのクラウドカウントベンチマークに対するアプローチを評価し、既存のアプローチを大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-05-12T02:23:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。