論文の概要: On the Complementarity of Data Selection and Fine Tuning for Domain
Adaptation
- arxiv url: http://arxiv.org/abs/2109.07591v1
- Date: Wed, 15 Sep 2021 21:49:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-18 05:33:43.678585
- Title: On the Complementarity of Data Selection and Fine Tuning for Domain
Adaptation
- Title(参考訳): ドメイン適応のためのデータ選択と微調整の相補性について
- Authors: Dan Iter and David Grangier
- Abstract要約: ニューラルネットワークのドメイン適応は通常、事前トレーニング、選択されたデータトレーニング、そして微調整という3つのトレーニングフェーズに依存している。
データ選択は、ターゲットドメインデータの小さなサンプルに依存して特定された事前訓練データに基づいて、さらにトレーニングすることで、ターゲットドメインの一般化を改善する。
- 参考スコア(独自算出の注目度): 22.178874891042994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Domain adaptation of neural networks commonly relies on three training
phases: pretraining, selected data training and then fine tuning. Data
selection improves target domain generalization by training further on
pretraining data identified by relying on a small sample of target domain data.
This work examines the benefit of data selection for language modeling and
machine translation. Our experiments assess the complementarity of selection
with fine tuning and result in practical recommendations: (i) selected data
must be similar to the fine-tuning domain but not so much as to erode the
complementary effect of fine-tuning; (ii) there is a trade-off between
selecting little data for fast but limited progress or much data for slow but
long lasting progress; (iii) data selection can be applied early during
pretraining, with performance gains comparable to long pretraining session;
(iv) data selection from domain classifiers is often more effective than the
popular contrastive data selection method.
- Abstract(参考訳): ニューラルネットワークのドメイン適応は通常、事前トレーニング、選択されたデータトレーニング、そして微調整の3つのトレーニングフェーズに依存している。
データ選択は、ターゲットドメインデータの小さなサンプルに依存して識別された事前トレーニングデータに基づいてトレーニングすることで、ターゲットドメインの一般化を改善する。
本稿では,言語モデルと機械翻訳におけるデータ選択の利点について検討する。
本実験では, 微調整による選択の相補性を評価し, 実用的推薦を行う。
(i)選択データは、微調整領域に類似しなければならないが、微調整の相補効果を損なうほどではない。
(II) 速いが限られた進歩のために小さなデータを選択するか、遅いが長い進行のために多くのデータを選択するかのトレードオフがある。
(iii) データ選択は、事前訓練中に早期に適用することができ、長時間事前訓練セッションに匹敵する性能向上が図られる。
(iv) ドメイン分類器からのデータ選択は、しばしば一般的なコントラストデータ選択法よりも効果的である。
関連論文リスト
- Unifying and Optimizing Data Values for Selection via Sequential-Decision-Making [5.755427480127593]
本研究では,選択に適用されるデータ値を逐次決定問題として再定義可能であることを示す。
本稿では,学習された二部グラフを代理ユーティリティモデルとして用いた効率的な近似手法を提案する。
論文 参考訳(メタデータ) (2025-02-06T23:03:10Z) - Capturing the Temporal Dependence of Training Data Influence [100.91355498124527]
我々は、訓練中にデータポイントを除去する影響を定量化する、軌跡特異的な離脱の影響の概念を定式化する。
軌道固有LOOの効率的な近似を可能にする新しい手法であるデータ値埋め込みを提案する。
データバリューの埋め込みは、トレーニングデータの順序付けをキャプチャするので、モデルトレーニングのダイナミクスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-12-12T18:28:55Z) - Compute-Constrained Data Selection [77.06528009072967]
多くの強力なデータ選択手法は、ほとんど計算に最適ではないことが分かりました。
計算最適トレーニングでは、パープレキシティと勾配データ選択は、それぞれ5xと10xのトレーニング-選択モデルサイズ比を必要とする。
論文 参考訳(メタデータ) (2024-10-21T17:11:21Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - MATES: Model-Aware Data Selection for Efficient Pretraining with Data Influence Models [16.654859430784825]
手作りのルールやより大きな参照モデルに依存する現在のデータ選択方法は、静的に行われ、事前訓練中に進化するデータ優先をキャプチャしない。
データ影響モデル(MATES)を用いたモデル認識データ選択を導入し、データ影響モデルが事前学習モデルの進化するデータ嗜好に継続的に適応し、現在の事前学習の進行に最も有効なデータを選択する。
C4データセット上で410Mと1Bモデルを事前訓練した実験により、MATESは広範囲な下流タスクにおいてランダムなデータ選択を著しく上回ることを示した。
論文 参考訳(メタデータ) (2024-06-10T06:27:42Z) - TextGram: Towards a better domain-adaptive pretraining [0.3769303106863454]
NLPでは、事前学習は大量のテキストデータを使用して下流タスクを実行するための事前知識を得る。
ドメイン適応型データ選択法であるTextGramを提案する。
提案手法は,他の選択手法よりも有効であることを示す。
論文 参考訳(メタデータ) (2024-04-28T15:44:57Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Efficient Online Data Mixing For Language Model Pre-Training [101.45242332613944]
既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。
一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。
我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-05T00:42:35Z) - Analyzing domain shift when using additional data for the MICCAI KiTS23
Challenge [5.745796568988237]
トレーニング中のドメインシフトを改善する手法について検討し、前処理やトレーニングに利用できる追加データを元のデータと併用する方法について検討する。
以上の結果から,ヒストグラムマッチングによる追加データの変換は,単純な正規化よりも良好な結果が得られた。
論文 参考訳(メタデータ) (2023-09-05T07:31:22Z) - Improved Fine-tuning by Leveraging Pre-training Data: Theory and
Practice [52.11183787786718]
対象データに事前学習されたモデルを微調整することは、多くのディープラーニングアプリケーションで広く利用されている。
近年の研究では、スクラッチからのトレーニングが、この事前トレーニング戦略に比較して、最終的なパフォーマンスを示すことが実証されている。
本稿では,対象タスクの一般化を改善するために,事前学習データからサブセットを選択する新しい選択戦略を提案する。
論文 参考訳(メタデータ) (2021-11-24T06:18:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。