論文の概要: On the Complementarity of Data Selection and Fine Tuning for Domain
Adaptation
- arxiv url: http://arxiv.org/abs/2109.07591v1
- Date: Wed, 15 Sep 2021 21:49:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-18 05:33:43.678585
- Title: On the Complementarity of Data Selection and Fine Tuning for Domain
Adaptation
- Title(参考訳): ドメイン適応のためのデータ選択と微調整の相補性について
- Authors: Dan Iter and David Grangier
- Abstract要約: ニューラルネットワークのドメイン適応は通常、事前トレーニング、選択されたデータトレーニング、そして微調整という3つのトレーニングフェーズに依存している。
データ選択は、ターゲットドメインデータの小さなサンプルに依存して特定された事前訓練データに基づいて、さらにトレーニングすることで、ターゲットドメインの一般化を改善する。
- 参考スコア(独自算出の注目度): 22.178874891042994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Domain adaptation of neural networks commonly relies on three training
phases: pretraining, selected data training and then fine tuning. Data
selection improves target domain generalization by training further on
pretraining data identified by relying on a small sample of target domain data.
This work examines the benefit of data selection for language modeling and
machine translation. Our experiments assess the complementarity of selection
with fine tuning and result in practical recommendations: (i) selected data
must be similar to the fine-tuning domain but not so much as to erode the
complementary effect of fine-tuning; (ii) there is a trade-off between
selecting little data for fast but limited progress or much data for slow but
long lasting progress; (iii) data selection can be applied early during
pretraining, with performance gains comparable to long pretraining session;
(iv) data selection from domain classifiers is often more effective than the
popular contrastive data selection method.
- Abstract(参考訳): ニューラルネットワークのドメイン適応は通常、事前トレーニング、選択されたデータトレーニング、そして微調整の3つのトレーニングフェーズに依存している。
データ選択は、ターゲットドメインデータの小さなサンプルに依存して識別された事前トレーニングデータに基づいてトレーニングすることで、ターゲットドメインの一般化を改善する。
本稿では,言語モデルと機械翻訳におけるデータ選択の利点について検討する。
本実験では, 微調整による選択の相補性を評価し, 実用的推薦を行う。
(i)選択データは、微調整領域に類似しなければならないが、微調整の相補効果を損なうほどではない。
(II) 速いが限られた進歩のために小さなデータを選択するか、遅いが長い進行のために多くのデータを選択するかのトレードオフがある。
(iii) データ選択は、事前訓練中に早期に適用することができ、長時間事前訓練セッションに匹敵する性能向上が図られる。
(iv) ドメイン分類器からのデータ選択は、しばしば一般的なコントラストデータ選択法よりも効果的である。
関連論文リスト
- Compute-Constrained Data Selection [77.06528009072967]
コスト対応ユーティリティ関数を用いてデータ選択の問題を定式化し、その問題をトレーニングのための初期選択コストのトレーディングとしてモデル化する。
複数のタスク、微調整トークンのスケーリングによる計算予算、モデルサイズ、データ選択計算など、包括的な実験を網羅的に実施しています。
論文 参考訳(メタデータ) (2024-10-21T17:11:21Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Towards Data-Centric RLHF: Simple Metrics for Preference Dataset Comparison [9.324894567200582]
選好データセットを、スケール、ラベルノイズ、情報内容の3つの視点で体系的に研究する。
我々の研究は、RLHFのトレーニング効率と反復的なデータ収集を支援する視点を提供することで、アライメントに対するデータ中心のアプローチに向けた第一歩です。
論文 参考訳(メタデータ) (2024-09-15T03:55:03Z) - MATES: Model-Aware Data Selection for Efficient Pretraining with Data Influence Models [16.654859430784825]
手作りのルールやより大きな参照モデルに依存する現在のデータ選択方法は、静的に行われ、事前訓練中に進化するデータ優先をキャプチャしない。
データ影響モデル(MATES)を用いたモデル認識データ選択を導入し、データ影響モデルが事前学習モデルの進化するデータ嗜好に継続的に適応し、現在の事前学習の進行に最も有効なデータを選択する。
C4データセット上で410Mと1Bモデルを事前訓練した実験により、MATESは広範囲な下流タスクにおいてランダムなデータ選択を著しく上回ることを示した。
論文 参考訳(メタデータ) (2024-06-10T06:27:42Z) - TextGram: Towards a better domain-adaptive pretraining [0.3769303106863454]
NLPでは、事前学習は大量のテキストデータを使用して下流タスクを実行するための事前知識を得る。
ドメイン適応型データ選択法であるTextGramを提案する。
提案手法は,他の選択手法よりも有効であることを示す。
論文 参考訳(メタデータ) (2024-04-28T15:44:57Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Efficient Online Data Mixing For Language Model Pre-Training [101.45242332613944]
既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。
一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。
我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-05T00:42:35Z) - Examining the Effect of Pre-training on Time Series Classification [21.38211396933795]
本研究では, プレトレーニング後の微調整が微調整過程に及ぼす影響について検討した。
150の分類データセットを網羅的に検討した。
事前学習は、データに適合しないモデルの最適化プロセスを改善するのにしか役立ちません。
事前学習データを追加することで一般化は向上しないが、元のデータボリュームの事前学習の利点を強化することができる。
論文 参考訳(メタデータ) (2023-09-11T06:26:57Z) - Analyzing domain shift when using additional data for the MICCAI KiTS23
Challenge [5.745796568988237]
トレーニング中のドメインシフトを改善する手法について検討し、前処理やトレーニングに利用できる追加データを元のデータと併用する方法について検討する。
以上の結果から,ヒストグラムマッチングによる追加データの変換は,単純な正規化よりも良好な結果が得られた。
論文 参考訳(メタデータ) (2023-09-05T07:31:22Z) - Improved Fine-tuning by Leveraging Pre-training Data: Theory and
Practice [52.11183787786718]
対象データに事前学習されたモデルを微調整することは、多くのディープラーニングアプリケーションで広く利用されている。
近年の研究では、スクラッチからのトレーニングが、この事前トレーニング戦略に比較して、最終的なパフォーマンスを示すことが実証されている。
本稿では,対象タスクの一般化を改善するために,事前学習データからサブセットを選択する新しい選択戦略を提案する。
論文 参考訳(メタデータ) (2021-11-24T06:18:32Z) - Improving Multi-Turn Response Selection Models with Complementary
Last-Utterance Selection by Instance Weighting [84.9716460244444]
我々は、データリソース自体の根底にある相関を利用して、異なる種類の監視信号を導出することを検討する。
2つの公開データセットで広範な実験を行い、両方のデータセットで大幅に改善した。
論文 参考訳(メタデータ) (2020-02-18T06:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。