論文の概要: DoGE: Domain Reweighting with Generalization Estimation
- arxiv url: http://arxiv.org/abs/2310.15393v2
- Date: Mon, 5 Feb 2024 16:33:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 04:45:07.172844
- Title: DoGE: Domain Reweighting with Generalization Estimation
- Title(参考訳): DoGE: 一般化推定によるドメイン再重み付け
- Authors: Simin Fan, Matteo Pagliardini, Martin Jaggi
- Abstract要約: 一般化推定(DoGE)を用いたDOmain再重み付けを提案する。
実験では、DoGEがベースモデルの一般化をターゲットデータ混合にどのように改善するかを広範囲に示す。
DoGEはドメイン間の依存関係を効果的に識別することができ、一貫してターゲットドメインにおけるテストの難易度を向上する。
- 参考スコア(独自算出の注目度): 42.32000165235568
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The coverage and composition of the pretraining data significantly impacts
the generalization ability of Large Language Models (LLMs). Despite its
importance, recent LLMs still rely on heuristics and trial and error to
increase or reduce the influence of data-domains. We propose DOmain reweighting
with Generalization Estimation (DoGE), which optimizes the probability of
sampling from each domain (domain weights) in a principled way. Our approach is
a two-stage process consisting of (i) training a proxy model to obtain domain
weights using a bi-level optimization algorithm; (ii) training a larger base
model by sampling training domains according to the learned domain weights. In
our experiments, we extensively show how DoGE improves the generalization of
the base model to any target data mixture. On the SlimPajama dataset, our base
model gets better perplexity and few-shot reasoning accuracies across $6$ tasks
compared to baseline methods. Moreover, aiming to generalize to out-of-domain
target tasks, which is unseen in the pretraining corpus (OOD domain), DoGE can
effectively identify inter-domain dependencies, and consistently achieves
better test perplexity on the target domain.
- Abstract(参考訳): 事前学習データのカバレッジと構成は、Large Language Models(LLMs)の一般化能力に大きな影響を及ぼす。
その重要性にもかかわらず、最近のllmはデータドメインの影響を増減するためにヒューリスティックスと試行錯誤に依存している。
本稿では,各領域(領域重み)からのサンプリング確率を原理的に最適化した一般化推定(doge)による領域重み付けを提案する。
私たちのアプローチは2段階のプロセスです。
(i)二段階最適化アルゴリズムを用いて、プロキシモデルを訓練してドメイン重み付けを得る。
(ii)学習したドメイン重みに応じて訓練領域をサンプリングして、より大きなベースモデルを訓練すること。
実験では、DoGEがベースモデルの一般化をターゲットデータ混合にどのように改善するかを広範囲に示す。
slimpajamaデータセットでは、ベースモデルがベースラインメソッドと比較して、6ドルのタスクにまたがる複雑さとわずかな推論の精度が向上しています。
さらに、事前学習コーパス(oodドメイン)では認識されていないドメイン外ターゲットタスクへの一般化を目指して、dogeはドメイン間依存関係を効果的に識別し、ターゲットドメインのより優れたテストパープレキシティを一貫して達成します。
関連論文リスト
- Improving Domain Generalization with Domain Relations [77.63345406973097]
本稿では、モデルがトレーニングされたドメインと異なる新しいドメインに適用されたときに発生するドメインシフトに焦点を当てる。
ドメイン固有モデルを学習するためのD$3$Gという新しい手法を提案する。
以上の結果から,D$3$Gは最先端の手法より一貫して優れていた。
論文 参考訳(メタデータ) (2023-02-06T08:11:16Z) - FIXED: Frustratingly Easy Domain Generalization with Mixup [53.782029033068675]
ドメイン一般化(Domain Generalization, DG)は、複数のトレーニングドメインから一般化可能なモデルを学ぶことを目的としている。
一般的な戦略は、Mixupcitezhang 2018mixupのようなメソッドによる一般化のためにトレーニングデータを拡張することである。
我々は、MixupベースのDG、すなわちドメイン不変の特徴mIXup(FIX)の簡易かつ効果的な拡張を提案する。
提案手法は,9つの最先端手法よりも優れており,試験精度の面では,ベースラインの平均6.5%を上回っている。
論文 参考訳(メタデータ) (2022-11-07T09:38:34Z) - Learning to Augment via Implicit Differentiation for Domain
Generalization [107.9666735637355]
ドメイン一般化(DG)は、複数のソースドメインを活用してドメイン一般化可能なモデルを学ぶことで、この問題を克服することを目的としている。
本稿では,AugLearnと呼ばれる新しい拡張型DG手法を提案する。
AugLearnは、PACS、Office-Home、Digits-DGの3つの標準DGベンチマークで効果を示す。
論文 参考訳(メタデータ) (2022-10-25T18:51:51Z) - Domain Adaptation Principal Component Analysis: base linear method for
learning with out-of-distribution data [55.41644538483948]
ドメイン適応は現代の機械学習において一般的なパラダイムである。
ドメイン適応主成分分析(DAPCA)という手法を提案する。
DAPCAは、領域適応タスクの解決に有用な線形化データ表現を見つける。
論文 参考訳(メタデータ) (2022-08-28T21:10:56Z) - Low-confidence Samples Matter for Domain Adaptation [47.552605279925736]
ドメイン適応(DA)は、知識をラベルの豊富なソースドメインから関連するがラベルの少ないターゲットドメインに転送することを目的としている。
低信頼度サンプルの処理による新しいコントラスト学習法を提案する。
提案手法を教師なしと半教師付きの両方のDA設定で評価する。
論文 参考訳(メタデータ) (2022-02-06T15:45:45Z) - Improving Multi-Domain Generalization through Domain Re-labeling [31.636953426159224]
本稿では,事前特定ドメインラベルと一般化性能の関連性について検討する。
マルチドメイン一般化のための一般的なアプローチであるMulDEnsを導入し,ERMをベースとした深層アンサンブルバックボーンを用いた。
我々は、MulDEnsがデータセット固有の拡張戦略やトレーニングプロセスの調整を必要としないことを示す。
論文 参考訳(メタデータ) (2021-12-17T23:21:50Z) - Unified Instance and Knowledge Alignment Pretraining for Aspect-based
Sentiment Analysis [96.53859361560505]
Aspect-based Sentiment Analysis (ABSA) は、ある側面に対する感情の極性を決定することを目的としている。
事前トレーニングと下流ABSAデータセットの間には、常に深刻なドメインシフトが存在する。
我々は,バニラ・プレトレイン・ファインチューンパイプラインにアライメント事前訓練フレームワークを導入する。
論文 参考訳(メタデータ) (2021-10-26T04:03:45Z) - Adaptive Methods for Real-World Domain Generalization [32.030688845421594]
本研究では、未確認の試験サンプルからドメイン情報を活用できるかどうかを検討する。
a) 教師なしのトレーニング例から識別的ドメイン埋め込みを最初に学び、b) このドメイン埋め込みを補足的な情報として使ってドメイン適応モデルを構築する。
提案手法は,各種領域一般化ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2021-03-29T17:44:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。