論文の概要: DoGE: Domain Reweighting with Generalization Estimation
- arxiv url: http://arxiv.org/abs/2310.15393v1
- Date: Mon, 23 Oct 2023 22:51:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 21:21:32.193980
- Title: DoGE: Domain Reweighting with Generalization Estimation
- Title(参考訳): DoGE: 一般化推定によるドメイン再重み付け
- Authors: Simin Fan, Matteo Pagliardini, Martin Jaggi
- Abstract要約: 本稿では、一般化の最終的な目的のためにドメイン重みを最適化するために、一般化推定(DoGE)を用いたDOmain再重み付けを提案する。
SlimPajama-6Bデータセットでは、普遍的な一般化目標により、DoGEはより平均的なパープレキシティとゼロショット推論精度を達成する。
- 参考スコア(独自算出の注目度): 42.32000165235568
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The coverage and composition of the pretraining data corpus significantly
impacts the generalization ability of large language models. Conventionally,
the pretraining corpus is composed of various source domains (e.g. CommonCrawl,
Wikipedia, Github etc.) according to certain sampling probabilities (domain
weights). However, current methods lack a principled way to optimize domain
weights for ultimate goal for generalization. We propose DOmain reweighting
with Generalization Estimation (DoGE), where we reweigh the sampling
probability from each domain based on its contribution to the final
generalization objective assessed by a gradient-based generalization estimation
function. First, we train a small-scale proxy model with a min-max optimization
to obtain the reweighted domain weights. At each step, the domain weights are
updated to maximize the overall generalization gain by mirror descent. Finally
we use the obtained domain weights to train a larger scale full-size language
model. On SlimPajama-6B dataset, with universal generalization objective, DoGE
achieves better average perplexity and zero-shot reasoning accuracy. On
out-of-domain generalization tasks, DoGE reduces perplexity on the target
domain by a large margin. We further apply a parameter-selection scheme which
improves the efficiency of generalization estimation.
- Abstract(参考訳): 事前学習データコーパスのカバレッジと構成は、大規模言語モデルの一般化能力に大きな影響を及ぼす。
従来、プリトレーニングコーパスは、特定のサンプリング確率(ドメインの重み付け)に応じて、さまざまなソースドメイン(commoncrawl、wikipedia、githubなど)で構成されている。
しかし、現在の手法には一般化の最終的な目的のためにドメイン重みを最適化する原則的な方法がない。
本稿では,一般化推定関数を用いて評価された最終一般化目標への寄与に基づいて,各領域からのサンプリング確率を再検討するDOmain reweighting with Generalization Estimation (DoGE)を提案する。
まず、最小限の最適化で小さなプロキシモデルを訓練し、重み付けされたドメイン重みを求める。
各ステップでドメイン重みを更新し、ミラー降下による全体的な一般化ゲインを最大化する。
最後に得られたドメイン重みを使って、より大規模なフルサイズの言語モデルをトレーニングします。
SlimPajama-6Bデータセットでは、普遍的な一般化目標により、DoGEはより平均的なパープレキシティとゼロショット推論精度を達成する。
ドメイン外の一般化タスクでは、dogeはターゲットドメインのパープレキシティを大きなマージンで削減する。
さらに,一般化推定の効率を向上させるパラメータ選択手法を適用する。
関連論文リスト
- Improving Domain Generalization with Domain Relations [77.63345406973097]
本稿では、モデルがトレーニングされたドメインと異なる新しいドメインに適用されたときに発生するドメインシフトに焦点を当てる。
ドメイン固有モデルを学習するためのD$3$Gという新しい手法を提案する。
以上の結果から,D$3$Gは最先端の手法より一貫して優れていた。
論文 参考訳(メタデータ) (2023-02-06T08:11:16Z) - FIXED: Frustratingly Easy Domain Generalization with Mixup [53.782029033068675]
ドメイン一般化(Domain Generalization, DG)は、複数のトレーニングドメインから一般化可能なモデルを学ぶことを目的としている。
一般的な戦略は、Mixupcitezhang 2018mixupのようなメソッドによる一般化のためにトレーニングデータを拡張することである。
我々は、MixupベースのDG、すなわちドメイン不変の特徴mIXup(FIX)の簡易かつ効果的な拡張を提案する。
提案手法は,9つの最先端手法よりも優れており,試験精度の面では,ベースラインの平均6.5%を上回っている。
論文 参考訳(メタデータ) (2022-11-07T09:38:34Z) - Learning to Augment via Implicit Differentiation for Domain
Generalization [107.9666735637355]
ドメイン一般化(DG)は、複数のソースドメインを活用してドメイン一般化可能なモデルを学ぶことで、この問題を克服することを目的としている。
本稿では,AugLearnと呼ばれる新しい拡張型DG手法を提案する。
AugLearnは、PACS、Office-Home、Digits-DGの3つの標準DGベンチマークで効果を示す。
論文 参考訳(メタデータ) (2022-10-25T18:51:51Z) - Domain Adaptation Principal Component Analysis: base linear method for
learning with out-of-distribution data [55.41644538483948]
ドメイン適応は現代の機械学習において一般的なパラダイムである。
ドメイン適応主成分分析(DAPCA)という手法を提案する。
DAPCAは、領域適応タスクの解決に有用な線形化データ表現を見つける。
論文 参考訳(メタデータ) (2022-08-28T21:10:56Z) - Low-confidence Samples Matter for Domain Adaptation [47.552605279925736]
ドメイン適応(DA)は、知識をラベルの豊富なソースドメインから関連するがラベルの少ないターゲットドメインに転送することを目的としている。
低信頼度サンプルの処理による新しいコントラスト学習法を提案する。
提案手法を教師なしと半教師付きの両方のDA設定で評価する。
論文 参考訳(メタデータ) (2022-02-06T15:45:45Z) - Improving Multi-Domain Generalization through Domain Re-labeling [31.636953426159224]
本稿では,事前特定ドメインラベルと一般化性能の関連性について検討する。
マルチドメイン一般化のための一般的なアプローチであるMulDEnsを導入し,ERMをベースとした深層アンサンブルバックボーンを用いた。
我々は、MulDEnsがデータセット固有の拡張戦略やトレーニングプロセスの調整を必要としないことを示す。
論文 参考訳(メタデータ) (2021-12-17T23:21:50Z) - Unified Instance and Knowledge Alignment Pretraining for Aspect-based
Sentiment Analysis [96.53859361560505]
Aspect-based Sentiment Analysis (ABSA) は、ある側面に対する感情の極性を決定することを目的としている。
事前トレーニングと下流ABSAデータセットの間には、常に深刻なドメインシフトが存在する。
我々は,バニラ・プレトレイン・ファインチューンパイプラインにアライメント事前訓練フレームワークを導入する。
論文 参考訳(メタデータ) (2021-10-26T04:03:45Z) - Adaptive Methods for Real-World Domain Generalization [32.030688845421594]
本研究では、未確認の試験サンプルからドメイン情報を活用できるかどうかを検討する。
a) 教師なしのトレーニング例から識別的ドメイン埋め込みを最初に学び、b) このドメイン埋め込みを補足的な情報として使ってドメイン適応モデルを構築する。
提案手法は,各種領域一般化ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2021-03-29T17:44:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。