論文の概要: DEMix Layers: Disentangling Domains for Modular Language Modeling
- arxiv url: http://arxiv.org/abs/2108.05036v1
- Date: Wed, 11 Aug 2021 05:15:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-12 18:32:47.792171
- Title: DEMix Layers: Disentangling Domains for Modular Language Modeling
- Title(参考訳): DEMix Layers: モジュール型言語モデリングのためのドメインの分離
- Authors: Suchin Gururangan, Mike Lewis, Ari Holtzman, Noah A. Smith, Luke
Zettlemoyer
- Abstract要約: 入力テキストのドメイン上で言語モデル(LM)を条件付けることができる新しいドメインエキスパート混合層(DEMix)を導入する。
DEMixレイヤは専門的なフィードフォワードネットワークの集合であり、それぞれがドメインに特化している。
実験によると、DEMixレイヤはテスト時間の複雑度を低減し、トレーニングの効率を向上し、オーバーヘッドの少ない迅速な適応を可能にする。
- 参考スコア(独自算出の注目度): 92.57761975953453
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a new domain expert mixture (DEMix) layer that enables
conditioning a language model (LM) on the domain of the input text. A DEMix
layer is a collection of expert feedforward networks, each specialized to a
domain, that makes the LM modular: experts can be mixed, added or removed after
initial training. Extensive experiments with autoregressive transformer LMs (up
to 1.3B parameters) show that DEMix layers reduce test-time perplexity,
increase training efficiency, and enable rapid adaptation with little overhead.
We show that mixing experts during inference, using a parameter-free weighted
ensemble, allows the model to better generalize to heterogeneous or unseen
domains. We also show that experts can be added to iteratively incorporate new
domains without forgetting older ones, and that experts can be removed to
restrict access to unwanted domains, without additional training. Overall,
these results demonstrate benefits of explicitly conditioning on textual
domains during language modeling.
- Abstract(参考訳): 入力テキストのドメイン上で言語モデル(LM)を条件付けることができる新しいドメインエキスパート混合層(DEMix)を導入する。
DEMixレイヤは専門的なフィードフォワードネットワークの集合であり、それぞれドメインに特化しており、LMをモジュール化している。
自己回帰変圧器lms(最大1.3bパラメータ)による広範囲な実験により、デミックス層はテスト時間のパープレキシティを低減し、トレーニング効率を高め、オーバーヘッドの少ない迅速な適応を可能にする。
パラメータフリーの重み付けアンサンブルを用いて推論中に専門家を混合することで、モデルが不均質な領域や見当たらない領域によりよく一般化できることを示す。
また、新しいドメインを古いドメインを忘れずに反復的に組み込むために専門家を追加し、追加のトレーニングなしに望ましくないドメインへのアクセスを制限するために専門家を除外できることを示した。
全体として、これらの結果は言語モデリング中にテキスト領域を明示的に条件付けすることの利点を示している。
関連論文リスト
- UniMix: Towards Domain Adaptive and Generalizable LiDAR Semantic Segmentation in Adverse Weather [55.95708988160047]
LiDARセマンティックセグメンテーション(LSS)は自動運転において重要な課題である。
事前のLSS法は、晴れた天候下で同じ領域内のデータセットを調査・評価した。
LSSモデルの適応性と一般化性を高める普遍的手法UniMixを提案する。
論文 参考訳(メタデータ) (2024-04-08T02:02:15Z) - Role Prompting Guided Domain Adaptation with General Capability Preserve
for Large Language Models [55.51408151807268]
特定のドメインに合わせると、LLM(Large Language Models)は破滅的な忘れを経験する傾向がある。
同時に複数のドメインのための汎用モデルを構築することで、全体的なパフォーマンスが低下することが多い。
RolE Prompting Guided Multi-Domain Adaptation (REGA) 戦略を提案する。
論文 参考訳(メタデータ) (2024-03-05T08:22:41Z) - BECoTTA: Input-dependent Online Blending of Experts for Continual Test-time Adaptation [59.1863462632777]
連続テスト時間適応(CTTA)は、学習済みの知識を維持しながら、継続的に見えない領域に効率的に適応するために必要である。
本稿では,CTTAの入力依存かつ効率的なモジュール化フレームワークであるBECoTTAを提案する。
提案手法は, トレーニング可能なパラメータを98%少なく抑えながら, 整合性や漸進性などの複数のCTTAシナリオに優れることを確認した。
論文 参考訳(メタデータ) (2024-02-13T18:37:53Z) - Decoupled Training: Return of Frustratingly Easy Multi-Domain Learning [20.17925272562433]
マルチドメイン学習は、複数の重複するが識別できないドメインにわたって、最小限の平均リスクでモデルをトレーニングすることを目的としている。
本稿では,D-Train(Decoupled Training, D-Train)を提案する。
D-Trainは、まずルートモデルを温めるためにすべてのドメインで事前訓練を行い、その後、複数のヘッドに分割して各ドメインでトレーニングを行い、最後にバックボーンを固定して頭部を微調整する3段階の総合訓練戦略である。
論文 参考訳(メタデータ) (2023-09-19T04:06:41Z) - ADRMX: Additive Disentanglement of Domain Features with Remix Loss [7.206800397427553]
ドメインの一般化は、新しい目に見えないドメインに一般化できる堅牢なモデルを作成することを目的としている。
本稿では,Remix Lossによるドメイン特徴の付加的分散という新しいアーキテクチャについて述べる。
論文 参考訳(メタデータ) (2023-08-12T17:52:21Z) - Meta-DMoE: Adapting to Domain Shift by Meta-Distillation from
Mixture-of-Experts [33.21435044949033]
既存のほとんどのメソッドは、単一のモデルを使って複数のソースドメインでトレーニングを行います。
本稿では,知識蒸留プロセスとして定式化された非教師なし試験時間適応のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-08T02:28:10Z) - META: Mimicking Embedding via oThers' Aggregation for Generalizable
Person Re-identification [68.39849081353704]
Domain Generalizable (DG) Person Re-identification (ReID)は、トレーニング時に対象のドメインデータにアクセスすることなく、見えないドメインをまたいでテストすることを目的としている。
本稿では,DG ReID のための OThers' Aggregation (META) を用いた Mimicking Embedding という新しい手法を提案する。
論文 参考訳(メタデータ) (2021-12-16T08:06:50Z) - Generalizable Representation Learning for Mixture Domain Face
Anti-Spoofing [53.82826073959756]
ドメイン一般化(DG)に基づく対スプーフィングアプローチは、予期せぬシナリオの堅牢性のために注目を集めています。
ドメインダイナミック調整メタラーニング(D2AM)についてドメインラベルを使わずに提案する。
この制限を克服するため,ドメインダイナミック調整メタラーニング(D2AM)を提案する。
論文 参考訳(メタデータ) (2021-05-06T06:04:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。