論文の概要: M2D2: A Massively Multi-domain Language Modeling Dataset
- arxiv url: http://arxiv.org/abs/2210.07370v1
- Date: Thu, 13 Oct 2022 21:34:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 16:16:59.224082
- Title: M2D2: A Massively Multi-domain Language Modeling Dataset
- Title(参考訳): M2D2: 膨大なマルチドメイン言語モデリングデータセット
- Authors: Machel Reid, Victor Zhong, Suchin Gururangan, Luke Zettlemoyer
- Abstract要約: ドメイン適応(LM)を研究するための細粒度多ドメインコーパスM2D2を提案する。
ウィキペディアとArXivから派生したカテゴリを用いて、各データソース内のドメインを22のグループに分類する。
我々は、LMをドメイン階層に沿って適用することの利点を示し、より少量のドメイン固有のデータに適応することで、ドメイン内のパフォーマンスが向上することを示した。
- 参考スコア(独自算出の注目度): 76.13062203588089
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present M2D2, a fine-grained, massively multi-domain corpus for studying
domain adaptation in language models (LMs). M2D2 consists of 8.5B tokens and
spans 145 domains extracted from Wikipedia and Semantic Scholar. Using
ontologies derived from Wikipedia and ArXiv categories, we organize the domains
in each data source into 22 groups. This two-level hierarchy enables the study
of relationships between domains and their effects on in- and out-of-domain
performance after adaptation. We also present a number of insights into the
nature of effective domain adaptation in LMs, as examples of the new types of
studies M2D2 enables. To improve in-domain performance, we show the benefits of
adapting the LM along a domain hierarchy; adapting to smaller amounts of
fine-grained domain-specific data can lead to larger in-domain performance
gains than larger amounts of weakly relevant data. We further demonstrate a
trade-off between in-domain specialization and out-of-domain generalization
within and across ontologies, as well as a strong correlation between
out-of-domain performance and lexical overlap between domains.
- Abstract(参考訳): M2D2は,言語モデル(LM)におけるドメイン適応を研究するための細粒度多領域コーパスである。
M2D2は8.5Bのトークンで構成され、WikipediaとSemantic Scholarから抽出された145のドメインにまたがる。
ウィキペディアとArXivのカテゴリから派生したオントロジーを用いて、各データソース内のドメインを22グループに分類する。
この2段階階層は、ドメイン間の関係とその適用後のドメイン内および外部のパフォーマンスへの影響の研究を可能にする。
また、新しいタイプの研究であるm2d2の例として、lmsにおける効果的なドメイン適応の性質に関する多くの洞察を提示する。
ドメイン内のパフォーマンスを改善するために、ドメイン階層に沿ってLMを適応させることの利点を示し、より小さなドメイン固有のデータに適応することで、より弱い関連データよりもドメイン内のパフォーマンスが向上することを示す。
さらに,オントロジー内におけるドメイン内特殊化とドメイン外一般化とのトレードオフ,ドメイン外性能とドメイン間の語彙重複との強い相関を実証する。
関連論文リスト
- Dynamic Instance Domain Adaptation [109.53575039217094]
教師なしのドメイン適応に関するほとんどの研究は、各ドメインのトレーニングサンプルがドメインラベルを伴っていると仮定している。
適応的な畳み込みカーネルを持つ動的ニューラルネットワークを開発し、各インスタンスにドメインに依存しない深い特徴を適応させるために、インスタンス適応残差を生成する。
我々のモデルはDIDA-Netと呼ばれ、複数の一般的な単一ソースおよび複数ソースのUDAデータセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-03-09T20:05:54Z) - Efficient Hierarchical Domain Adaptation for Pretrained Language Models [77.02962815423658]
生成言語モデルは、多種多様な一般的なドメインコーパスに基づいて訓練される。
計算効率のよいアダプタアプローチを用いて,ドメイン適応を多種多様なドメインに拡張する手法を提案する。
論文 参考訳(メタデータ) (2021-12-16T11:09:29Z) - TAL: Two-stream Adaptive Learning for Generalizable Person
Re-identification [115.31432027711202]
我々は、ドメイン固有性とドメイン不変性の両方が、re-idモデルの一般化能力の向上に不可欠であると主張する。
これら2種類の情報を同時にモデル化するために,2ストリーム適応学習 (TAL) を命名した。
我々のフレームワークは、単一ソースとマルチソースの両方のドメイン一般化タスクに適用できる。
論文 参考訳(メタデータ) (2021-11-29T01:27:42Z) - Multi-Level Features Contrastive Networks for Unsupervised Domain
Adaptation [6.934905764152813]
教師なしのドメイン適応は、ラベル付きソースドメインからモデルをトレーニングし、ラベルなしのターゲットドメインで予測することを目的としています。
既存のメソッドは2つのドメインをドメインレベルに直接アライメントするか、あるいは深い機能に基づいてクラスレベルのドメインアライメントを実行する傾向があります。
本稿では,クラスレベルのアライメント手法について述べる。
論文 参考訳(メタデータ) (2021-09-14T09:23:27Z) - Domain2Vec: Domain Embedding for Unsupervised Domain Adaptation [56.94873619509414]
従来の教師なしドメイン適応は、限られた数のドメイン間の知識伝達を研究する。
本稿では,特徴不整合とグラム行列の連成学習に基づいて,視覚領域のベクトル表現を提供する新しいDomain2Vecモデルを提案する。
我々の埋め込みは、異なるドメイン間の視覚的関係に関する直感と一致するドメイン類似性を予測できることを示した。
論文 参考訳(メタデータ) (2020-07-17T22:05:09Z) - Domain Adaptation for Semantic Parsing [68.81787666086554]
本稿では,ドメイン適応のための新しいセマンティクスを提案する。このセマンティクスでは,ソースドメインと比較して,対象ドメインのアノテーション付きデータがはるかに少ない。
我々のセマンティックな利点は、2段階の粗大なフレームワークから得ており、2段階の異なる正確な処理を提供できる。
ベンチマークデータセットの実験により、我々の手法はいくつかの一般的なドメイン適応戦略より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2020-06-23T14:47:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。