論文の概要: Task Oriented In-Domain Data Augmentation
- arxiv url: http://arxiv.org/abs/2406.16694v1
- Date: Mon, 24 Jun 2024 14:58:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 14:25:06.453576
- Title: Task Oriented In-Domain Data Augmentation
- Title(参考訳): Task Oriented In-Domain Data Augmentation
- Authors: Xiao Liang, Xinyu Hu, Simiao Zuo, Yeyun Gong, Qiang Lou, Yi Liu, Shao-Lun Huang, Jian Jiao,
- Abstract要約: 大規模言語モデル(LLM)は様々なアプリケーションや分野において優れた性能を示している。
法律や広告などの専門分野の性能向上のために、LLMはドメイン内のデータに基づいて事前訓練されることが多い。
タスク指向のドメイン内データ拡張フレームワークTRAITを提案する。
- 参考スコア(独自算出の注目度): 38.525017729123114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have shown superior performance in various applications and fields. To achieve better performance on specialized domains such as law and advertisement, LLMs are often continue pre-trained on in-domain data. However, existing approaches suffer from two major issues. First, in-domain data are scarce compared with general domain-agnostic data. Second, data used for continual pre-training are not task-aware, such that they may not be helpful to downstream applications. We propose TRAIT, a task-oriented in-domain data augmentation framework. Our framework is divided into two parts: in-domain data selection and task-oriented synthetic passage generation. The data selection strategy identifies and selects a large amount of in-domain data from general corpora, and thus significantly enriches domain knowledge in the continual pre-training data. The synthetic passages contain guidance on how to use domain knowledge to answer questions about downstream tasks. By training on such passages, the model aligns with the need of downstream applications. We adapt LLMs to two domains: advertisement and math. On average, TRAIT improves LLM performance by 8% in the advertisement domain and 7.5% in the math domain.
- Abstract(参考訳): 大規模言語モデル(LLM)は様々なアプリケーションや分野において優れた性能を示している。
法律や広告などの専門分野の性能向上のために、LLMはドメイン内のデータに基づいて事前訓練されることが多い。
しかし、既存のアプローチは2つの大きな問題に悩まされている。
まず、ドメイン内のデータは一般的なドメインに依存しないデータに比べて少ない。
第二に、連続的な事前トレーニングに使用されるデータはタスクアウェアではなく、ダウンストリームアプリケーションでは役に立たない可能性がある。
タスク指向のドメイン内データ拡張フレームワークTRAITを提案する。
我々のフレームワークは、ドメイン内のデータ選択とタスク指向の合成通路生成の2つの部分に分けられる。
データ選択戦略は、一般コーパスから大量のドメイン内データを識別し、選択し、連続的な事前学習データにおいてドメイン知識を著しく強化する。
合成文には、ダウンストリームタスクに関する質問に答えるためにドメイン知識を使用する方法についてのガイダンスが含まれている。
このようなパスをトレーニングすることで、モデルは下流アプリケーションの必要性に合わせている。
LLMを広告と数学の2つの領域に適用する。
TRAITは平均して広告領域で8%、数学領域で7.5%改善している。
関連論文リスト
- How to Encode Domain Information in Relation Classification [28.006694890849374]
現在の言語モデルは、高いパフォーマンスを得るために多くのトレーニングデータが必要です。
リレーショナル分類(RC)では、多くのデータセットがドメイン固有である。
本稿では,RCのためのマルチドメイン学習環境について検討し,ドメイン情報を符号化することで性能向上を図る。
論文 参考訳(メタデータ) (2024-04-21T20:16:35Z) - Composite Active Learning: Towards Multi-Domain Active Learning with
Theoretical Guarantees [12.316113075760743]
アクティブラーニング(AL)は、ラベルに最も有用なデータポイントを選択することで、固定されたラベル付け予算内でのモデルパフォーマンスを改善することを目的としている。
マルチドメインALのための合成能動学習(CAL)と呼ばれる最初の一般手法を提案する。
理論解析により,本手法は現在のAL法よりも優れた誤差境界が得られることが示された。
論文 参考訳(メタデータ) (2024-02-03T10:22:18Z) - M2D2: A Massively Multi-domain Language Modeling Dataset [76.13062203588089]
ドメイン適応(LM)を研究するための細粒度多ドメインコーパスM2D2を提案する。
ウィキペディアとArXivから派生したカテゴリを用いて、各データソース内のドメインを22のグループに分類する。
我々は、LMをドメイン階層に沿って適用することの利点を示し、より少量のドメイン固有のデータに適応することで、ドメイン内のパフォーマンスが向上することを示した。
論文 参考訳(メタデータ) (2022-10-13T21:34:52Z) - Robust wav2vec 2.0: Analyzing Domain Shift in Self-Supervised
Pre-Training [67.71228426496013]
事前トレーニング中にターゲットドメインデータを使用することで,さまざまなセットアップで大幅なパフォーマンス向上が期待できる。
複数のドメインで事前トレーニングを行うことで、トレーニング中に見られないドメインのパフォーマンスの一般化が向上します。
論文 参考訳(メタデータ) (2021-04-02T12:53:15Z) - Batch Normalization Embeddings for Deep Domain Generalization [50.51405390150066]
ドメインの一般化は、異なるドメインと見えないドメインで堅牢に実行されるように機械学習モデルをトレーニングすることを目的としている。
一般的な領域一般化ベンチマークにおいて,最先端技術よりも分類精度が著しく向上したことを示す。
論文 参考訳(メタデータ) (2020-11-25T12:02:57Z) - Multi-Domain Spoken Language Understanding Using Domain- and Task-Aware
Parameterization [78.93669377251396]
音声言語理解は、各ドメインでトレーニングデータのセットが利用できる教師付き学習問題として対処されてきた。
既存の1つのアプローチは、ドメイン間の共同トレーニングに共有パラメータを使用して、マルチドメイン学習を行うことによって、この問題を解決する。
本稿では,ドメイン固有モデルパラメータとタスク固有モデルパラメータを用いて,この手法のパラメータ化を改善することを提案する。
論文 参考訳(メタデータ) (2020-04-30T15:15:40Z) - Mind the Gap: Enlarging the Domain Gap in Open Set Domain Adaptation [65.38975706997088]
オープンセットドメイン適応(OSDA)は、ターゲットドメインに未知のクラスが存在することを前提としている。
既存の最先端手法は、より大きなドメインギャップが存在する場合、かなりの性能低下を被ることを示す。
我々は、より大きなドメインギャップに特に対処するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-08T14:20:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。