論文の概要: A synthetic data approach for domain generalization of NLI models
- arxiv url: http://arxiv.org/abs/2402.12368v2
- Date: Fri, 28 Jun 2024 10:36:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 21:34:45.995638
- Title: A synthetic data approach for domain generalization of NLI models
- Title(参考訳): NLIモデルの領域一般化のための合成データアプローチ
- Authors: Mohammad Javad Hosseini, Andrey Petrov, Alex Fabrikant, Annie Louis,
- Abstract要約: 自然言語推論(NLI)はLLMにとって重要なベンチマークタスクである。
合成された高品質データセットは、下流アプリケーションでゼロショット使用にNLIモデルを適用することができることを示す。
我々は、このデータに基づいてトレーニングされたモデルが、完全に下流のテスト設定に最適な一般化があることを示します。
- 参考スコア(独自算出の注目度): 13.840374911669167
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural Language Inference (NLI) remains an important benchmark task for LLMs. NLI datasets are a springboard for transfer learning to other semantic tasks, and NLI models are standard tools for identifying the faithfulness of model-generated text. There are several large scale NLI datasets today, and models have improved greatly by hill-climbing on these collections. Yet their realistic performance on out-of-distribution/domain data is less well-understood. We explore the opportunity for synthetic high-quality datasets to adapt NLI models for zero-shot use in downstream applications across new and unseen text domains. We demonstrate a new approach for generating NLI data in diverse domains and lengths, so far not covered by existing training sets. The resulting examples have meaningful premises, the hypotheses are formed in creative ways rather than simple edits to a few premise tokens, and the labels have high accuracy. We show that models trained on this data ($685$K synthetic examples) have the best generalization to completely new downstream test settings. On the TRUE benchmark, a T5-small model trained with our data improves around $7\%$ on average compared to training on the best alternative dataset. The improvements are more pronounced for smaller models, while still meaningful on a T5 XXL model. We also demonstrate gains on test sets when in-domain training data is augmented with our domain-general synthetic data.
- Abstract(参考訳): 自然言語推論(NLI)はLLMにとって重要なベンチマークタスクである。
NLIデータセットは、他のセマンティックタスクへの変換学習のためのスプリングボードであり、NLIモデルは、モデル生成テキストの忠実さを特定するための標準ツールである。
現在、いくつかの大規模なNLIデータセットがあり、これらのコレクションのヒルクライミングによってモデルは大幅に改善されている。
しかし、アウト・オブ・ディストリビューション/ドメインデータの現実的なパフォーマンスは、あまりよく理解されていない。
我々は、新しいテキストドメインと見えないテキストドメインをまたいだダウンストリームアプリケーションにおいて、NLIモデルをゼロショット使用に適応する、高品質な合成データセットの機会を探究する。
既存のトレーニングセットではカバーされていないさまざまな領域と長さでNLIデータを生成するための新しいアプローチを実証する。
得られた例は意味のある前提を持ち、仮説はいくつかの前提トークンへの単純な編集よりも創造的な方法で形成され、ラベルは高い精度を持つ。
このデータに基づいてトレーニングされたモデル(685$Kの合成例)が、まったく新しい下流テスト設定に最適な一般化があることを示します。
TRUEベンチマークでは、私たちのデータでトレーニングされたT5小モデルでは、最適な代替データセットでトレーニングした場合と比較して、平均で7\%程度改善されています。
この改良は小型モデルではより顕著だが、それでもT5 XXLモデルでは有意義である。
また、ドメイン内のトレーニングデータをドメイン一般の合成データで拡張した場合、テストセットが向上することを示す。
関連論文リスト
- Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Rethinking Data Synthesis: A Teacher Model Training Recipe with Interpretation [8.013158752919722]
大規模言語モデル(LLM)訓練の最近の進歩は、多種多様な高品質な命令データの必要性を強調している。
データ生成のためのモデルを具体的に訓練する方法を検討することにより、 textbfNOMAD というパラダイムシフトを提案する。
論文 参考訳(メタデータ) (2024-10-27T07:38:39Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - How Hard is this Test Set? NLI Characterization by Exploiting Training Dynamics [49.9329723199239]
本稿では, 実例と非実例を手作業で構築することなく, 挑戦的なテストセットを自動生成する手法を提案する。
一般的なNLIデータセットのテストセットを,トレーニングダイナミクスを利用した3つの難易度に分類する。
我々の評価法がトレーニングセットに適用された場合、トレーニング対象データのごく一部でトレーニングされたモデルは、フルデータセットでトレーニングされたモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-04T13:39:21Z) - Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。
本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。
このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文 参考訳(メタデータ) (2024-02-21T02:45:46Z) - Synthetic Data Generation in Low-Resource Settings via Fine-Tuning of
Large Language Models [15.991777903345575]
大規模な言語モデルは、比較的少ないラベル付き例で下流タスクを一般化することができる。
あるいは、ラベル付きサンプルを十分に微調整すれば、より小さなモデルで特定のタスクを解くことができる。
我々は、より小さなモデルの下流性能を改善するために、微調整教師LEMを用いた微調整訓練データの合成データ生成について検討した。
論文 参考訳(メタデータ) (2023-10-02T11:49:05Z) - ProGen: Progressive Zero-shot Dataset Generation via In-context Feedback [21.168991554983815]
本稿では,プログレッシブなゼロショットデータセット生成フレームワークであるProGenを提案する。
ProGenは、1%の合成データセットサイズで、オンパーまたは優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-10-22T02:07:10Z) - Falsesum: Generating Document-level NLI Examples for Recognizing Factual
Inconsistency in Summarization [63.21819285337555]
高品質なタスク指向の例でトレーニングデータを拡張した場合,NLIモデルがこのタスクに有効であることを示す。
我々は、制御可能なテキスト生成モデルを利用して、人間の注釈付き要約を摂動させるデータ生成パイプラインであるFalsesumを紹介した。
本研究では,Falsesumを付加したNLIデータセットでトレーニングしたモデルにより,4つのベンチマークを用いて,要約における事実整合性を検出することにより,最先端のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2022-05-12T10:43:42Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - A Comparison of LSTM and BERT for Small Corpus [0.0]
NLP分野の最近の進歩は、スクラッチから始めるのではなく、事前学習されたモデルを調整することによって、新しいタスクの最先端結果を達成するのに、トランスファーラーニングが役立つことを示している。
本稿では、学術と産業の科学者が頻繁に直面する現実的なシナリオに焦点を当てる。小さなデータセットがあれば、BERTのような大規模な事前学習モデルを使用して、単純なモデルよりも優れた結果を得ることができるか?
実験の結果,2方向LSTMモデルは小データセットのBERTモデルよりもはるかに高い結果が得られることが示され,これらの単純なモデルは事前学習したモデルよりもはるかに少ない時間で訓練されることがわかった。
論文 参考訳(メタデータ) (2020-09-11T14:01:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。