論文の概要: First Train to Generate, then Generate to Train: UnitedSynT5 for Few-Shot NLI
- arxiv url: http://arxiv.org/abs/2412.09263v2
- Date: Fri, 13 Dec 2024 06:28:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 11:43:11.158492
- Title: First Train to Generate, then Generate to Train: UnitedSynT5 for Few-Shot NLI
- Title(参考訳): 最初の列車で生成し、次に列車で生成:UnitedSynT5でNLIに挑戦
- Authors: Sourav Banerjee, Anush Mahajan, Ayushi Agarwal, Eishkaran Singh,
- Abstract要約: We present UnitedSynT5, a Advanced extension of Entailment Few-Shot Learning (EFL)。
我々は、T5ベースのジェネレータを使用して、厳格にクリーン化され、トレーニングデータに統合された追加の前提-仮説ペアを合成する。
この拡張データセット上でGTR-T5-XLモデルをトレーニングし、SNLIデータセットで94.7%の精度、E-SNLIデータセットで94.0%の精度、MultiNLIデータセットで92.6%の精度を達成し、以前のSOTAモデルを上回った。
- 参考スコア(独自算出の注目度): 1.2642388972233847
- License:
- Abstract: Natural Language Inference (NLI) tasks require identifying the relationship between sentence pairs, typically classified as entailment, contradiction, or neutrality. While the current state-of-the-art (SOTA) model, Entailment Few-Shot Learning (EFL), achieves a 93.1% accuracy on the Stanford Natural Language Inference (SNLI) dataset, further advancements are constrained by the dataset's limitations. To address this, we propose a novel approach leveraging synthetic data augmentation to enhance dataset diversity and complexity. We present UnitedSynT5, an advanced extension of EFL that leverages a T5-based generator to synthesize additional premise-hypothesis pairs, which are rigorously cleaned and integrated into the training data. These augmented examples are processed within the EFL framework, embedding labels directly into hypotheses for consistency. We train a GTR-T5-XL model on this expanded dataset, achieving a new benchmark of 94.7% accuracy on the SNLI dataset, 94.0% accuracy on the E-SNLI dataset, and 92.6% accuracy on the MultiNLI dataset, surpassing the previous SOTA models. This research demonstrates the potential of synthetic data augmentation in improving NLI models, offering a path forward for further advancements in natural language understanding tasks.
- Abstract(参考訳): 自然言語推論(NLI)タスクは文のペア間の関係を識別する必要がある。
現在の最先端(SOTA)モデルであるEntailment Few-Shot Learning (EFL)は、Stanford Natural Language Inference (SNLI)データセットで93.1%の精度を達成するが、データセットの制限によりさらなる進歩が制限される。
そこで本研究では,データセットの多様性と複雑性を高めるために,合成データ拡張を活用した新しいアプローチを提案する。
我々は,T5ベースのジェネレータを利用して,厳格にクリーン化され,トレーニングデータに統合された前提-仮説ペアを合成する,EFLの高度な拡張であるUnitedSynT5を提案する。
これらの拡張例はEFLフレームワーク内で処理され、ラベルを直接一貫性の仮説に埋め込む。
この拡張データセット上でGTR-T5-XLモデルをトレーニングし、SNLIデータセットで94.7%の精度、E-SNLIデータセットで94.0%の精度、MultiNLIデータセットで92.6%の精度を達成し、以前のSOTAモデルを上回った。
本研究は,NLIモデルの改良における合成データ拡張の可能性を示し,自然言語理解タスクのさらなる進歩に向けた道筋を示す。
関連論文リスト
- Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Synthio: Augmenting Small-Scale Audio Classification Datasets with Synthetic Data [69.7174072745851]
音声分類データセットを合成データで拡張する新しい手法であるSynthioを提案する。
最初の課題を克服するために、好みの最適化を用いて、T2Aモデルの世代と小規模データセットを整列する。
2つ目の課題に対処するために,大規模言語モデルの推論能力を活用する新しいキャプション生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T22:05:36Z) - Towards Effective and Efficient Continual Pre-training of Large Language Models [163.34610964970258]
CPT(Continuous pre-training)は、特定のドメインやタスクに言語モデルを適用する上で重要なアプローチである。
本稿では,Llama-3 (8B) の継続事前訓練に関する技術的報告を報告する。
バックボーンモデルの中国語能力と科学的推論能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-07-26T13:55:21Z) - Diverse and Effective Synthetic Data Generation for Adaptable Zero-Shot Dialogue State Tracking [12.116834890063146]
合成データ生成によるトレーニングデータの多様性の向上により,ゼロショット対話状態追跡(DST)の性能向上を示す。
既存のDSTデータセットは、データ収集のコストが高いため、それらがカバーするアプリケーションドメイン数やスロットタイプに大きく制限されている。
この研究は、合成ゼロショットDSTデータセットを生成する新しい完全自動データ生成アプローチで、この課題に対処する。
論文 参考訳(メタデータ) (2024-05-21T03:04:14Z) - FLIGAN: Enhancing Federated Learning with Incomplete Data using GAN [1.5749416770494706]
Federated Learning (FL)は、ネットワークデバイス上での機械学習モデルの分散トレーニングのためのプライバシ保護メカニズムを提供する。
本稿では,FLにおけるデータ不完全性問題に対処する新しいアプローチであるFLIGANを提案する。
本手法はFLのプライバシ要件に則り,プロセス内の実際のデータを共有せずに合成データをフェデレートした方法で生成する。
論文 参考訳(メタデータ) (2024-03-25T16:49:38Z) - A synthetic data approach for domain generalization of NLI models [13.840374911669167]
自然言語推論(NLI)はLLMにとって重要なベンチマークタスクである。
合成された高品質データセットは、下流アプリケーションでゼロショット使用にNLIモデルを適用することができることを示す。
我々は、このデータに基づいてトレーニングされたモデルが、完全に下流のテスト設定に最適な一般化があることを示します。
論文 参考訳(メタデータ) (2024-02-19T18:55:16Z) - TarGEN: Targeted Data Generation with Large Language Models [51.87504111286201]
TarGENは、高品質な合成データセットを生成するための、多段階のプロンプト戦略である。
我々は,LLMが不正確なラベル付きインスタンスを修正できるようにする自己補正法により,TarGENを増強する。
合成データセットを元のデータセットと比較した包括的な分析により、データセットの複雑さと多様性の類似または高いレベルが明らかになる。
論文 参考訳(メタデータ) (2023-10-27T03:32:17Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - WANLI: Worker and AI Collaboration for Natural Language Inference
Dataset Creation [101.00109827301235]
我々は人間と機械の協調に基づくデータセット作成のための新しいパラダイムを導入する。
我々は、データセット地図を用いて、挑戦的な推論パターンを示すサンプルを自動的に識別し、GPT-3に同様のパターンで新しい例を作成するよう指示する。
結果として得られたデータセットであるWANLIは、108,357の自然言語推論(NLI)の例からなり、ユニークな経験的強度を示す。
論文 参考訳(メタデータ) (2022-01-16T03:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。