Fugu-MT 論文翻訳(概要): First Train to Generate, then Generate to Train: UnitedSynT5 for Few-Shot NLI

論文の概要: First Train to Generate, then Generate to Train: UnitedSynT5 for Few-Shot NLI

arxiv url: http://arxiv.org/abs/2412.09263v2
Date: Fri, 13 Dec 2024 06:28:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-16 13:36:12.84228
Title: First Train to Generate, then Generate to Train: UnitedSynT5 for Few-Shot NLI
Title（参考訳）: 最初の列車で生成し、次に列車で生成:UnitedSynT5でNLIに挑戦
Authors: Sourav Banerjee, Anush Mahajan, Ayushi Agarwal, Eishkaran Singh,
Abstract要約: We present UnitedSynT5, a Advanced extension of Entailment Few-Shot Learning (EFL)。我々は、T5ベースのジェネレータを使用して、厳格にクリーン化され、トレーニングデータに統合された追加の前提-仮説ペアを合成する。この拡張データセット上でGTR-T5-XLモデルをトレーニングし、SNLIデータセットで94.7%の精度、E-SNLIデータセットで94.0%の精度、MultiNLIデータセットで92.6%の精度を達成し、以前のSOTAモデルを上回った。
参考スコア（独自算出の注目度）: 1.2642388972233847
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Natural Language Inference (NLI) tasks require identifying the relationship between sentence pairs, typically classified as entailment, contradiction, or neutrality. While the current state-of-the-art (SOTA) model, Entailment Few-Shot Learning (EFL), achieves a 93.1% accuracy on the Stanford Natural Language Inference (SNLI) dataset, further advancements are constrained by the dataset's limitations. To address this, we propose a novel approach leveraging synthetic data augmentation to enhance dataset diversity and complexity. We present UnitedSynT5, an advanced extension of EFL that leverages a T5-based generator to synthesize additional premise-hypothesis pairs, which are rigorously cleaned and integrated into the training data. These augmented examples are processed within the EFL framework, embedding labels directly into hypotheses for consistency. We train a GTR-T5-XL model on this expanded dataset, achieving a new benchmark of 94.7% accuracy on the SNLI dataset, 94.0% accuracy on the E-SNLI dataset, and 92.6% accuracy on the MultiNLI dataset, surpassing the previous SOTA models. This research demonstrates the potential of synthetic data augmentation in improving NLI models, offering a path forward for further advancements in natural language understanding tasks.
Abstract（参考訳）: 自然言語推論(NLI)タスクは文のペア間の関係を識別する必要がある。現在の最先端(SOTA)モデルであるEntailment Few-Shot Learning (EFL)は、Stanford Natural Language Inference (SNLI)データセットで93.1%の精度を達成するが、データセットの制限によりさらなる進歩が制限される。そこで本研究では,データセットの多様性と複雑性を高めるために,合成データ拡張を活用した新しいアプローチを提案する。我々は,T5ベースのジェネレータを利用して,厳格にクリーン化され,トレーニングデータに統合された前提-仮説ペアを合成する,EFLの高度な拡張であるUnitedSynT5を提案する。これらの拡張例はEFLフレームワーク内で処理され、ラベルを直接一貫性の仮説に埋め込む。この拡張データセット上でGTR-T5-XLモデルをトレーニングし、SNLIデータセットで94.7%の精度、E-SNLIデータセットで94.0%の精度、MultiNLIデータセットで92.6%の精度を達成し、以前のSOTAモデルを上回った。本研究は,NLIモデルの改良における合成データ拡張の可能性を示し,自然言語理解タスクのさらなる進歩に向けた道筋を示す。

関連論文リスト

Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文参考訳（メタデータ） (2025-03-25T11:07:12Z)
Generative adversarial networks vs large language models: a comparative study on synthetic tabular data generation [0.7373617024876725]
本研究では,タスク固有の微調整や,事前学習のための実世界のデータへのアクセスを必要とせずに,高品質な表形式データを生成する能力を示す。 GPT-4oをベンチマークするために、LLM生成合成データの忠実度とプライバシを条件付き生成対向ネットワーク(CTGAN)で生成されたデータと比較した。ゼロショットアプローチにもかかわらず、GPT-4oは保存手段においてCTGANよりも優れ、95%の信頼区間、二変量相関、RWDのデータプライバシが増幅されたサンプルサイズでも優れていた。
論文参考訳（メタデータ） (2025-02-20T12:56:16Z)
Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文参考訳（メタデータ） (2024-10-29T04:14:32Z)
Towards Effective and Efficient Continual Pre-training of Large Language Models [163.34610964970258]
CPT(Continuous pre-training)は、特定のドメインやタスクに言語モデルを適用する上で重要なアプローチである。本稿では,Llama-3 (8B) の継続事前訓練に関する技術的報告を報告する。バックボーンモデルの中国語能力と科学的推論能力を大幅に向上させる。
論文参考訳（メタデータ） (2024-07-26T13:55:21Z)
FLIGAN: Enhancing Federated Learning with Incomplete Data using GAN [1.5749416770494706]
Federated Learning (FL)は、ネットワークデバイス上での機械学習モデルの分散トレーニングのためのプライバシ保護メカニズムを提供する。本稿では,FLにおけるデータ不完全性問題に対処する新しいアプローチであるFLIGANを提案する。本手法はFLのプライバシ要件に則り,プロセス内の実際のデータを共有せずに合成データをフェデレートした方法で生成する。
論文参考訳（メタデータ） (2024-03-25T16:49:38Z)
A synthetic data approach for domain generalization of NLI models [13.840374911669167]
自然言語推論(NLI)はLLMにとって重要なベンチマークタスクである。合成された高品質データセットは、下流アプリケーションでゼロショット使用にNLIモデルを適用することができることを示す。我々は、このデータに基づいてトレーニングされたモデルが、完全に下流のテスト設定に最適な一般化があることを示します。
論文参考訳（メタデータ） (2024-02-19T18:55:16Z)
TarGEN: Targeted Data Generation with Large Language Models [51.87504111286201]
TarGENは、高品質な合成データセットを生成するための、多段階のプロンプト戦略である。我々は,LLMが不正確なラベル付きインスタンスを修正できるようにする自己補正法により,TarGENを増強する。合成データセットを元のデータセットと比較した包括的な分析により、データセットの複雑さと多様性の類似または高いレベルが明らかになる。
論文参考訳（メタデータ） (2023-10-27T03:32:17Z)
Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文参考訳（メタデータ） (2023-10-20T17:14:25Z)
WANLI: Worker and AI Collaboration for Natural Language Inference Dataset Creation [101.00109827301235]
我々は人間と機械の協調に基づくデータセット作成のための新しいパラダイムを導入する。我々は、データセット地図を用いて、挑戦的な推論パターンを示すサンプルを自動的に識別し、GPT-3に同様のパターンで新しい例を作成するよう指示する。結果として得られたデータセットであるWANLIは、108,357の自然言語推論(NLI)の例からなり、ユニークな経験的強度を示す。
論文参考訳（メタデータ） (2022-01-16T03:13:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。