論文の概要: Unsupervised Natural Language Inference Using PHL Triplet Generation
- arxiv url: http://arxiv.org/abs/2110.08438v1
- Date: Sat, 16 Oct 2021 01:40:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 13:30:51.438518
- Title: Unsupervised Natural Language Inference Using PHL Triplet Generation
- Title(参考訳): PHLトリプレット生成を用いた教師なし自然言語推論
- Authors: Neeraj Varshney, Pratyay Banerjee, Tejas Gokhale, Chitta Baral
- Abstract要約: トランスフォーマーベースのモデルは、トレーニングデータセットのトレーニングによって、さまざまな自然言語推論(NLI)ベンチマークで印象的なパフォーマンスを達成した。
トレーニングサンプルが入手できない場合や、それらを集めるのに時間を要する場合もあります。
本研究では,一連の文変換を利用した手続き型データ生成手法を提案する。
- 参考スコア(独自算出の注目度): 24.865202092518555
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Transformer-based models have achieved impressive performance on various
Natural Language Inference (NLI) benchmarks, when trained on respective
training datasets. However, in certain cases, training samples may not be
available or collecting them could be time-consuming and resource-intensive. In
this work, we address this challenge and present an explorative study on
unsupervised NLI, a paradigm in which no human-annotated training samples are
available. We investigate NLI under three challenging settings: PH, P, and NPH
that differ in the extent of unlabeled data available for learning. As a
solution, we propose a procedural data generation approach that leverages a set
of sentence transformations to collect PHL (Premise, Hypothesis, Label)
triplets for training NLI models, bypassing the need for human-annotated
training datasets. Comprehensive experiments show that this approach results in
accuracies of 66.75%, 65.9%, 65.39% in PH, P, NPH settings respectively,
outperforming all existing baselines. Furthermore, fine-tuning our models with
as little as ~0.1% of the training dataset (500 samples) leads to 12.2% higher
accuracy than the model trained from scratch on the same 500 instances.
- Abstract(参考訳): トランスフォーマーベースのモデルは、トレーニングデータセットのトレーニングによって、さまざまな自然言語推論(NLI)ベンチマークで印象的なパフォーマンスを達成した。
しかし、トレーニングサンプルが入手できない場合や、それらを集めるのに時間を要する場合もあります。
本稿では,この課題に対処し,非教師なしnliについて探索的研究を行う。
我々は,学習に利用可能なラベルなしデータの程度が異なるPH,P,NPHの3つの困難な条件下でNLIを調査した。
そこで,提案手法では,文変換のセットを利用してnliモデルの学習にphl(前提,仮説,ラベル)三重項を収集し,人間の注釈付き学習データセットの必要性を回避した手続きデータ生成手法を提案する。
総合的な実験により、このアプローチは66.75%、65.9%、65.39%のPH、P、NPH設定の精度を達成し、既存のベースラインを上回ります。
さらに、トレーニングデータセット(500サンプル)の0.1%程度でモデルを微調整すると、同じ500インスタンスでトレーニングされたモデルよりも12.2%精度が向上します。
関連論文リスト
- How Hard is this Test Set? NLI Characterization by Exploiting Training Dynamics [49.9329723199239]
本稿では, 実例と非実例を手作業で構築することなく, 挑戦的なテストセットを自動生成する手法を提案する。
一般的なNLIデータセットのテストセットを,トレーニングダイナミクスを利用した3つの難易度に分類する。
我々の評価法がトレーニングセットに適用された場合、トレーニング対象データのごく一部でトレーニングされたモデルは、フルデータセットでトレーニングされたモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-04T13:39:21Z) - Probing Perfection: The Relentless Art of Meddling for Pulmonary Airway Segmentation from HRCT via a Human-AI Collaboration Based Active Learning Method [13.384578466263566]
肺気管分節症では, 注記データの不足が主訴である。
ディープラーニング(DL)メソッドは、'ブラックボックス'モデルの不透明さとパフォーマンス向上の必要性という課題に直面します。
多様なクエリ戦略とさまざまなDLモデルを組み合わせることで、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-07-03T23:27:53Z) - DataComp-LM: In search of the next generation of training sets for language models [200.5293181577585]
DataComp for Language Models (DCLM)は、制御されたデータセット実験のためのテストベッドであり、言語モデルを改善することを目的としている。
我々は、Common Crawlから抽出された240Tトークンの標準化コーパス、OpenLMフレームワークに基づく効果的な事前学習レシピ、53の下流評価スイートを提供する。
DCLMベンチマークの参加者は、412Mから7Bパラメータのモデルスケールでの重複、フィルタリング、データ混合などのデータキュレーション戦略を実験することができる。
論文 参考訳(メタデータ) (2024-06-17T17:42:57Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models [115.501751261878]
人為的なデータに基づく微調整言語モデル(LM)が普及している。
我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。
ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:17:43Z) - SwiftLearn: A Data-Efficient Training Method of Deep Learning Models
using Importance Sampling [3.8330834108666667]
ディープラーニングモデルのトレーニングを高速化するデータ効率のよいアプローチとして,SwiftLearnを提案する。
このサブセットは、ウォームアップ段階でデータセット全体にわたって測定された重要基準に基づいて選択される。
我々は、平均精度を0.92%以下に抑えながら、エンドツーエンドの平均スピードアップを3.36倍にすることで、データの90%近くを落とせることを示した。
論文 参考訳(メタデータ) (2023-11-25T22:51:01Z) - ZeroGen$^+$: Self-Guided High-Quality Data Generation in Efficient
Zero-Shot Learning [97.2907428983142]
ZeroGenは、純粋にPLMを使用してデータを生成し、タスク固有のアノテーションに頼ることなく、小さなモデルをトレーニングする。
金のデータを必要とせずに、サンプルごとの重み付けを学習できるノイズローバストなバイレベル再重み付けフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:38:48Z) - Harnessing Unlabeled Data to Improve Generalization of Biometric Gender
and Age Classifiers [0.7874708385247353]
ディープラーニングモデルは、モデルトレーニングと最適パラメータ推定のために、大量のラベル付きデータを必要とする。
プライバシやセキュリティ上の懸念から、医療分野を含む特定のアプリケーションに対して大量のラベル付きデータを収集することはできない。
本稿では,ラベル付きデータに制限を加えた自己アンサンブルに基づくディープラーニングモデルを提案する。
論文 参考訳(メタデータ) (2021-10-09T01:06:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。