論文の概要: Partial-input baselines show that NLI models can ignore context, but
they don't
- arxiv url: http://arxiv.org/abs/2205.12181v1
- Date: Tue, 24 May 2022 16:27:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-25 14:36:32.403621
- Title: Partial-input baselines show that NLI models can ignore context, but
they don't
- Title(参考訳): 部分入力ベースラインは、NLIモデルがコンテキストを無視できることを示しているが、そうではない。
- Authors: Neha Srikanth, Rachel Rudinger
- Abstract要約: 我々は、最先端のNLIモデルが、部分入力ベースラインによるデフォルトの推論をオーバーライドできるかどうかを検討する。
本稿では,RoBERTaモデルの編集コンテキストに対する感度を評価するために,摂動前提からなる600例の評価セットを提案する。
- 参考スコア(独自算出の注目度): 15.048923448397158
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When strong partial-input baselines reveal artifacts in crowdsourced NLI
datasets, the performance of full-input models trained on such datasets is
often dismissed as reliance on spurious correlations. We investigate whether
state-of-the-art NLI models are capable of overriding default inferences made
by a partial-input baseline. We introduce an evaluation set of 600 examples
consisting of perturbed premises to examine a RoBERTa model's sensitivity to
edited contexts. Our results indicate that NLI models are still capable of
learning to condition on context--a necessary component of inferential
reasoning--despite being trained on artifact-ridden datasets.
- Abstract(参考訳): クラウドソースされたnliデータセットで強い部分入力ベースラインがアーティファクトを明らかにすると、そのようなデータセットでトレーニングされたフル入力モデルのパフォーマンスは、スプリアス相関に依存するものとしてしばしば無視される。
最先端nliモデルが部分入力ベースラインによるデフォルト推論をオーバーライドできるかどうかを検討する。
編集されたコンテキストに対するロバータモデルの感度を調べるために,摂動環境を含む600例の評価セットを導入する。
以上の結果から,nliモデルは,アーティファクト・リデントデータセット上で訓練されたとしても,推論の必要成分である文脈条件を学習できることが示された。
関連論文リスト
- How Hard is this Test Set? NLI Characterization by Exploiting Training Dynamics [49.9329723199239]
本稿では, 実例と非実例を手作業で構築することなく, 挑戦的なテストセットを自動生成する手法を提案する。
一般的なNLIデータセットのテストセットを,トレーニングダイナミクスを利用した3つの難易度に分類する。
我々の評価法がトレーニングセットに適用された場合、トレーニング対象データのごく一部でトレーニングされたモデルは、フルデータセットでトレーニングされたモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-04T13:39:21Z) - Exploring Factual Entailment with NLI: A News Media Study [0.9208007322096533]
本稿では,FactRelの導入により,事実性と自然言語推論(NLI)の関係について検討する。
分析の結果,事実支援ペアの84%,不明な事実支援ペアの63%はNLIの関与や矛盾にはならないことがわかった。
我々は,新しいデータセットをペアで分類するモデルを用いて実験を行い,いくつかの場合において,注釈付きデータセットに基づいてGPT-4で合成データを生成することにより,性能が向上することを示した。
論文 参考訳(メタデータ) (2024-06-24T17:47:55Z) - CHALLENGER: Training with Attribution Maps [63.736435657236505]
ニューラルネットワークのトレーニングに属性マップを利用すると、モデルの正規化が向上し、性能が向上することを示す。
特に、我々の汎用的なドメインに依存しないアプローチは、ビジョン、自然言語処理、時系列タスクにおける最先端の結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-05-30T13:34:46Z) - Falsesum: Generating Document-level NLI Examples for Recognizing Factual
Inconsistency in Summarization [63.21819285337555]
高品質なタスク指向の例でトレーニングデータを拡張した場合,NLIモデルがこのタスクに有効であることを示す。
我々は、制御可能なテキスト生成モデルを利用して、人間の注釈付き要約を摂動させるデータ生成パイプラインであるFalsesumを紹介した。
本研究では,Falsesumを付加したNLIデータセットでトレーニングしたモデルにより,4つのベンチマークを用いて,要約における事実整合性を検出することにより,最先端のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2022-05-12T10:43:42Z) - Stretching Sentence-pair NLI Models to Reason over Long Documents and
Clusters [35.103851212995046]
自然言語推論(NLI)は,文ペア間の意味的関係を推定するフレームワークとして,NLPコミュニティによって広く研究されている。
我々は、NLIモデルの実アプリケーションへの直接ゼロショット適用性について、訓練された文ペア設定を超えて検討する。
本研究では,ContractNLIデータセット上で,フルドキュメント上で動作し,最先端のパフォーマンスを実現するための新たなアグリゲーション手法を開発した。
論文 参考訳(メタデータ) (2022-04-15T12:56:39Z) - Exploring Transitivity in Neural NLI Models through Veridicality [39.845425535943534]
推論関係の推移性に着目する。推論を体系的に描く基本的な性質である。
推移性をキャプチャするモデルは、基本的な推論パターンを構成し、新しい推論を引き出すことができる。
現在のNLIモデルは、推移性推論タスクで一貫してうまく機能しないことがわかります。
論文 参考訳(メタデータ) (2021-01-26T11:18:35Z) - Learning to Model and Ignore Dataset Bias with Mixed Capacity Ensembles [66.15398165275926]
本稿では,データセット固有のパターンを自動的に検出・無視する手法を提案する。
我々の方法は、より高い容量モデルでアンサンブルで低容量モデルを訓練する。
視覚的質問応答データセットの10ポイントゲインを含む,すべての設定の改善を示す。
論文 参考訳(メタデータ) (2020-11-07T22:20:03Z) - Reliable Evaluations for Natural Language Inference based on a Unified
Cross-dataset Benchmark [54.782397511033345]
クラウドソースの自然言語推論(NLI)データセットは、アノテーションアーティファクトのような重大なバイアスに悩まされる可能性がある。
14のNLIデータセットと9つの広く使用されているニューラルネットワークベースのNLIモデルを再評価した、新しいクロスデータセットベンチマークを提案する。
提案した評価手法と実験ベースラインは,将来信頼性の高いNLI研究を刺激する基盤となる可能性がある。
論文 参考訳(メタデータ) (2020-10-15T11:50:12Z) - Evaluating Models' Local Decision Boundaries via Contrast Sets [119.38387782979474]
テストデータの体系的なギャップを埋めるのに役立つNLPのための新しいアノテーションパラダイムを提案する。
10種類のNLPデータセットに対してコントラストセットを作成することで,コントラストセットの有効性を示す。
我々のコントラストセットは明示的には逆ではないが、モデルの性能は元のテストセットよりも大幅に低い。
論文 参考訳(メタデータ) (2020-04-06T14:47:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。