論文の概要: Let's CONFER: A Dataset for Evaluating Natural Language Inference Models on CONditional InFERence and Presupposition
- arxiv url: http://arxiv.org/abs/2506.06133v1
- Date: Fri, 06 Jun 2025 14:42:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.522068
- Title: Let's CONFER: A Dataset for Evaluating Natural Language Inference Models on CONditional InFERence and Presupposition
- Title(参考訳): Let's CONFER:Conditional Inference and Presuppositionに基づく自然言語推論モデルの評価データセット
- Authors: Tara Azin, Daniel Dumitrescu, Diana Inkpen, Raj Singh,
- Abstract要約: 本研究では,NLIモデルが条件文の推論をどのように処理するかを評価するための新しいデータセットであるConFERを紹介する。
2つの事前学習モデルを含む4つのNLIモデルの性能を評価し、条件付き推論への一般化について検討する。
以上の結果から,NLIモデルは条件付き推論に苦慮し,既存のNLIデータセットの微調整が必ずしも性能を向上するとは限らないことが示唆された。
- 参考スコア(独自算出の注目度): 6.429761894240061
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural Language Inference (NLI) is the task of determining whether a sentence pair represents entailment, contradiction, or a neutral relationship. While NLI models perform well on many inference tasks, their ability to handle fine-grained pragmatic inferences, particularly presupposition in conditionals, remains underexplored. In this study, we introduce CONFER, a novel dataset designed to evaluate how NLI models process inference in conditional sentences. We assess the performance of four NLI models, including two pre-trained models, to examine their generalization to conditional reasoning. Additionally, we evaluate Large Language Models (LLMs), including GPT-4o, LLaMA, Gemma, and DeepSeek-R1, in zero-shot and few-shot prompting settings to analyze their ability to infer presuppositions with and without prior context. Our findings indicate that NLI models struggle with presuppositional reasoning in conditionals, and fine-tuning on existing NLI datasets does not necessarily improve their performance.
- Abstract(参考訳): 自然言語推論(英: Natural Language Inference, NLI)とは、文対が含意、矛盾、中立関係を表すかどうかを決定するタスクである。
NLIモデルは、多くの推論タスクでよく機能するが、特に条件付きでは、粒度の細かいプラグマティックな推論を処理できる能力は、未解明のままである。
本研究では,NLIモデルが条件文の推論をどのように処理するかを評価するための新しいデータセットであるConFERを紹介する。
2つの事前学習モデルを含む4つのNLIモデルの性能を評価し、条件付き推論への一般化について検討する。
さらに、GPT-4o、LLaMA、Gemma、DeepSeek-R1を含むLarge Language Models (LLMs) をゼロショットおよび少数ショットのプロンプト設定で評価し、前置詞を事前の文脈と無条件で推論する能力を解析する。
以上の結果から,NLIモデルは条件付き推論に苦慮し,既存のNLIデータセットの微調整が必ずしも性能を向上するとは限らないことが示唆された。
関連論文リスト
- Pushing the boundary on Natural Language Inference [49.15148871877941]
自然言語推論(NLI)は、ファクトチェック、質問応答、情報検索における自然言語理解の中心的なタスクである。
その重要性にもかかわらず、現在のNLIシステムは、アーティファクトやバイアス、推論、実世界の適用性を制限した学習に大きく依存している。
この作業は、品質や実世界の適用性を犠牲にすることなく、堅牢なNLIシステムを構築するためのフレームワークを提供する。
論文 参考訳(メタデータ) (2025-04-25T14:20:57Z) - Improving Context-Aware Preference Modeling for Language Models [62.32080105403915]
本稿では、まず、文脈を選択し、選択した文脈に対する嗜好を評価することによって、不特定性を解決する2段階の選好モデリング手法について考察する。
我々は、文脈条件付き嗜好データセットと実験に貢献し、文脈特化選好を評価する言語モデルの能力について検討する。
論文 参考訳(メタデータ) (2024-07-20T16:05:17Z) - With a Little Push, NLI Models can Robustly and Efficiently Predict
Faithfulness [19.79160738554967]
条件付き言語モデルは、入力によってサポートされない不誠実な出力を生成します。
我々は、タスク適応型データ拡張と堅牢な推論手順を組み合わせることで、純粋なNLIモデルの方がより複雑なメトリクスより優れていることを示す。
論文 参考訳(メタデータ) (2023-05-26T11:00:04Z) - Stretching Sentence-pair NLI Models to Reason over Long Documents and
Clusters [35.103851212995046]
自然言語推論(NLI)は,文ペア間の意味的関係を推定するフレームワークとして,NLPコミュニティによって広く研究されている。
我々は、NLIモデルの実アプリケーションへの直接ゼロショット適用性について、訓練された文ペア設定を超えて検討する。
本研究では,ContractNLIデータセット上で,フルドキュメント上で動作し,最先端のパフォーマンスを実現するための新たなアグリゲーション手法を開発した。
論文 参考訳(メタデータ) (2022-04-15T12:56:39Z) - e-ViL: A Dataset and Benchmark for Natural Language Explanations in
Vision-Language Tasks [52.918087305406296]
説明可能な視覚言語タスクを評価するベンチマークe-ViLを紹介します。
また、NLEで最大のデータセットであるe-SNLI-VEについても紹介する。
画像とテキストの共同埋め込みを学習するUNITERと、予め訓練された言語モデルであるGPT-2を組み合わせた新しいモデルを提案する。
論文 参考訳(メタデータ) (2021-05-08T18:46:33Z) - Exploring Transitivity in Neural NLI Models through Veridicality [39.845425535943534]
推論関係の推移性に着目する。推論を体系的に描く基本的な性質である。
推移性をキャプチャするモデルは、基本的な推論パターンを構成し、新しい推論を引き出すことができる。
現在のNLIモデルは、推移性推論タスクで一貫してうまく機能しないことがわかります。
論文 参考訳(メタデータ) (2021-01-26T11:18:35Z) - Exploring Lexical Irregularities in Hypothesis-Only Models of Natural
Language Inference [5.283529004179579]
自然言語推論(NLI)またはテキスト関連認識(RTE)は、文のペア間の関係を予測するタスクです。
包含を理解するモデルは前提と仮説の両方をエンコードするべきである。
Poliakらによる実験。
仮説でのみ観察されたパターンに対するこれらのモデルの強い好みを明らかにした。
論文 参考訳(メタデータ) (2021-01-19T01:08:06Z) - Reading Comprehension as Natural Language Inference: A Semantic Analysis [15.624486319943015]
質問回答(QA)における自然言語推論(NLI)の有用性について検討する。
我々は、利用可能な最大のRCデータセット(RACE)の1つをNLI形式に変換し、両形式の最先端モデル(RoBERTa)の性能を比較する。
我々は、データをコヒーレントな包含形式、構造化された質問応答結合形式で提示するときに、モデルがよりよく機能できる明確なカテゴリを強調した。
論文 参考訳(メタデータ) (2020-10-04T22:50:59Z) - Coreferential Reasoning Learning for Language Representation [88.14248323659267]
本稿では,コンテキスト内でコアファーデンシャル関係をキャプチャ可能な新しい言語表現モデルCorefBERTを提案する。
実験の結果,既存のベースラインモデルと比較して,CorefBERTは下流のNLPタスクにおいて一貫した大幅な改善を達成できることがわかった。
論文 参考訳(メタデータ) (2020-04-15T03:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。