論文の概要: On Reference (In-)Determinacy in Natural Language Inference
- arxiv url: http://arxiv.org/abs/2502.05793v1
- Date: Sun, 09 Feb 2025 06:58:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:32:57.708532
- Title: On Reference (In-)Determinacy in Natural Language Inference
- Title(参考訳): 自然言語推論における参照(In-)決定性について
- Authors: Sihao Chen, Chaitanya Malaviya, Alex Fabrikant, Hagai Taitelbaum, Tal Schuster, Senaka Buthpitiya, Dan Roth,
- Abstract要約: 我々は、自然言語推論(NLI)タスクにおける基準決定性(RD)仮定を再考する。
我々は、現在のNLIモデルは、入力前提と仮説が異なるコンテキストを参照できる事実検証のような下流アプリケーションでは失敗するのを観察する。
NLI例における参照曖昧性を特定するための診断ベンチマークであるRefNLIを紹介する。
- 参考スコア(独自算出の注目度): 62.904689974282334
- License:
- Abstract: We revisit the reference determinacy (RD) assumption in the task of natural language inference (NLI), i.e., the premise and hypothesis are assumed to refer to the same context when human raters annotate a label. While RD is a practical assumption for constructing a new NLI dataset, we observe that current NLI models, which are typically trained solely on hypothesis-premise pairs created with the RD assumption, fail in downstream applications such as fact verification, where the input premise and hypothesis may refer to different contexts. To highlight the impact of this phenomenon in real-world use cases, we introduce RefNLI, a diagnostic benchmark for identifying reference ambiguity in NLI examples. In RefNLI, the premise is retrieved from a knowledge source (i.e., Wikipedia) and does not necessarily refer to the same context as the hypothesis. With RefNLI, we demonstrate that finetuned NLI models and few-shot prompted LLMs both fail to recognize context mismatch, leading to over 80% false contradiction and over 50% entailment predictions. We discover that the existence of reference ambiguity in NLI examples can in part explain the inherent human disagreements in NLI and provide insight into how the RD assumption impacts the NLI dataset creation process.
- Abstract(参考訳): 我々は、自然言語推論(NLI)タスクにおける基準決定性(RD)仮定を再考する。
RD は新しい NLI データセットを構築するための実践的な仮定であるが、現在の NLI モデルは、RD 仮定で生成された仮説前提ペアのみに基づいて訓練されているが、事実検証のような下流アプリケーションでは失敗し、入力前提と仮説が異なるコンテキストを参照できる。
実世界のユースケースにおけるこの現象の影響を明らかにするために,NLI例における参照曖昧性を特定するための診断ベンチマークであるRefNLIを紹介した。
RefNLIでは、前提は知識源(ウィキペディア)から検索され、必ずしも仮説と同じ文脈を指すとは限らない。
RefNLIでは、微調整されたNLIモデルと少数ショットによりLLMは文脈ミスマッチの認識に失敗し、80%以上の誤った矛盾と50%以上の係り受け予測を導いた。
我々は,NLIにおける参照あいまいさの存在が,NLIにおける人間固有の不一致を部分的に説明し,RD仮定がNLIデータセット生成プロセスにどのように影響するかを考察する。
関連論文リスト
- Hypothesis-only Biases in Large Language Model-Elicited Natural Language Inference [3.0804372027733202]
我々は,GPT-4,Llama-2,Mistral 7bを用いて,スタンフォードNLIコーパスの一部を再現した。
我々は仮説のみの分類器を訓練し、LLMによる仮説がアノテーションのアーティファクトを含んでいるかどうかを判断する。
我々の分析は、NLIにおける十分に証明されたバイアスがLLM生成データに持続できるという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-10-11T17:09:22Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - No Strong Feelings One Way or Another: Re-operationalizing Neutrality in
Natural Language Inference [6.485890157501745]
自然言語推論(NLI)は、言語モデルの推論推論能力を評価するための基礎的なタスクである。
NLIで使用される標準的な3方向分類スキームは、自然な人間の推論のニュアンスを捉えるモデルの能力を評価するのに、よく知られた欠点がある。
我々は、現在のNLIデータセットにおける中立ラベルの運用は、妥当性が低く、矛盾なく解釈され、少なくとも1つの重要な中立感が無視されることを論じる。
論文 参考訳(メタデータ) (2023-06-16T15:45:08Z) - AMR4NLI: Interpretable and robust NLI measures from semantic graphs [28.017617759762278]
自然言語推論は、ある前提が与えられた仮説を含むかどうかを問う。
セマンティック構造を比較し、セマンティックな埋め込みやセマンティックグラフの集合を含む前提と仮説を表現する。
本評価では,文脈的埋め込みと意味グラフの両方に価値を見出す。
論文 参考訳(メタデータ) (2023-06-01T17:39:40Z) - Not All Metrics Are Guilty: Improving NLG Evaluation by Diversifying References [123.39034752499076]
Div-Refは、参照数を増やして評価ベンチマークを強化する方法である。
本研究では,参照表現の多様化が自動評価と人的評価の相関性を大幅に向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2023-05-24T11:53:29Z) - Semantic Role Labeling Meets Definition Modeling: Using Natural Language
to Describe Predicate-Argument Structures [104.32063681736349]
本稿では,離散ラベルの代わりに自然言語定義を用いて述語-代名詞構造を記述する手法を提案する。
PropBankスタイルおよびFrameNetスタイル、依存性ベースおよびスパンベースSRLに関する実験と分析は、解釈可能な出力を持つフレキシブルモデルが必ずしも性能を犠牲にしないことを示す。
論文 参考訳(メタデータ) (2022-12-02T11:19:16Z) - Not another Negation Benchmark: The NaN-NLI Test Suite for Sub-clausal
Negation [59.307534363825816]
否定は現在の言語モデルでは不十分だが、この問題の範囲は広く理解されていない。
自然言語推論(NLI)テストスイートを導入し,NLP手法の能力を検証した。
論文 参考訳(メタデータ) (2022-10-06T23:39:01Z) - Stretching Sentence-pair NLI Models to Reason over Long Documents and
Clusters [35.103851212995046]
自然言語推論(NLI)は,文ペア間の意味的関係を推定するフレームワークとして,NLPコミュニティによって広く研究されている。
我々は、NLIモデルの実アプリケーションへの直接ゼロショット適用性について、訓練された文ペア設定を超えて検討する。
本研究では,ContractNLIデータセット上で,フルドキュメント上で動作し,最先端のパフォーマンスを実現するための新たなアグリゲーション手法を開発した。
論文 参考訳(メタデータ) (2022-04-15T12:56:39Z) - Automatically Identifying Semantic Bias in Crowdsourced Natural Language
Inference Datasets [78.6856732729301]
NLIデータセットに仮説を組み込んだ学習空間に"バイアスクラスタ"を見つけるために,モデル駆動で教師なしの手法を導入する。
データセットの仮説分布のセマンティックバイアスを改善するために、介入と追加のラベリングを行うことができる。
論文 参考訳(メタデータ) (2021-12-16T22:49:01Z) - Exploring Lexical Irregularities in Hypothesis-Only Models of Natural
Language Inference [5.283529004179579]
自然言語推論(NLI)またはテキスト関連認識(RTE)は、文のペア間の関係を予測するタスクです。
包含を理解するモデルは前提と仮説の両方をエンコードするべきである。
Poliakらによる実験。
仮説でのみ観察されたパターンに対するこれらのモデルの強い好みを明らかにした。
論文 参考訳(メタデータ) (2021-01-19T01:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。