論文の概要: NLI under the Microscope: What Atomic Hypothesis Decomposition Reveals
- arxiv url: http://arxiv.org/abs/2502.08080v1
- Date: Wed, 12 Feb 2025 02:54:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:48:50.790697
- Title: NLI under the Microscope: What Atomic Hypothesis Decomposition Reveals
- Title(参考訳): 顕微鏡下でのNLI : 原子仮説分解の発見
- Authors: Neha Srikanth, Rachel Rudinger,
- Abstract要約: 従来のNLIと非実現可能なNLIという2つの自然言語推論タスクにおける仮説の原子分解を用いて、原子サブプロブレムを形成する。
これらの原子サブプロブレムは、NLIとデファシブル推論の両方の構造をより理解するためのツールとして機能する。
以上の結果から,LLMは原子性NLIと非実用性NLIサブプロブレムの論理的整合性に苦慮していることが示唆された。
- 参考スコア(独自算出の注目度): 19.300202585383914
- License:
- Abstract: Decomposition of text into atomic propositions is a flexible framework allowing for the closer inspection of input and output text. We use atomic decomposition of hypotheses in two natural language reasoning tasks, traditional NLI and defeasible NLI, to form atomic sub-problems, or granular inferences that models must weigh when solving the overall problem. These atomic sub-problems serve as a tool to further understand the structure of both NLI and defeasible reasoning, probe a model's consistency and understanding of different inferences, and measure the diversity of examples in benchmark datasets. Our results indicate that LLMs still struggle with logical consistency on atomic NLI and defeasible NLI sub-problems. Lastly, we identify critical atomic sub-problems of defeasible NLI examples, or those that most contribute to the overall label, and propose a method to measure the inferential consistency of a model, a metric designed to capture the degree to which a model makes consistently correct or incorrect predictions about the same fact under different contexts.
- Abstract(参考訳): テキストをアトミックな命題に分解することはフレキシブルなフレームワークであり、入力と出力のテキストを綿密に検査することができる。
我々は、従来のNLIとデファシブルNLIという2つの自然言語推論タスクにおける仮説の原子分解を用いて、原子サブプロブレム(英語版)を形成する。
これらのアトミックサブプロブレムは、NLIとデファシブル推論の両方の構造をさらに理解し、モデルの一貫性と異なる推論の理解を探索し、ベンチマークデータセットにおけるサンプルの多様性を測定するツールとして機能する。
以上の結果から,LLMは原子性NLIと非実用性NLIサブプロブレムの論理的整合性に苦慮していることが示唆された。
最後に、デファシブルなNLI例の臨界原子サブプロブレム、あるいは全体ラベルに最も寄与するサブプロブレムを同定し、モデルが同じ事実について常に正しいまたは間違った予測を行う程度を異なる文脈で捉えるために設計された計量であるモデルの推論整合性を測定する方法を提案する。
関連論文リスト
- On Reference (In-)Determinacy in Natural Language Inference [62.904689974282334]
我々は、自然言語推論(NLI)タスクにおける基準決定性(RD)仮定を再考する。
我々は、現在のNLIモデルは、入力前提と仮説が異なるコンテキストを参照できる事実検証のような下流アプリケーションでは失敗するのを観察する。
NLI例における参照曖昧性を特定するための診断ベンチマークであるRefNLIを紹介する。
論文 参考訳(メタデータ) (2025-02-09T06:58:13Z) - JustLogic: A Comprehensive Benchmark for Evaluating Deductive Reasoning in Large Language Models [51.99046112135311]
我々は、大言語モデルの厳密な評価のための合成推論ベンチマークであるJustLogicを紹介する。
JustLogicは非常に複雑で、多様な言語パターン、語彙、引数構造を生成することができる。
実験の結果,ほとんどのSOTA (State-of-the-art (SOTA) LLMは人体平均よりも著しく低下していることがわかった。
論文 参考訳(メタデータ) (2025-01-24T15:49:10Z) - Fine-Tuned Language Models Generate Stable Inorganic Materials as Text [57.01994216693825]
テキストエンコードされた原子構造データに基づく微調整された大規模言語モデルは、実装が簡単で信頼性が高い。
我々の最強モデルは、CDVAEの約2倍の速度で準安定であると予測された物質を生成することができる。
テキストプロンプト固有の柔軟性のため、我々のモデルは安定物質を無条件に生成するために同時に使用することができる。
論文 参考訳(メタデータ) (2024-02-06T20:35:28Z) - WorldSense: A Synthetic Benchmark for Grounded Reasoning in Large
Language Models [35.088946378980914]
我々は3つの最先端チャットLLM(GPT3.5、GPT4、Llama2-chat)上でベンチマークを実行する。
これらのモデルが3つのオブジェクトでもエラーを発生させることを示す。
エラーは、チェーン・オブ・コンテクストのプロンプトやイン・コンテクストの学習でも継続する。
論文 参考訳(メタデータ) (2023-11-27T15:38:17Z) - Atomic Inference for NLI with Generated Facts as Atoms [26.320297488995262]
原子推論は解釈可能で忠実なモデル決定を提供する。
このアプローチでは、全体的な予測を導出するために解釈可能かつ決定論的ルールを使用する前に、インスタンスの異なるコンポーネント(または原子)の予測を行う。
本研究では, LLM生成した事実を原子として利用し, 自然言語推論の前提を事実のリストに分解する方法について検討する。
論文 参考訳(メタデータ) (2023-05-22T16:45:50Z) - Benchmarking Faithfulness: Towards Accurate Natural Language
Explanations in Vision-Language Tasks [0.0]
自然言語の説明(NLE)は、モデルの意思決定を容易に理解可能な方法でコミュニケーション可能にすることを約束する。
現在のモデルは説得力のある説明をうまく生成するが、NLEが実際にモデルの推論過程をいかにうまく表現しているかは未解決の問題である。
帰属相似性(Atribution-Similarity)、NLE-Sufficiency(NLE-Sufficiency)、NLE-Comprehensiveness(NLE-Comprehensiveness)の3つの忠実度指標を提案する。
論文 参考訳(メタデータ) (2023-04-03T08:24:10Z) - Not another Negation Benchmark: The NaN-NLI Test Suite for Sub-clausal
Negation [59.307534363825816]
否定は現在の言語モデルでは不十分だが、この問題の範囲は広く理解されていない。
自然言語推論(NLI)テストスイートを導入し,NLP手法の能力を検証した。
論文 参考訳(メタデータ) (2022-10-06T23:39:01Z) - A Unified Understanding of Deep NLP Models for Text Classification [88.35418976241057]
我々は、テキスト分類のためのNLPモデルの統一的な理解を可能にする視覚解析ツールDeepNLPVisを開発した。
主要なアイデアは相互情報に基づく尺度であり、モデルの各レイヤがサンプル内の入力語の情報をどのように保持するかを定量的に説明する。
コーパスレベル、サンプルレベル、単語レベルビジュアライゼーションで構成されるマルチレベルビジュアライゼーションは、全体トレーニングセットから個々のサンプルまでの分析をサポートする。
論文 参考訳(メタデータ) (2022-06-19T08:55:07Z) - Decomposing Natural Logic Inferences in Neural NLI [9.606462437067984]
ニューラルNLIモデルは、単調性や概念包摂性といった、自然論理の中心となる重要な意味的特徴を捉えているかどうかを考察する。
ベンチマークで高いスコアを得る人気NLIモデルの表現において、モノトニック性情報は顕著に弱いことが判明した。
論文 参考訳(メタデータ) (2021-12-15T17:35:30Z) - Disentangling Observed Causal Effects from Latent Confounders using
Method of Moments [67.27068846108047]
我々は、軽度の仮定の下で、識別性と学習可能性に関する保証を提供する。
我々は,線形制約付き結合テンソル分解に基づく効率的なアルゴリズムを開発し,スケーラブルで保証可能な解を得る。
論文 参考訳(メタデータ) (2021-01-17T07:48:45Z) - Neural Natural Language Inference Models Partially Embed Theories of
Lexical Entailment and Negation [14.431925736607043]
本研究は, 語彙的含意と否定に焦点をあてた新しい自然主義的データセットであるモノトニック性NLI(MoNLI)について述べる。
行動評価では、汎用NLIデータセットでトレーニングされたモデルは、否定を含むMoNLIの例で体系的に失敗する。
構造評価では,トップパフォーマンスのBERTベースのモデルが,MoNLIの背後にある単調性アルゴリズムを実装することを学習したことを示す。
論文 参考訳(メタデータ) (2020-04-30T07:53:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。