Fugu-MT 論文翻訳(概要): Do Language Models Know Theo Has a Wife? Investigating the Proviso Problem

論文の概要: Do Language Models Know Theo Has a Wife? Investigating the Proviso Problem

arxiv url: http://arxiv.org/abs/2603.08358v1
Date: Mon, 09 Mar 2026 13:21:56 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-10 15:13:16.085137
Title: Do Language Models Know Theo Has a Wife? Investigating the Proviso Problem
Title（参考訳）: 言語モデルはTheoに妻がいることを知っているか?プロビゾ問題を探る
Authors: Tara Azin, Daniel Dumitrescu, Diana Inkpen, Raj Singh,
Abstract要約: 本研究では,条件下での仮定予測を探索する診断データセットを提案する。結果は、モデルは人間の判断と広く一致しているが、意味論や実践的な推論よりも、浅いパターンマッチングに依存していることを示している。
参考スコア（独自算出の注目度）: 3.219880761967806
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We investigate how language models handle the proviso problem, an unresolved issue in pragmatics where presuppositions in conditional sentences diverge between theoretical and human interpretations. We reformulate this phenomenon as a Natural Language Inference task and introduce a diagnostic dataset designed to probe presupposition projection in conditionals. We evaluate RoBERTa, DeBERTa, LLaMA, and Gemma using explainability analyses. The results show that models broadly align with human judgments but rely on shallow pattern matching rather than semantic or pragmatic reasoning. Our work provides the first computational evaluation framework for the proviso problem and highlights the need for diagnostic, multi-method approaches to assess pragmatic competence and context-dependent meaning in language models.
Abstract（参考訳）: 本研究では,条件文の前提条件が理論的解釈と人的解釈の相違する現実論における未解決問題である Proproviso 問題に言語モデルがどのように対処するかを考察する。本稿では,この現象を自然言語推論タスクとして再検討し,条件付き予測を探索するための診断データセットを提案する。説明可能性分析を用いてRoBERTa,DeBERTa,LLaMA,Gemmaを評価した。その結果、モデルは人間の判断と広く一致しているが、意味論や実践的推論よりも浅いパターンマッチングに依存していることがわかった。我々の研究は、プロファイソ問題に対する最初の計算評価フレームワークを提供し、言語モデルにおける実用的能力と文脈依存の意味を評価するための診断的マルチメソッドアプローチの必要性を強調している。

関連論文リスト

Schoenfeld's Anatomy of Mathematical Reasoning by Language Models [56.656180566692946]
我々は、Schoenfeldのエピソード理論を誘導型中間スケールレンズとして採用し、ThinkARM(モデルにおける推論の解剖学)を紹介する。 ThinkARMは、推論トレースを分析、探索、実装、検証などの機能的推論ステップに明示的に抽象化する。エピソードレベルの表現は推論ステップを明確にし、現代の言語モデルにおける推論がどのように構造化され、安定化され、変更されるかの体系的な分析を可能にする。
論文参考訳（メタデータ） (2025-12-23T02:44:25Z)
Linguistically Grounded Analysis of Language Models using Shapley Head Values [2.914115079173979]
最近提案されたシェープヘッド値(SHV)を用いた言語モデル探索手法を利用した形態素合成現象の処理について検討する。英語のBLiMPデータセットを用いて、BERTとRoBERTaという2つの広く使われているモデルに対して、我々のアプローチを検証し、言語構造がどのように扱われるかを比較する。以上の結果から,SHVに基づく属性は両モデルにまたがる異なるパターンを明らかにし,言語モデルがどのように言語情報を整理・処理するかの洞察を与える。
論文参考訳（メタデータ） (2024-10-17T09:48:08Z)
Reasoning Abilities of Large Language Models: In-Depth Analysis on the Abstraction and Reasoning Corpus [4.569421189811511]
大規模言語モデル(LLM)の推論と文脈理解能力を評価する新しい手法を提案する。思考仮説言語(LoTH:Logical Coherence, compositionality, Productivity)の3つの重要なコンポーネントに注目します。実験の結果,LSMは推論能力を示す一方で,これらの3つの側面において,人間レベルの推論に遅れが生じることが判明した。
論文参考訳（メタデータ） (2024-03-18T13:50:50Z)
Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文参考訳（メタデータ） (2023-07-16T15:18:25Z)
DiPlomat: A Dialogue Dataset for Situated Pragmatic Reasoning [89.92601337474954]
プラグマティック推論は、実生活における会話でしばしば起こる暗黙の意味を解読する上で重要な役割を担っている。そこで我々は,現実的な推論と会話理解の場所に関するマシンの能力のベンチマークを目的とした,新しい挑戦であるDiPlomatを紹介した。
論文参考訳（メタデータ） (2023-06-15T10:41:23Z)
Knowledge-Based Counterfactual Queries for Visual Question Answering [0.0]
本稿では,VQAモデルの動作を説明するための系統的手法を提案する。そこで我々は,言語的モダリティをターゲットとした決定論的,最適,制御可能な単語レベルの置換を行うために,構造化知識ベースを利用する。次に、そのような反実的な入力に対するモデルの応答を評価する。
論文参考訳（メタデータ） (2023-03-05T08:00:30Z)
Probing via Prompting [71.7904179689271]
本稿では,探索をプロンプトタスクとして定式化することで,新しいモデルフリーな探索手法を提案する。我々は5つの探索課題について実験を行い、我々のアプローチが診断プローブよりも情報抽出に優れていることを示す。次に,その特性に不可欠な頭部を除去し,言語モデリングにおけるモデルの性能を評価することにより,事前学習のための特定の言語特性の有用性を検討する。
論文参考訳（メタデータ） (2022-07-04T22:14:40Z)
Naturalistic Causal Probing for Morpho-Syntax [76.83735391276547]
スペインにおける実世界のデータに対する入力レベルの介入に対する自然主義的戦略を提案する。提案手法を用いて,共同設立者から文章中の形態・症状の特徴を抽出する。本研究では,事前学習したモデルから抽出した文脈化表現に対する性別と数字の因果効果を解析するために,本手法を適用した。
論文参考訳（メタデータ） (2022-05-14T11:47:58Z)
A Closer Look at Linguistic Knowledge in Masked Language Models: The Case of Relative Clauses in American English [17.993417004424078]
トランスフォーマーに基づく言語モデルは、様々なタスクにおいて高いパフォーマンスを達成するが、それらが学習し、依存する言語知識の理解はいまだに不足している。文レベルの探索, 診断事例, マスク付き予測タスクにより, 文法的および意味的知識をテストする3つのモデル(BERT, RoBERTa, ALBERT)を評価した。
論文参考訳（メタデータ） (2020-11-02T13:25:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。