論文の概要: The Imperfective Paradox in Large Language Models
- arxiv url: http://arxiv.org/abs/2601.09373v1
- Date: Wed, 14 Jan 2026 10:57:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.374575
- Title: The Imperfective Paradox in Large Language Models
- Title(参考訳): 大規模言語モデルにおける不完全なパラドックス
- Authors: Bolei Ma, Yusuke Miyao,
- Abstract要約: 本研究では,過去の進歩的側面が,達成のためのものではなく,活動のイベント実現を伴っている不完全なパラドックスについて検討する。
多様なセマンティッククラスでこの区別を探索するために設計された診断データセットであるImperfectiveNLIを紹介する。
広汎なテレロジカルバイアス: 目標志向のイベントの完了を体系的に幻覚させるモデル。
- 参考スコア(独自算出の注目度): 19.058068907991277
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Do Large Language Models (LLMs) genuinely grasp the compositional semantics of events, or do they rely on surface-level probabilistic heuristics? We investigate the Imperfective Paradox, a logical phenomenon where the past progressive aspect entails event realization for activities (e.g., running $\to$ ran) but not for accomplishments (e.g., building $\nrightarrow$ built). We introduce ImperfectiveNLI, a diagnostic dataset designed to probe this distinction across diverse semantic classes. Evaluating state-of-the-art open-weight models, we uncover a pervasive Teleological Bias: models systematically hallucinate completion for goal-oriented events, often overriding explicit textual negation. Representational analyses show that while internal embeddings often distinguish process from result, inference decisions are dominated by strong priors about goal attainment. We further find that prompting-based interventions reduce hallucinated completions but also increase incorrect rejections of valid entailments. Our findings suggest that current LLMs lack structural aspectual awareness, operating as predictive narrative engines rather than faithful logical reasoners.
- Abstract(参考訳): 大規模言語モデル(LLM)は、事象の構成的意味を真に把握しているか、それとも、表面レベルの確率的ヒューリスティックに依存しているのか?
Indefective Paradoxは、過去の進歩的側面がアクティビティ(例えば、$\to$ run)のイベント実現を伴っているが、達成(例えば、$\nrightarrow$build)にはならない論理的現象である。
多様なセマンティッククラスでこの区別を探索するために設計された診断データセットであるImperfectiveNLIを紹介する。
最先端のオープンウェイトモデルを評価することで、広範に広がるテレロジカルバイアス(Teleological Bias)を明らかにする。
表現的分析は、内部埋め込みはプロセスと結果を区別することが多いが、推論決定はゴール達成に関する強い先行によって支配されることを示している。
さらに, 刺激による介入は幻覚の完了を減少させるが, 有効エンターメントの誤認を増大させることも見出した。
以上の結果から,現在のLLMは論理的論理的推論よりも予測的物語エンジンとして機能し,構造的側面の認識が欠如していることが示唆された。
関連論文リスト
- Analyzing Reasoning Consistency in Large Multimodal Models under Cross-Modal Conflicts [74.47786985522762]
テキスト慣性(textual inertia)と呼ばれる重要な障害モードを特定し、矛盾する視覚的証拠を無視しながら、モデルは間違ったテキストに盲目的に固執する傾向がある。
本稿では,多種多様なLMMの推論連鎖に摂動を構造的に注入するLogicGraph摂動プロトコルを提案する。
その結果,10%未満の症例で自己修正が成功し,主に視覚的テキスト誤りの伝播に寄与することが判明した。
論文 参考訳(メタデータ) (2026-01-07T16:39:34Z) - Temporal Predictors of Outcome in Reasoning Language Models [0.0]
CoT(Chain-of-Thought)パラダイムは、推論のプロキシとしてステップバイステップの合理性の推論を使用する。
難しい問題に対して、予測精度の低下は、選択アーティファクトを浮き彫りにする。
全体として、我々の結果は、推論モデルでは、成功の自己評価はわずか数トークンで現れる傾向にあることを示唆している。
論文 参考訳(メタデータ) (2025-11-03T08:57:18Z) - Active Confusion Expression in Large Language Models: Leveraging World Models toward Better Social Reasoning [31.08532996770416]
大規模言語モデル(LLM)は、認知的混乱、論理的矛盾、および客観的世界状態と主観的信念状態の衝突を示す。
本研究では,動的テキスト世界モデルを構築し,実体状態と時間的シーケンスを追跡する適応的世界モデル拡張推論機構を提案する。
論文 参考訳(メタデータ) (2025-10-09T09:07:31Z) - Distributional Semantics Tracing: A Framework for Explaining Hallucinations in Large Language Models [4.946483489399819]
大規模言語モデル(LLM)は、事実的に誤った文を生成する幻覚の傾向にある。
この研究は、3つの主要な貢献を通じて、この障害モードの本質的、アーキテクチャ的起源について調査する。
論文 参考訳(メタデータ) (2025-10-07T16:40:31Z) - Plausible-Parrots @ MSP2023: Enhancing Semantic Plausibility Modeling using Entity and Event Knowledge [1.6233244703352492]
外部知識ベースから抽出した詳細なエンティティタイプ、イベントタイプおよびそれらの定義を用いて、大型言語モデル(LLM)を強化する。
実験結果から,事象の意味的妥当性のモデル化におけるインジェクト知識の有効性が示された。
論文 参考訳(メタデータ) (2024-08-29T23:13:45Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Did the Cat Drink the Coffee? Challenging Transformers with Generalized
Event Knowledge [59.22170796793179]
Transformers Language Models (TLMs) を数学的適合のテクトダイナミックな評価のためのベンチマークで検証した。
以上の結果から, TLM は SDM に匹敵する性能が得られることが示された。
しかし、さらなる分析は、TLMがイベント知識の重要な側面を捉えていないことを一貫して示唆している。
論文 参考訳(メタデータ) (2021-07-22T20:52:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。