論文の概要: Plausibility as Commonsense Reasoning: Humans Succeed, Large Language Models Do not
- arxiv url: http://arxiv.org/abs/2604.04825v1
- Date: Mon, 06 Apr 2026 16:27:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.281082
- Title: Plausibility as Commonsense Reasoning: Humans Succeed, Large Language Models Do not
- Title(参考訳): 常識推論としての可視性:人間は理解し、大きな言語モデルは理解しない
- Authors: Sercan Karakaş,
- Abstract要約: あいまいさ解消の過程で,大規模言語モデルが世界知識と統語的構造を人間的,構造に敏感な方法で統合するかどうかを検証した。
我々は、構文構成を固定し、両方の構文解析が実用的に可能であることを保証する曖昧な項目を構築する。
高速な強制選択理解実験では、人間は大きな、正確に指示された可視性効果を示す。
モデル全体では、可視性駆動のシフトは弱く、不安定で、逆転している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models achieve strong performance on many language tasks, yet it remains unclear whether they integrate world knowledge with syntactic structure in a human-like, structure-sensitive way during ambiguity resolution. We test this question in Turkish prenominal relative-clause attachment ambiguities, where the same surface string permits high attachment (HA) or low attachment (LA). We construct ambiguous items that keep the syntactic configuration fixed and ensure both parses remain pragmatically possible, while graded event plausibility selectively favors High Attachment vs.\ Low Attachment. The contrasts are validated with independent norming ratings. In a speeded forced-choice comprehension experiment, humans show a large, correctly directed plausibility effect. We then evaluate Turkish and multilingual LLMs in a parallel preference-based setup that compares matched HA/LA continuations via mean per-token log-probability. Across models, plausibility-driven shifts are weak, unstable, or reversed. The results suggest that, in the tested models, plausibility information does not guide attachment preferences as reliably as it does in human judgments, and they highlight Turkish RC attachment as a useful cross-linguistic diagnostic beyond broad benchmarks.
- Abstract(参考訳): 大規模言語モデルは、多くの言語タスクにおいて強力な性能を達成するが、あいまいさ解消の過程で、世界知識と構文構造を統合するかは定かではない。
トルコの先駆的相対的クローズアタッチメントの曖昧さでは、同じ表面弦が高アタッチメント(HA)または低アタッチメント(LA)を許容する。
我々は,構文的構成を固定し,両方のパースを実用的に維持するあいまいな項目を構築し,段階的なイベントの可視性はHigh Attachment vs. High Attachmentを選択的に好んでいる。
低いアタッチメント。
コントラストは独立した規範格付けで検証される。
高速な強制選択の理解実験では、人間は大きな、正確に指示された可視性効果を示す。
次に,トルコ語と多言語によるLLMを,平均対数確率によるHA/LA継続を並列に比較した設定で評価する。
モデル全体では、可視性駆動のシフトは弱く、不安定で、逆転している。
以上の結果から, 検証対象モデルでは, 人間の判断ほどアタッチメントの嗜好を確実に導くことはできず, 広範ベンチマーク以上の言語横断診断としてトルコのRCアタッチメントが有効であることが示唆された。
関連論文リスト
- Is my model perplexed for the right reason? Contrasting LLMs' Benchmark Behavior with Token-Level Perplexity [6.285055089721361]
モデルが言語学的に関係のある手がかりに依存しているかどうかをテストするために,トークンレベルの難易度に基づく基本的解釈可能性フレームワークを導入する。
本手法は,不安定な特徴帰属技術に頼ることなく,正確な仮説駆動解析を可能にする。
論文 参考訳(メタデータ) (2026-03-31T08:00:55Z) - Mitigating Translationese Bias in Multilingual LLM-as-a-Judge via Disentangled Information Bottleneck [37.780081880731096]
大規模言語モデル(LLM)は多言語評価の標準となっているが、厳密な体系的翻訳バイアスを示す。
このバイアスは (i) 英語との潜在多様体アライメントと (ii) 言語間予測可能性との急激な相関に起因している。
このバイアスを軽減するために、我々は、最小限に十分な判断クリティカルな表現を学習する堅牢な微調整フレームワークであるDIBJudgeを提案する。
論文 参考訳(メタデータ) (2026-03-11T02:55:29Z) - Cross-Lingual Stability of LLM Judges Under Controlled Generation: Evidence from Finno-Ugric Languages [0.22009842278462158]
大規模言語モデル(LLM)の言語間評価は、典型的には、真のモデルの性能差と測定不安定性の2つの要因を混同する。
対象言語が異なる場合に生成条件を一定に保って評価信頼性を評価する。
本研究は, 形態学的に豊かな言語における談話レベルの評価には, ゼロショット・ジャッジ・トランスファーが信頼できないことを示唆している。
論文 参考訳(メタデータ) (2026-02-02T16:27:32Z) - Parallel Universes, Parallel Languages: A Comprehensive Study on LLM-based Multilingual Counterfactual Example Generation [49.2073409243885]
大規模言語モデル(LLM)は、英語の対物生成に優れ、多言語習熟度を示す。
対象言語における直接生成された反事実と6言語間の英訳によって導出されるものの両方について自動評価を行う。
言語間で生成した偽物に一貫して現れる4つの主要なエラーを識別し分類する。
論文 参考訳(メタデータ) (2026-01-01T08:53:49Z) - On the Entity-Level Alignment in Crosslingual Consistency [62.33186691736433]
SubSubとSubInjは、主題の英語翻訳を言語間のプロンプトに統合し、実際のリコール精度と一貫性を大きく向上させた。
これらの介入はモデルの内部ピボット言語処理を通じて概念空間における実体表現のアライメントを強化する。
論文 参考訳(メタデータ) (2025-10-11T16:26:50Z) - Do What? Teaching Vision-Language-Action Models to Reject the Impossible [53.40183895299108]
VLA(Vision-Language-Action)モデルは、さまざまなロボットタスクにおいて強力なパフォーマンスを示している。
Instruct-Verify-and-Act(IVA)を提案する。
実験の結果,IVAはベースラインよりも97.56%の精度で虚偽の前提検出精度を向上させることがわかった。
論文 参考訳(メタデータ) (2025-08-22T10:54:33Z) - Evaluating Multilingual and Code-Switched Alignment in LLMs via Synthetic Natural Language Inference [2.172419551358714]
大規模言語モデル(LLM)は多言語的文脈においてますます適用されているが、言語間で一貫した論理的に根ざしたアライメントの能力は未定である。
本稿では、論理に基づく前提-仮説ペアを生成する多言語自然言語推論のフレームワークを提案し、それらを類型的に多様な言語に翻訳する。
コードスイッチングは劣化せず、性能も向上し、翻訳によって引き起こされる語彙の変化が正規化信号として機能することを示唆している。
論文 参考訳(メタデータ) (2025-08-20T14:30:34Z) - Estimating Commonsense Plausibility through Semantic Shifts [66.06254418551737]
セマンティックシフトを測定することでコモンセンスの妥当性を定量化する新しい識別フレームワークであるComPaSSを提案する。
2種類の細粒度コモンセンス可視性評価タスクの評価は,ComPaSSが一貫してベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2025-02-19T06:31:06Z) - Large Language Models can Contrastively Refine their Generation for Better Sentence Representation Learning [57.74233319453229]
大規模言語モデル(LLM)は画期的な技術として登場し、それらの非並列テキスト生成能力は、基本的な文表現学習タスクへの関心を喚起している。
コーパスを生成するためにLLMの処理を分解するマルチレベルコントラスト文表現学習フレームワークであるMultiCSRを提案する。
実験の結果,MultiCSRはより高度なLCMをChatGPTの性能を超えつつ,ChatGPTに適用することで最先端の成果を得られることがわかった。
論文 参考訳(メタデータ) (2023-10-17T03:21:43Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Recurrent Neural Network Language Models Always Learn English-Like
Relative Clause Attachment [17.995905582226463]
英語とスペイン語のモデル性能を比較し,RNN LMにおける非言語的バイアスが英語の構文構造と有利に重なることを示す。
英語モデルは人間に似た構文的嗜好を習得しているように見えるが、スペイン語で訓練されたモデルは、同等の人間的な嗜好を取得できない。
論文 参考訳(メタデータ) (2020-05-01T01:21:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。