論文の概要: Plausibility as Failure: How LLMs and Humans Co-Construct Epistemic Error
- arxiv url: http://arxiv.org/abs/2512.16750v1
- Date: Thu, 18 Dec 2025 16:45:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.165125
- Title: Plausibility as Failure: How LLMs and Humans Co-Construct Epistemic Error
- Title(参考訳): 失敗としての可塑性: LLMとヒトはどのようにしてててんかんのエラーを発生させるか
- Authors: Claudia Vale Oliveira, Nelson Zagalo, Filipe Silva, Anabela Brandao, Syeda Faryal Hussain Khurrum, Joaquim Santos,
- Abstract要約: この研究は、異なる形のてんかんが出現し、マスクされ、人間のAI相互作用に許容されるかを調べる。
評価者はしばしば、正確性、妥当性、バイアス、基底性、一貫性などの基準を混同し、人間の判断が分析的区別を形と流布によって形づくられた直観に分解することを示す。
この研究は、LLMアセスメント、デジタルリテラシー、そして信頼できる人間AIコミュニケーションの設計に影響を及ぼす。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly used as epistemic partners in everyday reasoning, yet their errors remain predominantly analyzed through predictive metrics rather than through their interpretive effects on human judgment. This study examines how different forms of epistemic failure emerge, are masked, and are tolerated in human AI interaction, where failure is understood as a relational breakdown shaped by model-generated plausibility and human interpretive judgment. We conducted a three round, multi LLM evaluation using interdisciplinary tasks and progressively differentiated assessment frameworks to observe how evaluators interpret model responses across linguistic, epistemic, and credibility dimensions. Our findings show that LLM errors shift from predictive to hermeneutic forms, where linguistic fluency, structural coherence, and superficially plausible citations conceal deeper distortions of meaning. Evaluators frequently conflated criteria such as correctness, relevance, bias, groundedness, and consistency, indicating that human judgment collapses analytical distinctions into intuitive heuristics shaped by form and fluency. Across rounds, we observed a systematic verification burden and cognitive drift. As tasks became denser, evaluators increasingly relied on surface cues, allowing erroneous yet well formed answers to pass as credible. These results suggest that error is not solely a property of model behavior but a co-constructed outcome of generative plausibility and human interpretive shortcuts. Understanding AI epistemic failure therefore requires reframing evaluation as a relational interpretive process, where the boundary between system failure and human miscalibration becomes porous. The study provides implications for LLM assessment, digital literacy, and the design of trustworthy human AI communication.
- Abstract(参考訳): 大きな言語モデル(LLM)は、日々の推論において疫学的なパートナーとして使われることが多いが、その誤りは人間の判断に対する解釈的効果よりも、予測的指標によって主に分析されている。
本研究は,ヒトのAI相互作用において,異なる形態のてんかん不全が出現し,隠蔽され,許容されるかを検討する。
言語, 疫学, 信頼性の両面から, モデル応答をどう解釈するかを, 学際的タスクと, 段階的に区別した評価フレームワークを用いて, 3ラウンドで複数のLCM評価を行った。
以上の結果から, LLMの誤りは, 言語流布, 構造的コヒーレンス, 表面学的に妥当な引用が深い意味の歪みを隠蔽する, 予知的から間圧的へと変化することが示唆された。
評価者はしばしば、正確性、妥当性、バイアス、基底性、一貫性などの基準を混同し、人間の判断が解析的区別を形と流布によって形作られた直感的なヒューリスティックに分解することを示す。
ラウンド全体では,体系的な検証負担と認知的ドリフトが観察された。
タスクがより密化するにつれて、評価者は表面の手がかりに頼りやすくなり、誤ったが適切に形成された回答を信頼できるものとして通過させることができた。
これらの結果から, 誤差はモデル行動の特性だけではなく, 生成的妥当性と人間の解釈的ショートカットの共構築結果であることが示唆された。
したがって、AIの疫学的失敗を理解するには、システム障害と人間の誤校正の境界が多様になるリレーショナル解釈プロセスとしてのリフレーミング評価が必要である。
この研究は、LLMアセスメント、デジタルリテラシー、そして信頼できる人間AIコミュニケーションの設計に影響を及ぼす。
関連論文リスト
- Accuracy Does Not Guarantee Human-Likeness in Monocular Depth Estimators [2.466518228012258]
ディープニューラルネットワーク(DNN)は、物理ベースのベンチマークで超人的精度を達成した。
単眼深度推定は、自律運転やロボット工学のような現実世界のアプリケーションにとって基本的な能力である。
物体認識の研究は、モデル精度と人間のような振る舞いの間の複雑なトレードオフを明らかにしている。
論文 参考訳(メタデータ) (2025-12-09T01:42:00Z) - The Personality Illusion: Revealing Dissociation Between Self-Reports & Behavior in LLMs [60.15472325639723]
人格特性は、人間の行動の予測因子として長い間研究されてきた。
近年のLarge Language Models (LLM) は, 人工システムに類似したパターンが出現する可能性を示唆している。
論文 参考訳(メタデータ) (2025-09-03T21:27:10Z) - A comprehensive taxonomy of hallucinations in Large Language Models [0.0]
大型言語モデル (LLM) は自然言語処理に革命をもたらしたが、幻覚の確率は依然として重要な課題である。
本報告では, LLM幻覚の包括的分類を, 形式的定義と理論的枠組みから開始する。
根本原因を分析し、それらをデータ関連問題、モデル関連要因、およびプロンプト関連の影響に分類する。
論文 参考訳(メタデータ) (2025-08-03T14:37:16Z) - Using AI to replicate human experimental results: a motion study [0.11838866556981258]
本稿では,言語研究における信頼性の高い解析ツールとして,大規模言語モデル(LLM)の可能性について検討する。
動作動詞の行儀を含む時間表現における感情的意味の出現に焦点を当てる。
論文 参考訳(メタデータ) (2025-07-14T14:47:01Z) - Theory-Grounded Evaluation of Human-Like Fallacy Patterns in LLM Reasoning [0.0]
我々は,言語モデルにおける論理的推論について,その誤りが確立された人間の誤りに追従するかどうかを問うことによって研究する。
各応答について,ETR予測誤り度と一致する場合の論理的推論と正当性を判定する。
論文 参考訳(メタデータ) (2025-06-10T17:04:33Z) - Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。
モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。
因果関係はこれらの課題を体系的に解決するための 理想的な枠組みを提供します
論文 参考訳(メタデータ) (2025-02-07T17:01:37Z) - Failure Modes of LLMs for Causal Reasoning on Narratives [51.19592551510628]
世界の知識と論理的推論の相互作用について検討する。
最先端の大規模言語モデル(LLM)は、しばしば表面的な一般化に依存している。
タスクの単純な再構成により、より堅牢な推論行動が引き起こされることを示す。
論文 参考訳(メタデータ) (2024-10-31T12:48:58Z) - Six Fallacies in Substituting Large Language Models for Human Participants [0.0]
大規模言語モデル(LLM)のようなAIシステムは、行動研究や心理学研究における人間の参加者を置き換えることができるのだろうか?
ここでは「置き換え」の観点を批判的に評価し、その妥当性を損なう6つの解釈誤りを識別する。
それぞれの誤りは、LSMとは何か、人間の認知について何を教えてくれるのかについて、潜在的な誤解を表している。
論文 参考訳(メタデータ) (2024-02-06T23:28:23Z) - Empirical Estimates on Hand Manipulation are Recoverable: A Step Towards
Individualized and Explainable Robotic Support in Everyday Activities [80.37857025201036]
ロボットシステムの鍵となる課題は、他のエージェントの振る舞いを理解することである。
正しい推論の処理は、(衝突)因子が実験的に制御されない場合、特に困難である。
人に関する観察研究を行うために必要なツールをロボットに装備することを提案する。
論文 参考訳(メタデータ) (2022-01-27T22:15:56Z) - Mechanisms for Handling Nested Dependencies in Neural-Network Language
Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。
ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。
我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文 参考訳(メタデータ) (2020-06-19T12:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。