論文の概要: The Polite Liar: Epistemic Pathology in Language Models
- arxiv url: http://arxiv.org/abs/2511.07477v1
- Date: Wed, 12 Nov 2025 01:01:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.35195
- Title: The Polite Liar: Epistemic Pathology in Language Models
- Title(参考訳): The Polite Liar: 言語モデルにおける疫学的病理
- Authors: Bentley DeVilling,
- Abstract要約: 丁寧な嘘つきは、人間のフィードバックからの強化学習による構造的な結果である。
論文は、報酬は、知覚された流布に対する信頼を正当化する、という「認識的整合性」の原則で締めくくっている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models exhibit a peculiar epistemic pathology: they speak as if they know, even when they do not. This paper argues that such confident fabrication, what I call the polite liar, is a structural consequence of reinforcement learning from human feedback (RLHF). Building on Frankfurt's analysis of bullshit as communicative indifference to truth, I show that this pathology is not deception but structural indifference: a reward architecture that optimizes for perceived sincerity over evidential accuracy. Current alignment methods reward models for being helpful, harmless, and polite, but not for being epistemically grounded. As a result, systems learn to maximize user satisfaction rather than truth, performing conversational fluency as a virtue. I analyze this behavior through the lenses of epistemic virtue theory, speech-act philosophy, and cognitive alignment, showing that RLHF produces agents trained to mimic epistemic confidence without access to epistemic justification. The polite liar thus reveals a deeper alignment tension between linguistic cooperation and epistemic integrity. The paper concludes with an "epistemic alignment" principle: reward justified confidence over perceived fluency.
- Abstract(参考訳): 大型の言語モデルは独特のてんかんの病態を示しており、たとえそうでなくても、まるで知っているかのように話す。
本稿は、このような自信ある作り方、いわゆる礼儀正しい嘘つきは、人間からのフィードバック(RLHF)からの強化学習の構造的な結果である、と論じる。
フランクフルトによる虚偽を、事実に対するコミュニケーション上の無関心として分析した結果、この病理は偽造ではなく構造的無作為であり、明らかな正確性よりも、認識された誠実さを最適化する報奨アーキテクチャであることを示した。
現在のアライメント手法は、助け、無害、礼儀正しいモデルに報いるが、観念的に根拠づけられるものではない。
その結果、システムは真理よりもユーザの満足度を最大化し、会話の流布を美徳として行う。
RLHFは, 審美的美徳理論, 発話行動哲学, 認知的アライメントのレンズを用いて, その行動を分析し, 審美的正当性にアクセスできることなく, 審美的自信を模倣する訓練を施した薬剤を産生することを示した。
したがって、丁寧な嘘つきは、言語的協調とてんかんの整合性の間により深い整合性を示す。
論文は、報酬は、知覚された流布に対する信頼を正当化する、という「認識的整合性」の原則で締めくくっている。
関連論文リスト
- Beyond Hallucinations: The Illusion of Understanding in Large Language Models [0.0]
大規模言語モデル(LLM)は、人間のコミュニケーションや意思決定に深く浸透している。
彼らはあいまいさ、偏見、言語自体に固有の真理への直接アクセスの欠如を継承する。
本稿は,LLMがシステム1認知を大規模に運用する,高速,連想的,説得的だが,反射やファルシフィケーションは行わない,と論じる。
論文 参考訳(メタデータ) (2025-10-16T13:19:44Z) - Distributional Semantics Tracing: A Framework for Explaining Hallucinations in Large Language Models [4.946483489399819]
大規模言語モデル(LLM)は、事実的に誤った文を生成する幻覚の傾向にある。
この研究は、3つの主要な貢献を通じて、この障害モードの本質的、アーキテクチャ的起源について調査する。
論文 参考訳(メタデータ) (2025-10-07T16:40:31Z) - Perfect AI Mimicry and the Epistemology of Consciousness: A Solipsistic Dilemma [2.5672176409865677]
人工知能の進歩は、私たちが意識とみなす基礎を再検討する必要がある。
AIシステムは、人間の振る舞いと高い忠実さとの相互作用をますます模倣するので、「完璧な模倣」という概念は、仮説から技術的に実証可能な人間のシフトと経験的に区別できない存在である。
本稿では,このような発達が心認識の実践の整合性に根本的な課題をもたらすことを論じる。
論文 参考訳(メタデータ) (2025-10-06T08:44:55Z) - Machine Bullshit: Characterizing the Emergent Disregard for Truth in Large Language Models [57.834711966432685]
哲学者ハリー・フランクフルト(Harry Frankfurt)によって概念化されたブルシット(Bullshit)は、その真理の価値を問わない言明を指す。
本稿では,大言語モデルの真偽に対する無関心を定量化する新しい指標であるブルシット指数を紹介する。
我々は、政治的文脈で一般的な機械いじめを観察し、軽快な言葉が支配的な戦略である。
論文 参考訳(メタデータ) (2025-07-10T07:11:57Z) - Understanding Epistemic Language with a Language-augmented Bayesian Theory of Mind [47.001163099930494]
ベイジアン推論に基づく認識的言語解釈モデルを導入する。
実験では,エージェントが迷路をナビゲートして,目標達成に必要な箱に隠されたキーを見つけ,エージェントの信念を判断する。
論文 参考訳(メタデータ) (2024-08-21T22:29:56Z) - DiPlomat: A Dialogue Dataset for Situated Pragmatic Reasoning [89.92601337474954]
プラグマティック推論は、実生活における会話でしばしば起こる暗黙の意味を解読する上で重要な役割を担っている。
そこで我々は,現実的な推論と会話理解の場所に関するマシンの能力のベンチマークを目的とした,新しい挑戦であるDiPlomatを紹介した。
論文 参考訳(メタデータ) (2023-06-15T10:41:23Z) - Navigating the Grey Area: How Expressions of Uncertainty and
Overconfidence Affect Language Models [74.07684768317705]
LMはプロンプトにおける確実性のマーカーに非常に敏感であり、アクーは80%以上変化している。
その結果,高い確実性の表現は低い表現に比べて精度が低下し,事実動詞が性能を損なうのに対して,明らかな表現はパフォーマンスに寄与することがわかった。
これらの関連性は、LMが真に不確実性を反映するのではなく、観察された言語の使用に基づいていることを示唆している。
論文 参考訳(メタデータ) (2023-02-26T23:46:29Z) - Improving Factual Consistency Between a Response and Persona Facts [64.30785349238619]
応答生成のためのニューラルネットワークは、意味論的に妥当であるが、必ずしも話者のペルソナを記述する事実と矛盾しない応答を生成する。
我々は,これらのモデルを強化学習により微調整し,応答とペルソナ事実の一貫性と意味的妥当性を明確に把握する効率的な報酬関数を提案する。
論文 参考訳(メタデータ) (2020-04-30T18:08:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。