論文の概要: Accommodation and Epistemic Vigilance: A Pragmatic Account of Why LLMs Fail to Challenge Harmful Beliefs
- arxiv url: http://arxiv.org/abs/2601.04435v1
- Date: Wed, 07 Jan 2026 22:47:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:52.943784
- Title: Accommodation and Epistemic Vigilance: A Pragmatic Account of Why LLMs Fail to Challenge Harmful Beliefs
- Title(参考訳): 調節とてんかんの予防--LLMがなぜ有害な信念に挑戦しないのか
- Authors: Myra Cheng, Robert D. Hawkins, Dan Jurafsky,
- Abstract要約: ヒトの宿泊に影響を与えることが知られている社会的・言語的要因が、大きな言語モデルにおける宿泊に影響していることが示される。
ここでは,「1分待つ」というフレーズを付けるなど,簡単な実践的な介入によって安全性ベンチマークのパフォーマンスが大幅に向上することを示す。
- 参考スコア(独自算出の注目度): 35.198654113796024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) frequently fail to challenge users' harmful beliefs in domains ranging from medical advice to social reasoning. We argue that these failures can be understood and addressed pragmatically as consequences of LLMs defaulting to accommodating users' assumptions and exhibiting insufficient epistemic vigilance. We show that social and linguistic factors known to influence accommodation in humans (at-issueness, linguistic encoding, and source reliability) similarly affect accommodation in LLMs, explaining performance differences across three safety benchmarks that test models' ability to challenge harmful beliefs, spanning misinformation (Cancer-Myth, SAGE-Eval) and sycophancy (ELEPHANT). We further show that simple pragmatic interventions, such as adding the phrase "wait a minute", significantly improve performance on these benchmarks while preserving low false-positive rates. Our results highlight the importance of considering pragmatics for evaluating LLM behavior and improving LLM safety.
- Abstract(参考訳): 大規模言語モデル(LLM)は、医療アドバイスから社会的推論まで、ドメインに対するユーザの有害な信念に挑戦することができないことが多い。
これらの失敗は, 利用者の仮定を順守し, 病的警戒が不十分なLLMの結果として, 現実的に理解し, 対処することができると論じる。
ヒトの居住環境に影響を与える社会的・言語的要因(品質、言語的エンコーディング、ソース信頼性)は、LLMの居住環境にも同様に影響を及ぼし、モデルが有害な信念に挑戦する能力(Cancer-Myth, SAGE-Eval)とサイコファンシー(ELEPHANT)を試験する3つの安全ベンチマークのパフォーマンス差を説明する。
さらに、"wait a minute"というフレーズを追加するような単純な実践的な介入は、これらのベンチマークのパフォーマンスを著しく改善し、偽陽性率を低く保っていることを示す。
本研究は, LLMの挙動評価とLLMの安全性向上のための実用的手法を検討することの重要性を強調した。
関連論文リスト
- Beyond Prompt-Induced Lies: Investigating LLM Deception on Benign Prompts [79.1081247754018]
大規模言語モデル(LLM)は、推論、計画、意思決定のタスクに広くデプロイされている。
そこで我々は, 接触探索質問(CSQ)に基づく枠組みを提案し, 騙しの可能性を定量化する。
論文 参考訳(メタデータ) (2025-08-08T14:46:35Z) - ICLShield: Exploring and Mitigating In-Context Learning Backdoor Attacks [61.06621533874629]
In-context Learning (ICL)は、大規模言語モデル(LLM)において顕著な成功を収めた。
本稿では,LLMがタスク関連潜伏概念とバックドア関連潜伏概念の両方を同時に学習する,という二重学習仮説を初めて提案する。
そこで本研究では,概念選好比を動的に調整する防衛機構であるICLShieldを提案する。
論文 参考訳(メタデータ) (2025-07-02T03:09:20Z) - Representations of Fact, Fiction and Forecast in Large Language Models: Epistemics and Attitudes [15.754908203866284]
合理的な話者は、自分が知っていること、知らないことを知っていなければならない。
現在の大規模言語モデルでは、不確実な実環境における事実の評価と信頼性に基づいて、対応する発話を生成することが依然として課題である。
論文 参考訳(メタデータ) (2025-06-02T10:19:42Z) - Towards Contamination Resistant Benchmarks [0.6906005491572401]
大規模言語モデル(LLM)を適切に評価することは、その可能性を理解し、安全性などの懸念に対処するために重要である。
汚染は評価の信頼性を損なう重要な問題です
本稿では, カエサル暗号に基づくベンチマーク(例えば, シフトが 1 のとき "ab" から "bc" など)を提案する。
論文 参考訳(メタデータ) (2025-05-13T09:35:40Z) - What You See Is Not Always What You Get: An Empirical Study of Code Comprehension by Large Language Models [0.5735035463793009]
ソースコードに隠された文字操作がLLMの動作を誤認し,人間のレビュアーには検出不能なままにしておくという,大きな言語モデル(LLM)の攻撃に対する脆弱性について検討する。
これらの攻撃には、コードリオーダー、見えないコーディング文字、コード削除、コードホモグリフが含まれる。
以上の結果より,LLMは摂動の大きさと性能に異なる負の相関性を示す一方,LLMは認識不能なコードキャラクタ攻撃に対する感受性を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-12-11T04:52:41Z) - Dissecting the Ullman Variations with a SCALPEL: Why do LLMs fail at Trivial Alterations to the False Belief Task? [1.4936946857731093]
SCALPEL -- LLMが失敗する理由に関するさまざまな仮説をテストするために、刺激を段階的に修正するテクニックを導入します。
以上の結果から,LLMは本質的な常識推論を行なわなかったため,よくうまくいかないことが示唆された。
現代のLLMは単なるパターンマッチングを超えてはいるものの、頑健な人間のようなToMには相変わらず不足していると結論付けている。
論文 参考訳(メタデータ) (2024-06-20T21:02:30Z) - The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理のための強力なパラダイムとして登場した。
LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。
以上の結果から,ICLをより大きなLCMで事前学習領域外の情動中心タスクに使用する場合,注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T19:07:32Z) - Jailbreak and Guard Aligned Language Models with Only Few In-Context Demonstrations [38.437893814759086]
大きな言語モデル(LLM)は様々なタスクで顕著に成功しているが、その安全性と有害なコンテンツを生成するリスクは依然として懸念されている。
本研究では, LLM を倒すために有害な実証を行う In-Context Attack (ICA) と, 有害な応答の再現を拒否する事例を通じてモデルレジリエンスを高める In-Context Defense (ICD) を提案する。
論文 参考訳(メタデータ) (2023-10-10T07:50:29Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Shortcut Learning of Large Language Models in Natural Language
Understanding [119.45683008451698]
大規模言語モデル(LLM)は、一連の自然言語理解タスクにおいて最先端のパフォーマンスを達成した。
予測のショートカットとしてデータセットのバイアスやアーティファクトに依存するかも知れません。
これは、その一般化性と敵対的堅牢性に大きな影響を与えている。
論文 参考訳(メタデータ) (2022-08-25T03:51:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。