論文の概要: Can LLMs Lie? Investigation beyond Hallucination
- arxiv url: http://arxiv.org/abs/2509.03518v1
- Date: Wed, 03 Sep 2025 17:59:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.622356
- Title: Can LLMs Lie? Investigation beyond Hallucination
- Title(参考訳): LLMは嘘をつくのか? 幻覚以外の調査
- Authors: Haoran Huan, Mihir Prabhudesai, Mengning Wu, Shantanu Jaiswal, Deepak Pathak,
- Abstract要約: 大規模言語モデル(LLM)は、さまざまなタスクにまたがる印象的な機能を示しているが、現実のアプリケーションにおける自律性の向上は、その信頼性に対する懸念を提起している。
本研究では,LLMの嘘行動を調査し,幻覚と区別し,実践的なシナリオでテストする。
我々の発見は、AI倫理に関する幅広い議論に寄与し、LLMを高い環境に展開する際のリスクと潜在的な安全を隠蔽する。
- 参考スコア(独自算出の注目度): 36.16054472249757
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated impressive capabilities across a variety of tasks, but their increasing autonomy in real-world applications raises concerns about their trustworthiness. While hallucinations-unintentional falsehoods-have been widely studied, the phenomenon of lying, where an LLM knowingly generates falsehoods to achieve an ulterior objective, remains underexplored. In this work, we systematically investigate the lying behavior of LLMs, differentiating it from hallucinations and testing it in practical scenarios. Through mechanistic interpretability techniques, we uncover the neural mechanisms underlying deception, employing logit lens analysis, causal interventions, and contrastive activation steering to identify and control deceptive behavior. We study real-world lying scenarios and introduce behavioral steering vectors that enable fine-grained manipulation of lying tendencies. Further, we explore the trade-offs between lying and end-task performance, establishing a Pareto frontier where dishonesty can enhance goal optimization. Our findings contribute to the broader discourse on AI ethics, shedding light on the risks and potential safeguards for deploying LLMs in high-stakes environments. Code and more illustrations are available at https://llm-liar.github.io/
- Abstract(参考訳): 大規模言語モデル(LLM)は、さまざまなタスクにまたがる印象的な機能を示しているが、現実のアプリケーションにおける自律性の向上は、その信頼性に対する懸念を提起している。
幻覚や意図しない偽装が広く研究されてきたが、LLMが故意に偽装を発生させ、人工的な目的を達成するという嘘の現象はいまだに未解明のままである。
本研究では,LLMの嘘行為を系統的に研究し,幻覚と区別し,実践的なシナリオでテストする。
機械的解釈可能性技術により, 認知の基盤となる神経機構を明らかにするとともに, 対物レンズ分析, 因果介入, および対向的アクティベーションステアリングを用いて, 知覚行動の識別と制御を行う。
実世界の嘘つきシナリオを研究し,嘘つき傾向のきめ細かい操作を可能にする行動ステアリングベクトルを導入する。
さらに,嘘とエンドタスクのパフォーマンスのトレードオフについて検討し,不完全性によってゴール最適化が向上するパレートフロンティアを確立する。
我々の発見は、AI倫理に関する幅広い議論に寄与し、LLMを高い環境に展開する際のリスクと潜在的な安全を隠蔽する。
コードやイラストはhttps://llm-liar.github.io/で公開されている。
関連論文リスト
- MIRAGE-Bench: LLM Agent is Hallucinating and Where to Find Them [52.764019220214344]
幻覚は、大きな言語モデル(LLM)ベースのエージェントに重大なリスクをもたらす。
MIRAGE-Benchは対話型環境における幻覚の抽出と評価のための最初の統一ベンチマークである。
論文 参考訳(メタデータ) (2025-07-28T17:38:29Z) - LLM Internal States Reveal Hallucination Risk Faced With a Query [62.29558761326031]
人間は、クエリに直面したとき、私たちが知らないことを認識できる自己認識プロセスを持っています。
本稿では,大規模言語モデルが応答生成に先立って,自身の幻覚リスクを推定できるかどうかを検討する。
確率推定器により, LLM自己評価を利用して, 平均幻覚推定精度84.32%を達成する。
論文 参考訳(メタデータ) (2024-07-03T17:08:52Z) - Exploring and Evaluating Hallucinations in LLM-Powered Code Generation [14.438161741833687]
LLM(Large Language Models)は、ユーザの意図から逸脱した出力を生成し、内部的不整合を示すか、事実的知識と不整合を示す。
既存の研究は主に、自然言語生成の分野における幻覚の投資に重点を置いている。
我々は,LLM生成コードのテーマ解析を行い,その内に存在する幻覚を要約し,分類する。
幻覚認識におけるLLMの性能評価のためのベンチマークであるHaluCodeを提案する。
論文 参考訳(メタデータ) (2024-04-01T07:31:45Z) - Siren's Song in the AI Ocean: A Survey on Hallucination in Large
Language Models [116.01843550398183]
大規模言語モデル(LLM)は、様々な下流タスクで顕著な機能を示している。
LLMは時折、ユーザ入力から分岐するコンテンツを生成し、以前生成されたコンテキストと矛盾する。
論文 参考訳(メタデータ) (2023-09-03T16:56:48Z) - Deception Abilities Emerged in Large Language Models [0.0]
大規模言語モデル(LLM)は、現在、人間のコミュニケーションと日常の生活を備えた人工知能(AI)システムの最前線にある。
本研究は, GPT-4 などの最先端 LLM にそのような戦略が出現したが, 初期の LLM には存在しなかったことを明らかにする。
我々は、最先端のLLMが他のエージェントの誤った信念を理解し、誘導できることを示す一連の実験を行う。
論文 参考訳(メタデータ) (2023-07-31T09:27:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。