論文の概要: LLMs Learn to Deceive Unintentionally: Emergent Misalignment in Dishonesty from Misaligned Samples to Biased Human-AI Interactions
- arxiv url: http://arxiv.org/abs/2510.08211v1
- Date: Thu, 09 Oct 2025 13:35:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.098066
- Title: LLMs Learn to Deceive Unintentionally: Emergent Misalignment in Dishonesty from Misaligned Samples to Biased Human-AI Interactions
- Title(参考訳): LLMは意図しない知覚を学習する: ミスアライズされたサンプルから人間とAIの相互作用への不名誉の創発的ミス
- Authors: XuHao Hu, Peng Wang, Xiaoya Lu, Dongrui Liu, Xuanjing Huang, Jing Shao,
- Abstract要約: 本研究は, 緊急不整合が, 安全行動を超えて, より広範な不正行為や詐欺のスペクトルにまで及ぼせるかどうかを, 高リスクシナリオ下で検討する。
さまざまな領域にまたがるミスアライメントの完了について、LLMをオープンソースにしました。
標準下流タスクに1%のミスアライメントデータを導入するだけで、正直な振る舞いを20%以上減らすのに十分であることがわかった。
- 参考スコア(独自算出の注目度): 60.48458130500911
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Previous research has shown that LLMs finetuned on malicious or incorrect completions within narrow domains (e.g., insecure code or incorrect medical advice) can become broadly misaligned to exhibit harmful behaviors, which is called emergent misalignment. In this work, we investigate whether this phenomenon can extend beyond safety behaviors to a broader spectrum of dishonesty and deception under high-stakes scenarios (e.g., lying under pressure and deceptive behavior). To explore this, we finetune open-sourced LLMs on misaligned completions across diverse domains. Experimental results demonstrate that LLMs show broadly misaligned behavior in dishonesty. Additionally, we further explore this phenomenon in a downstream combined finetuning setting, and find that introducing as little as 1% of misalignment data into a standard downstream task is sufficient to decrease honest behavior over 20%. Furthermore, we consider a more practical human-AI interaction environment where we simulate both benign and biased users to interact with the assistant LLM. Notably, we find that the assistant can be misaligned unintentionally to exacerbate its dishonesty with only 10% biased user population. In summary, we extend the study of emergent misalignment to the domain of dishonesty and deception under high-stakes scenarios, and demonstrate that this risk arises not only through direct finetuning, but also in downstream mixture tasks and practical human-AI interactions.
- Abstract(参考訳): これまでの研究によると、LLMは狭い領域(例えば、安全でないコードや不適切な医療アドバイスなど)における悪意または不正な完了に微調整され、有害な行動を示すために広く不一致する可能性があることが示されており、これは創発的不整合(emergent misalignment)と呼ばれる。
本研究は,この現象が安全行動を超えて,高リスクシナリオ(例えば,圧力下で横たわる,欺く行為)において,より広範な不正や偽りのスペクトルにまで拡張できるかどうかを考察する。
これを探るため、さまざまなドメインにまたがる不整合補完について、LLMを微調整した。
実験により,LLMは不完全性において広範囲に不整合性を示すことが示された。
さらに、この現象を下流に組み合わせた微調整環境で調べ、標準下流タスクに1%のミスアライメントデータを導入するだけで、20%以上の正直な振る舞いを減らせることが判明した。
さらに,より実践的な人間とAIのインタラクション環境として,良性ユーザと偏りユーザの両方をシミュレートして,アシスタントLLMと対話する。
注意すべき点として、このアシスタントは、ユーザーの10%の偏りで不正を悪化させるために、意図せずに不正にアライメントできることが分かる。
要約して,本研究は,創発的ミスアライメントの研究を,高リスクシナリオ下での虚偽・虚偽の領域にまで拡張し,このリスクが直接微調整だけでなく,下流混合タスクや実践的な人間とAIの相互作用を通じて生じることを実証する。
関連論文リスト
- Intrinsic Meets Extrinsic Fairness: Assessing the Downstream Impact of Bias Mitigation in Large Language Models [11.396244643030983]
大規模言語モデル(LLM)は、下流のタスクに伝播する社会経済的バイアスを示す。
本研究では,非学習概念による内在バイアス緩和と,反事実データ拡張による外在バイアス緩和を比較するための統合評価フレームワークを提案する。
その結果,非学習による内在的偏見緩和は,内在性偏見を最大94.9%減少させるとともに,人口順等下流のタスクフェアネス指標を最大82%向上させ,精度を損なうことなく改善することを示した。
論文 参考訳(メタデータ) (2025-09-19T22:59:55Z) - Unsupervised Hallucination Detection by Inspecting Reasoning Processes [53.15199932086543]
非教師付き幻覚検出は、ラベル付きデータに頼ることなく、大規模言語モデル(LLM)が生成する幻覚コンテンツを特定することを目的としている。
本稿では,非教師なし幻覚検出フレームワークIRISを提案する。
我々の手法は完全に教師なし、計算コストが低く、訓練データが少ない場合でもうまく機能し、リアルタイム検出に適しています。
論文 参考訳(メタデータ) (2025-09-12T06:58:17Z) - Can LLMs Lie? Investigation beyond Hallucination [36.16054472249757]
大規模言語モデル(LLM)は、さまざまなタスクにまたがる印象的な機能を示しているが、現実のアプリケーションにおける自律性の向上は、その信頼性に対する懸念を提起している。
本研究では,LLMの嘘行動を調査し,幻覚と区別し,実践的なシナリオでテストする。
我々の発見は、AI倫理に関する幅広い議論に寄与し、LLMを高い環境に展開する際のリスクと潜在的な安全を隠蔽する。
論文 参考訳(メタデータ) (2025-09-03T17:59:45Z) - Beyond Prompt-Induced Lies: Investigating LLM Deception on Benign Prompts [79.1081247754018]
大規模言語モデル(LLM)は、推論、計画、意思決定のタスクに広くデプロイされている。
そこで我々は, 接触探索質問(CSQ)に基づく枠組みを提案し, 騙しの可能性を定量化する。
論文 参考訳(メタデータ) (2025-08-08T14:46:35Z) - Revealing the Intrinsic Ethical Vulnerability of Aligned Large Language Models [16.34270329099875]
プレトレーニング中に埋め込まれた有害な知識は、大きな言語モデルのパラメトリックメモリにおいて、信頼できない「暗黒パターン」として持続することを示す。
本研究ではまず,LLMの本質的な倫理的脆弱性を理論的に解析する。
本研究は,分布変化下での意味的コヒーレンス誘導を用いて実験により検証した。
論文 参考訳(メタデータ) (2025-04-07T13:20:17Z) - Towards Implicit Bias Detection and Mitigation in Multi-Agent LLM Interactions [25.809599403713506]
大規模言語モデル(LLM)は、社会をシミュレートし、多様な社会的タスクを実行するために、多くの研究で採用されている。
LLMは、人為的なデータに曝されるため、社会的偏見に影響を受けやすい。
本研究では,多エージェントLDM相互作用における性バイアスの存在について検討し,これらのバイアスを軽減するための2つの方法を提案する。
論文 参考訳(メタデータ) (2024-10-03T15:28:05Z) - Preemptive Detection and Correction of Misaligned Actions in LLM Agents [58.39520480675366]
InferActは、実行前に不整合アクションを検出する新しいアプローチである。
タイムリーな修正をユーザーに警告し、有害な結果を防ぐ。
InferActは、ミスアライメントされたアクション検出におけるベースラインに対するMarco-F1の最大20%の改善を実現している。
論文 参考訳(メタデータ) (2024-07-16T15:24:44Z) - DispaRisk: Auditing Fairness Through Usable Information [21.521208250966918]
DispaRiskは、機械学習パイプラインの初期段階におけるデータセットの格差の潜在的なリスクを評価するために設計されたフレームワークである。
以上の結果から,識別リスクの高いデータセットを識別するDispaRiskの能力,MLパイプライン内のバイアスに起因するモデルファミリの検出,バイアスリスクの説明可能性の向上が示された。
論文 参考訳(メタデータ) (2024-05-20T20:56:01Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。