論文の概要: Evaluating & Reducing Deceptive Dialogue From Language Models with Multi-turn RL
- arxiv url: http://arxiv.org/abs/2510.14318v1
- Date: Thu, 16 Oct 2025 05:29:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.735979
- Title: Evaluating & Reducing Deceptive Dialogue From Language Models with Multi-turn RL
- Title(参考訳): マルチターンRLを用いた言語モデルからの知覚対話の評価と低減
- Authors: Marwa Abdulhai, Ryan Cheng, Aryansh Shrivastava, Natasha Jaques, Yarin Gal, Sergey Levine,
- Abstract要約: 大規模言語モデル(LLM)は、顧客サポート、教育、医療など、世界中の何百万もの人々と対話する。
故意であれ不注意であれ、偽りのアウトプットを生産する能力は、重大な安全上の懸念を生じさせる。
本研究では, LLM が会話中の偽装にどの程度関与しているかを考察し, 偽装を定量化する信念の誤調整尺度を提案する。
- 参考スコア(独自算出の注目度): 64.3268313484078
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) interact with millions of people worldwide in applications such as customer support, education and healthcare. However, their ability to produce deceptive outputs, whether intentionally or inadvertently, poses significant safety concerns. The unpredictable nature of LLM behavior, combined with insufficient safeguards against hallucination, misinformation, and user manipulation, makes their misuse a serious, real-world risk. In this paper, we investigate the extent to which LLMs engage in deception within dialogue, and propose the belief misalignment metric to quantify deception. We evaluate deception across four distinct dialogue scenarios, using five established deception detection metrics and our proposed metric. Our findings reveal this novel deception measure correlates more closely with human judgments than any existing metrics we test. Additionally, our benchmarking of eight state-of-the-art models indicates that LLMs naturally exhibit deceptive behavior in approximately 26% of dialogue turns, even when prompted with seemingly benign objectives. When prompted to deceive, LLMs are capable of increasing deceptiveness by as much as 31% relative to baselines. Unexpectedly, models trained with RLHF, the predominant approach for ensuring the safety of widely-deployed LLMs, still exhibit deception at a rate of 43% on average. Given that deception in dialogue is a behavior that develops over an interaction history, its effective evaluation and mitigation necessitates moving beyond single-utterance analyses. We introduce a multi-turn reinforcement learning methodology to fine-tune LLMs to reduce deceptive behaviors, leading to a 77.6% reduction compared to other instruction-tuned models.
- Abstract(参考訳): 大規模言語モデル(LLM)は、顧客サポート、教育、医療など、世界中の何百万もの人々と対話する。
しかし、意図的であれ、意図的であれ、偽りのアウトプットを生産する能力は、重大な安全上の懸念を生じさせる。
LLMの行動の予測不能な性質は、幻覚、誤報、ユーザー操作に対する十分な保護と組み合わされ、彼らの誤用は深刻な現実世界のリスクとなる。
本稿では,LLMが対話内での詐欺行為の程度について検討し,虚偽の定量化のための信念誤認識尺度を提案する。
我々は,4つの異なる対話シナリオにおいて,5つの確立された嘘検出指標と提案したメトリクスを用いて,嘘評価を行った。
我々の発見は、この新たな偽造対策は、我々がテストしている既存の指標よりも、人間の判断と密接に関連していることを示している。
さらに,8つの最先端モデルのベンチマークにより,LLMが自然に知覚行動を示すことが示唆された。
騙されるように促されると、LLMは、ベースラインに対して最大31%の偽りを増大させることができる。
当然のことながら、広く配備されたLLMの安全性を確保する主要なアプローチであるRLHFで訓練されたモデルは、それでも平均して43%の速度で偽造されている。
対話における騙しは、対話の歴史を乗り越える行動であり、その効果的な評価と緩和は、単一発話の分析を超えて移動する必要がある。
本研究では, マルチターン強化学習手法を導入し, 他の命令学習モデルと比較して77.6%削減した。
関連論文リスト
- Beyond Prompt-Induced Lies: Investigating LLM Deception on Benign Prompts [79.1081247754018]
大規模言語モデル(LLM)は、推論、計画、意思決定のタスクに広くデプロイされている。
そこで我々は, 接触探索質問(CSQ)に基づく枠組みを提案し, 騙しの可能性を定量化する。
論文 参考訳(メタデータ) (2025-08-08T14:46:35Z) - How Much Content Do LLMs Generate That Induces Cognitive Bias in Users? [13.872175096831343]
大規模言語モデル(LLM)は、レビュー要約から診断支援まで、アプリケーションにますます統合されている。
我々は,LLMがユーザの偏りのあるコンテンツをいつ,どのように公開するかを調査し,その重大度を定量化する。
以上の結果から, LLMは症例の21.86%で文脈の感情を変化させるコンテンツにユーザをさらけ出し, 57.33%の症例において, 覚醒後のデータ質問に幻覚を与え, 5.94%の症例でプライマリーバイアスを呈していた。
論文 参考訳(メタデータ) (2025-07-03T21:56:44Z) - Robots in the Middle: Evaluating LLMs in Dispute Resolution [0.0]
大規模言語モデル(LLM)が紛争の会話を分析し、適切な介入タイプを選択し、適切な介入メッセージを生成することができるかどうかを検討する。
我々の結果は、オンライン紛争解決(ODR)プラットフォームにAIを統合する可能性を示している。
論文 参考訳(メタデータ) (2024-10-09T16:51:10Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - Prompt Leakage effect and defense strategies for multi-turn LLM interactions [95.33778028192593]
システムプロンプトの漏洩は知的財産を侵害し、攻撃者に対する敵の偵察として機能する可能性がある。
我々は, LLM sycophancy 効果を利用して, 平均攻撃成功率 (ASR) を17.7%から86.2%に高めるユニークな脅威モデルを構築した。
7つのブラックボックス防衛戦略の緩和効果と、漏洩防止のためのオープンソースモデルを微調整する。
論文 参考訳(メタデータ) (2024-04-24T23:39:58Z) - Exploring the Factual Consistency in Dialogue Comprehension of Large Language Models [51.75805497456226]
本研究は,対話要約タスクの助けを借りて,事実整合性の問題に焦点を当てる。
評価の結果,LLMが生成する要約の26.8%が事実整合性を含んでいることがわかった。
LLMの対話理解能力を高めるために,自動構築マルチタスクデータを用いた微調整パラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-13T09:32:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。