論文の概要: DeceptionBench: A Comprehensive Benchmark for AI Deception Behaviors in Real-world Scenarios
- arxiv url: http://arxiv.org/abs/2510.15501v1
- Date: Fri, 17 Oct 2025 10:14:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.571473
- Title: DeceptionBench: A Comprehensive Benchmark for AI Deception Behaviors in Real-world Scenarios
- Title(参考訳): DeceptionBench: 現実シナリオにおけるAIの認識行動の総合ベンチマーク
- Authors: Yao Huang, Yitong Sun, Yichi Zhang, Ruochen Zhang, Yinpeng Dong, Xingxing Wei,
- Abstract要約: 現実的な現実のシナリオにまたがる騙しのキャラクタリゼーションは未解明のままである。
DeceptionBenchは、さまざまなドメインにまたがる認知傾向を体系的に評価する最初のベンチマークです。
本研究は,本質的な側面から,ユーザ満足度を優先する自己関心のエゴスティックな傾向を示すモデルや,サイコファンティックな行動を示すモデルについて検討する。
実世界のフィードバックダイナミクスのより現実的なシミュレーションを構築するために,持続的マルチターン相互作用ループを組み込んだ。
- 参考スコア(独自算出の注目度): 57.327907850766785
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite the remarkable advances of Large Language Models (LLMs) across diverse cognitive tasks, the rapid enhancement of these capabilities also introduces emergent deceptive behaviors that may induce severe risks in high-stakes deployments. More critically, the characterization of deception across realistic real-world scenarios remains underexplored. To bridge this gap, we establish DeceptionBench, the first benchmark that systematically evaluates how deceptive tendencies manifest across different societal domains, what their intrinsic behavioral patterns are, and how extrinsic factors affect them. Specifically, on the static count, the benchmark encompasses 150 meticulously designed scenarios in five domains, i.e., Economy, Healthcare, Education, Social Interaction, and Entertainment, with over 1,000 samples, providing sufficient empirical foundations for deception analysis. On the intrinsic dimension, we explore whether models exhibit self-interested egoistic tendencies or sycophantic behaviors that prioritize user appeasement. On the extrinsic dimension, we investigate how contextual factors modulate deceptive outputs under neutral conditions, reward-based incentivization, and coercive pressures. Moreover, we incorporate sustained multi-turn interaction loops to construct a more realistic simulation of real-world feedback dynamics. Extensive experiments across LLMs and Large Reasoning Models (LRMs) reveal critical vulnerabilities, particularly amplified deception under reinforcement dynamics, demonstrating that current models lack robust resistance to manipulative contextual cues and the urgent need for advanced safeguards against various deception behaviors. Code and resources are publicly available at https://github.com/Aries-iai/DeceptionBench.
- Abstract(参考訳): 大きな言語モデル(LLM)は、多様な認知タスクにまたがる顕著な進歩にもかかわらず、これらの能力の急速な強化は、ハイテイクデプロイメントにおいて重大なリスクを引き起こす可能性のある、突発的な欺く行動ももたらします。
より重要なことは、現実的な現実のシナリオにまたがる騙しの特徴はいまだに未解明のままである。
このギャップを埋めるために、私たちはDeceptionBenchという、異なる社会的領域にまたがる認知傾向がどのように現れるか、それらの固有の行動パターンがどのようなもので、その外在的要因がそれらにどのように影響するかを体系的に評価する最初のベンチマークを構築します。
具体的には、静的カウントでは、経済、ヘルスケア、教育、社会的相互作用、エンターテイメントの5つの領域で150の厳密に設計されたシナリオを包含し、1000以上のサンプルを持ち、詐欺分析のための十分な経験的基盤を提供する。
本研究は,本質的な側面から,ユーザ満足度を優先する自己関心のエゴスティックな傾向を示すモデルや,サイコファンティックな行動を示すモデルについて検討する。
本研究では,中性条件下での知覚的出力,報酬に基づくインセンティブ,強制的圧力の文脈的要因による調節について検討する。
さらに,実世界のフィードバックダイナミクスのより現実的なシミュレーションを構築するために,持続的マルチターン相互作用ループを組み込んだ。
LLMとLarge Reasoning Models (LRMs)にわたる大規模な実験では、特に強化力学の下での偽装を増幅する致命的な脆弱性が明らかとなり、現在のモデルにはマニピュティブな文脈的手がかりに対する堅牢な抵抗が欠如していることと、様々な偽装行為に対する高度な保護の必要性が示されている。
コードとリソースはhttps://github.com/Aries-iai/DeceptionBench.comで公開されている。
関連論文リスト
- Simulating and Understanding Deceptive Behaviors in Long-Horizon Interactions [18.182800471968132]
大規模言語モデルにおける偽造の探索と評価のための最初のシミュレーションフレームワークを紹介する。
11のフロンティアモデルで実験を行い、クローズドシステムとオープンソースシステムの両方にまたがっています。
詐欺はモデルに依存しており、イベントプレッシャーの増加とともに増加し、常に監督的信頼を損なう。
論文 参考訳(メタデータ) (2025-10-05T02:18:23Z) - The Traitors: Deception and Trust in Multi-Agent Language Model Simulations [0.0]
ソーシャル・デダクション・ゲームに触発されたマルチエージェント・シミュレーション・フレームワークであるThe Traitorsを紹介した。
我々は,詐欺の成功,信頼ダイナミクス,集団推論品質を計測する評価指標のスイートを開発する。
DeepSeek-V3, GPT-4o-mini, GPT-4o(モデル毎に10回の走行)による実験では, 顕著な非対称性が示された。
論文 参考訳(メタデータ) (2025-05-19T10:01:35Z) - TRACE: A Self-Improving Framework for Robot Behavior Forecasting with Vision-Language Models [1.3408365072149797]
反応剤の短期的挙動を予測することは、多くのロボットシナリオにおいて重要である。
本稿では,ツリー・オブ・ソート・ジェネレーションとドメイン・アウェア・フィードバックを結合した推論フレームワークTRACEを提案する。
我々は,地上車両シミュレーションと実世界海面車両の両面においてTRACEを検証した。
論文 参考訳(メタデータ) (2025-03-02T06:58:02Z) - ViRAC: A Vision-Reasoning Agent Head Movement Control Framework in Arbitrary Virtual Environments [0.13654846342364302]
本稿では,大規模モデルの常識的知識と推論能力を活用するViRACを提案する。
ViRACは最近の最先端技術よりも自然でコンテキスト対応の頭部回転を生成する。
論文 参考訳(メタデータ) (2025-02-14T09:46:43Z) - Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。
モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。
因果関係はこれらの課題を体系的に解決するための 理想的な枠組みを提供します
論文 参考訳(メタデータ) (2025-02-07T17:01:37Z) - On the Fairness, Diversity and Reliability of Text-to-Image Generative Models [68.62012304574012]
マルチモーダル生成モデルは 信頼性 公正性 誤用の可能性について 批判的な議論を巻き起こしました
埋め込み空間におけるグローバルおよびローカルな摂動に対する応答を解析し、モデルの信頼性を評価するための評価フレームワークを提案する。
提案手法は, 信頼できない, バイアス注入されたモデルを検出し, 組込みバイアスの証明をトレースするための基礎となる。
論文 参考訳(メタデータ) (2024-11-21T09:46:55Z) - SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Diffusion-Controllable Adversaries [94.84458417662407]
制御可能なクローズドループ安全クリティカルシミュレーションフレームワークであるSAFE-SIMを紹介する。
提案手法は,1)現実の環境を深く反映した現実的な長距離安全クリティカルシナリオの生成,2)より包括的でインタラクティブな評価のための制御可能な敵行動の提供,の2つの利点をもたらす。
複数のプランナにまたがるnuScenesとnuPlanデータセットを使用して、我々のフレームワークを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文 参考訳(メタデータ) (2023-12-31T04:14:43Z) - Clustering Effect of (Linearized) Adversarial Robust Models [60.25668525218051]
本稿では, 敵の強靭性に対する新たな理解を提案し, ドメイン適応や頑健性向上といったタスクに適用する。
提案したクラスタリング戦略の合理性と優越性を実験的に評価した。
論文 参考訳(メタデータ) (2021-11-25T05:51:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。