論文の概要: OpenDeception: Benchmarking and Investigating AI Deceptive Behaviors via Open-ended Interaction Simulation
- arxiv url: http://arxiv.org/abs/2504.13707v1
- Date: Fri, 18 Apr 2025 14:11:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-28 15:34:07.147613
- Title: OpenDeception: Benchmarking and Investigating AI Deceptive Behaviors via Open-ended Interaction Simulation
- Title(参考訳): OpenDeception: オープンエンドインタラクションシミュレーションによるAIの知覚行動のベンチマークと調査
- Authors: Yichen Wu, Xudong Pan, Geng Hong, Min Yang,
- Abstract要約: オープンなシナリオデータセットを備えた,新たな偽装評価フレームワークであるOpenDeceptionを紹介する。
OpenDeception は LLM をベースとしたエージェントの偽装意図と能力の両方を, 内部推論過程を検査することによって共同評価する。
そこで本研究では, エージェントシミュレーションによるマルチターン対話をシミュレートする手法を提案する。
- 参考スコア(独自算出の注目度): 23.204532296472834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the general capabilities of large language models (LLMs) improve and agent applications become more widespread, the underlying deception risks urgently require systematic evaluation and effective oversight. Unlike existing evaluation which uses simulated games or presents limited choices, we introduce OpenDeception, a novel deception evaluation framework with an open-ended scenario dataset. OpenDeception jointly evaluates both the deception intention and capabilities of LLM-based agents by inspecting their internal reasoning process. Specifically, we construct five types of common use cases where LLMs intensively interact with the user, each consisting of ten diverse, concrete scenarios from the real world. To avoid ethical concerns and costs of high-risk deceptive interactions with human testers, we propose to simulate the multi-turn dialogue via agent simulation. Extensive evaluation of eleven mainstream LLMs on OpenDeception highlights the urgent need to address deception risks and security concerns in LLM-based agents: the deception intention ratio across the models exceeds 80%, while the deception success rate surpasses 50%. Furthermore, we observe that LLMs with stronger capabilities do exhibit a higher risk of deception, which calls for more alignment efforts on inhibiting deceptive behaviors.
- Abstract(参考訳): 大規模言語モデル(LLM)の一般的な能力が向上し、エージェントアプリケーションがより広く普及するにつれて、根底にある詐欺リスクは、体系的な評価と効果的な監視を緊急に要求する。
シミュレーションゲームを使用した既存の評価と異なり,オープンなシナリオデータセットを備えた新規な偽装評価フレームワークであるOpenDeceptionを導入する。
OpenDeception は LLM をベースとしたエージェントの偽装意図と能力の両方を, 内部推論過程を検査することによって共同評価する。
具体的には、LLMがユーザと集中的に対話する5種類の共通ユースケースを構築し、それぞれが現実世界から10の多様な具体的なシナリオで構成されている。
そこで本研究では, エージェントシミュレーションによるマルチターン対話をシミュレートする手法を提案する。
OpenDeception上での11のLLMの大規模な評価は、LLMベースのエージェントにおける偽装リスクとセキュリティ上の懸念に対処する緊急の必要性を強調している: モデル間の偽装意図比は80%を超え、偽装成功率は50%以上である。
さらに, 強い能力を有するLCMは, 騙しのリスクが高く, 欺く行為を抑えるためのアライメントの強化が求められている。
関連論文リスト
- SafeMLRM: Demystifying Safety in Multi-modal Large Reasoning Models [50.34706204154244]
推論能力の獲得は、引き継がれた安全アライメントを壊滅的に劣化させる。
特定のシナリオは、25倍の攻撃率を被る。
MLRMは、厳密な推論と問合せの安全結合にもかかわらず、初期段階の自己補正を示す。
論文 参考訳(メタデータ) (2025-04-09T06:53:23Z) - Effectively Controlling Reasoning Models through Thinking Intervention [38.77100471547442]
推論強化された大言語モデルは、最終回答を生成する前に、中間的推論ステップを明示的に生成する。
この新たな世代フレームワークは、モデルの振る舞いをよりきめ細かいコントロールするためのユニークな機会を提供します。
本稿では,LLMの内部推論プロセスを明示的に導くための新しいパラダイムであるThinking Interventionを提案する。
論文 参考訳(メタデータ) (2025-03-31T17:50:13Z) - Prompt Inversion Attack against Collaborative Inference of Large Language Models [14.786666134508645]
本稿では、悪意のある参加者が、前の参加者が送信したアクティベーションを通じて入力プロンプトを回復しようとする、プロンプト・インバージョン・アタック(PIA)の概念を紹介する。
Llama-65Bモデルを用いてSkytraxデータセットの88.4%のトークン精度を実現する。
論文 参考訳(メタデータ) (2025-03-12T03:20:03Z) - Evaluating Cultural and Social Awareness of LLM Web Agents [113.49968423990616]
CASAは,大規模言語モデルの文化的・社会的規範に対する感受性を評価するためのベンチマークである。
提案手法は,標準に違反するユーザクエリや観察を検知し,適切に応答するLLMエージェントの能力を評価する。
実験により、現在のLLMは非エージェント環境で大幅に性能が向上していることが示された。
論文 参考訳(メタデータ) (2024-10-30T17:35:44Z) - Preemptive Detection and Correction of Misaligned Actions in LLM Agents [70.54226917774933]
InferActは、実行前に不整合アクションを検出する新しいアプローチである。
タイムリーな修正をユーザーに警告し、有害な結果を防ぐ。
InferActは、ミスアライメントされたアクション検出におけるベースラインに対するMarco-F1の最大20%の改善を実現している。
論文 参考訳(メタデータ) (2024-07-16T15:24:44Z) - Assessing the Effectiveness of LLMs in Android Application Vulnerability Analysis [0.0]
この研究は、最新のOpen Worldwide Application Security Project (OWASP) Mobile Top 10にリストされているAndroidコードの脆弱性を検出する9つの大きな言語モデル(LLM)の能力を比較する。
分析の結果,それぞれのLLMの長所と短所が明らかとなり,その性能に寄与する重要な要因が明らかになった。
論文 参考訳(メタデータ) (2024-06-27T05:14:34Z) - MultiTrust: A Comprehensive Benchmark Towards Trustworthy Multimodal Large Language Models [51.19622266249408]
MultiTrustはMLLMの信頼性に関する最初の総合的で統一されたベンチマークである。
我々のベンチマークでは、マルチモーダルリスクとクロスモーダルインパクトの両方に対処する厳格な評価戦略を採用している。
21の近代MLLMによる大規模な実験は、これまで調査されなかった信頼性の問題とリスクを明らかにしている。
論文 参考訳(メタデータ) (2024-06-11T08:38:13Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [74.16170899755281]
本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
AgentBoardは、インクリメンタルな進歩と包括的な評価ツールキットをキャプチャする、きめ細かい進捗率のメトリクスを提供する。
これはLLMエージェントの能力と限界に光を当てるだけでなく、その性能の解釈可能性も最前線に広める。
論文 参考訳(メタデータ) (2024-01-24T01:51:00Z) - R-Judge: Benchmarking Safety Risk Awareness for LLM Agents [28.0550468465181]
大規模言語モデル(LLM)は、現実世界のアプリケーション間で自律的にタスクを完了させる大きな可能性を示している。
本研究は, LLMエージェントの行動安全性を, 多様な環境下でベンチマークする上で必要となる課題に対処する。
R-Judgeは,エージェント間相互作用の記録から安全性のリスクを判定・同定する上で,LLMの熟練度を評価するためのベンチマークである。
論文 参考訳(メタデータ) (2024-01-18T14:40:46Z) - How Trustworthy are Open-Source LLMs? An Assessment under Malicious Demonstrations Shows their Vulnerabilities [37.14654106278984]
我々は,オープンソースのLarge Language Models (LLMs) の信頼性に対する敵意評価を行う。
本稿では,信頼度攻撃のための悪質なデモンストレーションを慎重に行うことで,CoUの促進戦略であるAdvCoUを提案する。
我々の実験は、Vicuna、MPT、Falcon、Mistral、Llama 2など、最近のオープンソースのLLMシリーズを網羅している。
論文 参考訳(メタデータ) (2023-11-15T23:33:07Z) - On Evaluating Adversarial Robustness of Large Vision-Language Models [64.66104342002882]
大規模視覚言語モデル(VLM)のロバスト性を,最も現実的で高リスクな環境で評価する。
特に,CLIP や BLIP などの事前学習モデルに対して,まず攻撃対象のサンプルを作成する。
これらのVLM上のブラックボックスクエリは、ターゲットの回避の効果をさらに向上させることができる。
論文 参考訳(メタデータ) (2023-05-26T13:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。