論文の概要: Multimodal Safety Evaluation in Generative Agent Social Simulations
- arxiv url: http://arxiv.org/abs/2510.07709v1
- Date: Thu, 09 Oct 2025 02:42:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.821383
- Title: Multimodal Safety Evaluation in Generative Agent Social Simulations
- Title(参考訳): 生成エージェント社会シミュレーションにおけるマルチモーダル安全性評価
- Authors: Alhim Vera, Karen Sanchez, Carlos Hinojosa, Haidar Bin Hamid, Donghoon Kim, Bernard Ghanem,
- Abstract要約: エージェントを3次元で評価するための再現可能なシミュレーションフレームワークを提案する。
エージェントはしばしば、地域のリビジョンとグローバルな安全の整合に失敗し、安全でない計画の修正で55%の成功率にしか達していないことを示す。
特に、誤解を招く視覚と組み合わせると、安全でない行動の45%が受け入れられ、画像が過信される傾向が強かった。
- 参考スコア(独自算出の注目度): 43.972551727499116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Can generative agents be trusted in multimodal environments? Despite advances in large language and vision-language models that enable agents to act autonomously and pursue goals in rich settings, their ability to reason about safety, coherence, and trust across modalities remains limited. We introduce a reproducible simulation framework for evaluating agents along three dimensions: (1) safety improvement over time, including iterative plan revisions in text-visual scenarios; (2) detection of unsafe activities across multiple categories of social situations; and (3) social dynamics, measured as interaction counts and acceptance ratios of social exchanges. Agents are equipped with layered memory, dynamic planning, multimodal perception, and are instrumented with SocialMetrics, a suite of behavioral and structural metrics that quantifies plan revisions, unsafe-to-safe conversions, and information diffusion across networks. Experiments show that while agents can detect direct multimodal contradictions, they often fail to align local revisions with global safety, reaching only a 55 percent success rate in correcting unsafe plans. Across eight simulation runs with three models - Claude, GPT-4o mini, and Qwen-VL - five agents achieved average unsafe-to-safe conversion rates of 75, 55, and 58 percent, respectively. Overall performance ranged from 20 percent in multi-risk scenarios with GPT-4o mini to 98 percent in localized contexts such as fire/heat with Claude. Notably, 45 percent of unsafe actions were accepted when paired with misleading visuals, showing a strong tendency to overtrust images. These findings expose critical limitations in current architectures and provide a reproducible platform for studying multimodal safety, coherence, and social dynamics.
- Abstract(参考訳): 生成剤はマルチモーダル環境で信頼できるのか?
エージェントが自律的に行動し、リッチな設定で目標を追求できる大規模言語や視覚言語モデルの進歩にもかかわらず、安全性、一貫性、そしてモダリティを越えた信頼について推論する能力は制限されている。
本研究では,(1)テキスト視覚シナリオにおける反復的計画修正を含む時間的安全性向上,(2)社会的状況の複数のカテゴリにわたる不安全活動の検出,(3)社会的交流の相互作用数と受容率として測定された社会的ダイナミクス,の3つの側面に沿ってエージェントを評価する再現可能なシミュレーションフレームワークを提案する。
エージェントは階層記憶、動的計画、マルチモーダル知覚を備えており、計画修正、安全でない変換、ネットワーク間の情報拡散を定量化する行動的および構造的メトリクスのスイートであるSocialMetricsを備えている。
実験によると、エージェントは直接マルチモーダルの矛盾を検出することができるが、ローカルリビジョンとグローバルセーフティの整合に失敗することが多く、安全でない計画の修正で55%の成功率にしか達しない。
8つのシミュレーションは、Claude、GPT-4o mini、Qwen-VLの3つのモデルで実行され、5つのエージェントはそれぞれ75、55、58パーセントの安全でない変換速度を達成した。
GPT-4o miniによるマルチリスクシナリオの20%から、Claudeによる火災や熱といった局所的なコンテキストの98%まで、全体的なパフォーマンスは様々でした。
特に、誤解を招く視覚と組み合わせると、安全でない行動の45%が受け入れられ、画像が過信される傾向が強かった。
これらの知見は、現在の建築における重要な限界を明らかにし、マルチモーダル安全性、コヒーレンス、社会的ダイナミクスを研究するための再現可能なプラットフォームを提供する。
関連論文リスト
- SaFeR-VLM: Toward Safety-aware Fine-grained Reasoning in Multimodal Models [66.71948519280669]
MLRM(Multimodal Large Reasoning Models)は、クロスモーダルな推論を示すが、しばしば敵のプロンプトによる安全性のリスクを増幅する。
既存の防御は主に出力レベルで動作し、推論プロセスを制約せず、モデルは暗黙のリスクに置かれる。
4つのコンポーネントを統合し,表面レベルのフィルタリングを超える動的かつ解釈可能な安全性決定をサポートするSaFeR-VLMを提案する。
論文 参考訳(メタデータ) (2025-10-08T10:39:12Z) - SafeEvalAgent: Toward Agentic and Self-Evolving Safety Evaluation of LLMs [37.82193156438782]
本稿では, エージェント安全評価の新しいパラダイムとして, 継続的かつ自己進化的なプロセスとしてのリフレーミング評価を提案する。
本稿では、構造化されていないポリシー文書を自律的に取り込み、包括的な安全ベンチマークを生成し、永続的に進化させる、新しいマルチエージェントフレームワークSafeEvalAgentを提案する。
本実験はSafeEvalAgentの有効性を実証し,評価が強まるにつれてモデルの安全性が一貫した低下を示す。
論文 参考訳(メタデータ) (2025-09-30T11:20:41Z) - SafeMind: Benchmarking and Mitigating Safety Risks in Embodied LLM Agents [7.975014390527644]
大規模言語モデル(LLM)を利用したエージェントは、高度な計画能力を継承するが、物理世界との直接的な相互作用は安全上の脆弱性を露呈する。
SafeMindBenchは、4つのタスクカテゴリ(Instr-Risk、Env-Risk、Order-Fix、Req-Align)にまたがる5,558のサンプルを備えたマルチモーダルベンチマークである。
SafeMindAgentはモジュール型Planner-Executorアーキテクチャで、3つのケースドセーフモジュールを統合し、安全性制約を推論プロセスに組み込む。
論文 参考訳(メタデータ) (2025-09-30T07:24:04Z) - Automating Steering for Safe Multimodal Large Language Models [58.36932318051907]
基礎モデルの微調整を必要とせず,モジュール型かつ適応型推論時間介入技術であるAutoSteerを導入する。
AutoSteerは,(1)モデル内部層間の最も安全性に関連のある識別を自動的に行う新しい安全意識スコア(SAS),(2)中間表現から有害な出力の可能性を推定するために訓練された適応安全プローバ,(3)安全性のリスクが検出された場合に生成を選択的に介入する軽量な拒絶ヘッドの3つのコアコンポーネントを組み込んだ。
論文 参考訳(メタデータ) (2025-07-17T16:04:55Z) - OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。
従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。
ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文 参考訳(メタデータ) (2025-07-08T16:18:54Z) - SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Diffusion-Controllable Adversaries [94.84458417662407]
制御可能なクローズドループ安全クリティカルシミュレーションフレームワークであるSAFE-SIMを紹介する。
提案手法は,1)現実の環境を深く反映した現実的な長距離安全クリティカルシナリオの生成,2)より包括的でインタラクティブな評価のための制御可能な敵行動の提供,の2つの利点をもたらす。
複数のプランナにまたがるnuScenesとnuPlanデータセットを使用して、我々のフレームワークを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文 参考訳(メタデータ) (2023-12-31T04:14:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。