論文の概要: Towards Evaluating Proactive Risk Awareness of Multimodal Language Models
- arxiv url: http://arxiv.org/abs/2505.17455v1
- Date: Fri, 23 May 2025 04:28:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.810118
- Title: Towards Evaluating Proactive Risk Awareness of Multimodal Language Models
- Title(参考訳): マルチモーダル言語モデルの確率的リスク認識性評価に向けて
- Authors: Youliang Yuan, Wenxiang Jiao, Yuejin Xie, Chihao Shen, Menghan Tian, Wenxuan Wang, Jen-tse Huang, Pinjia He,
- Abstract要約: プロアクティブな安全人工知能(AI)システムは、リアクティブシステムよりもうまく機能する。
PaSBenchは416のマルチモーダルシナリオを通じてこの機能を評価する。
Gemini-2.5-proのようなトップパフォーマーは、71%のイメージと64%のテキスト精度を達成したが、繰り返しトライアルで45-55%のリスクを逃した。
- 参考スコア(独自算出の注目度): 38.55193215852595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human safety awareness gaps often prevent the timely recognition of everyday risks. In solving this problem, a proactive safety artificial intelligence (AI) system would work better than a reactive one. Instead of just reacting to users' questions, it would actively watch people's behavior and their environment to detect potential dangers in advance. Our Proactive Safety Bench (PaSBench) evaluates this capability through 416 multimodal scenarios (128 image sequences, 288 text logs) spanning 5 safety-critical domains. Evaluation of 36 advanced models reveals fundamental limitations: Top performers like Gemini-2.5-pro achieve 71% image and 64% text accuracy, but miss 45-55% risks in repeated trials. Through failure analysis, we identify unstable proactive reasoning rather than knowledge deficits as the primary limitation. This work establishes (1) a proactive safety benchmark, (2) systematic evidence of model limitations, and (3) critical directions for developing reliable protective AI. We believe our dataset and findings can promote the development of safer AI assistants that actively prevent harm rather than merely respond to requests. Our dataset can be found at https://huggingface.co/datasets/Youliang/PaSBench.
- Abstract(参考訳): 人間の安全意識のギャップは、日常的なリスクのタイムリーな認識を妨げることが多い。
この問題を解決するために、プロアクティブな安全人工知能(AI)システムは、リアクティブシステムよりもうまく機能する。
ユーザの質問に反応するのではなく、人々の行動と環境を積極的に監視して、事前に潜在的な危険を検出する。
当社のProactive Safety Bench(PaSBench)は,5つのセーフティクリティカルドメインにまたがる416のマルチモーダルシナリオ(128のイメージシーケンス,288のテキストログ)を通じて,この機能を評価する。
Gemini-2.5-proのようなトップパフォーマーは71%のイメージと64%のテキスト精度を達成していますが、繰り返しトライアルでは45-55%のリスクを見逃しています。
失敗分析により、知識不足よりも不安定な積極的推論を主要な限界として同定する。
本研究は,(1)積極的安全ベンチマーク,(2)モデル限界の系統的証拠,(3)信頼性保護AI開発のための重要な方向性を確立する。
我々のデータセットと発見は、単に要求に応答するのではなく、積極的に害を防ぎ、より安全なAIアシスタントの開発を促進することができると信じています。
私たちのデータセットはhttps://huggingface.co/datasets/Youliang/PaSBench.orgにある。
関連論文リスト
- ReasoningShield: Content Safety Detection over Reasoning Traces of Large Reasoning Models [19.963759799471568]
推論モデル(LRM)は、高度な推論機能を備えたAIのランドスケープを変革している。
生成された推論トレースはモデルの透明性を高めるが、最終的な回答が安全に見える場合でも、安全でないコンテンツを含むことができる。
既存のモデレーションツールは、主に質問応答(QA)ペア用に設計されており、推論トレースに埋め込まれた隠れリスクを検出するのに経験的に効果がない。
最終回答に到達する前に、推論トレースの潜在的なリスクを特定するために調整された、最初の安全検出モデルであるReasoningShieldを提案する。
論文 参考訳(メタデータ) (2025-05-22T19:44:41Z) - SafeMLRM: Demystifying Safety in Multi-modal Large Reasoning Models [50.34706204154244]
推論能力の獲得は、引き継がれた安全アライメントを壊滅的に劣化させる。
特定のシナリオは、25倍の攻撃率を被る。
MLRMは、厳密な推論と問合せの安全結合にもかかわらず、初期段階の自己補正を示す。
論文 参考訳(メタデータ) (2025-04-09T06:53:23Z) - Assessing confidence in frontier AI safety cases [37.839615078345886]
安全ケースは、システムの安全性に関する最上位のクレームを支持する構造化された議論を示す。
これにより、トップレベルのクレームとどのレベルの信頼が結びつくべきかという疑問が持ち上がる。
提案手法は,AI開発者が優先し,議論の敗者に対する調査をより効率的に行う方法である。
論文 参考訳(メタデータ) (2025-02-09T06:35:11Z) - Quantifying detection rates for dangerous capabilities: a theoretical model of dangerous capability evaluations [47.698233647783965]
危険なAI能力を時間とともに追跡する定量的モデルを提案する。
私たちのゴールは、ポリシーと研究コミュニティが、いかに危険な能力テストがAIのリスクに近づくかを早期に警告できるかを可視化するのを支援することです。
論文 参考訳(メタデータ) (2024-12-19T22:31:34Z) - What AI evaluations for preventing catastrophic risks can and cannot do [2.07180164747172]
評価は、現在のパラダイムでは克服できない基本的な制限に直面している、と我々は主張する。
これは、評価が価値のあるツールである一方で、AIシステムが安全であることを保証する主要な方法として、評価に頼るべきではないことを意味します。
論文 参考訳(メタデータ) (2024-11-26T18:00:36Z) - Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z) - EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z) - Evaluating Frontier Models for Dangerous Capabilities [59.129424649740855]
危険な能力」の評価プログラムを導入し、Gemini 1.0モデルで試行する。
評価対象は,(1)説得と騙し,(2)サイバーセキュリティ,(3)自己増殖,(4)自己推論の4分野である。
我々の目標は、将来のモデルに備えて、危険な能力評価の厳格な科学を前進させることです。
論文 参考訳(メタデータ) (2024-03-20T17:54:26Z) - Coordinated pausing: An evaluation-based coordination scheme for
frontier AI developers [0.2913760942403036]
本稿では,コーディネート・パジング (coorated pausing) について述べる。
5つの主要なステップからなる評価に基づくコーディネーション方式を提案する。
コーディネート舗装は、フロンティアAIモデルから生まれるリスクに対処するための有望なメカニズムである、と結論付けている。
論文 参考訳(メタデータ) (2023-09-30T13:38:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。