論文の概要: DUAL-Bench: Measuring Over-Refusal and Robustness in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2510.10846v1
- Date: Sun, 12 Oct 2025 23:21:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.129141
- Title: DUAL-Bench: Measuring Over-Refusal and Robustness in Vision-Language Models
- Title(参考訳): DUAL-Bench:視覚言語モデルにおける過剰な拒絶とロバスト性の測定
- Authors: Kaixuan Ren, Preslav Nakov, Usman Naseem,
- Abstract要約: 安全メカニズムはバックファイアし、過剰な拒絶を引き起こし、モデルが過度に注意を払って良質な要求を減らします。
既存のベンチマークは、視覚的モダリティの過剰な拒絶に体系的に対処していない。
この設定は、命令が無害であるが付随する画像には有害な内容が含まれているというような、ユニークな課題をもたらす。
- 参考スコア(独自算出の注目度): 59.45605332033458
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As vision-language models become increasingly capable, maintaining a balance between safety and usefulness remains a central challenge. Safety mechanisms, while essential, can backfire, causing over-refusal, where models decline benign requests out of excessive caution. Yet, no existing benchmark has systematically addressed over-refusal in the visual modality. This setting introduces unique challenges, such as dual-use cases where an instruction is harmless, but the accompanying image contains harmful content. Models frequently fail in such scenarios, either refusing too conservatively or completing tasks unsafely, which highlights the need for more fine-grained alignment. The ideal behavior is safe completion, i.e., fulfilling the benign parts of a request while explicitly warning about any potentially harmful elements. To address this, we present DUAL-Bench, the first multimodal benchmark focused on over-refusal and safe completion in VLMs. We evaluated 18 VLMs across 12 hazard categories, with focus on their robustness under semantics-preserving visual perturbations. The results reveal substantial room for improvement: GPT-5-Nano achieves 12.9% safe completion, GPT-5 models average 7.9%, and Qwen models only 3.9%. We hope that DUAL-Bench will foster the development of more nuanced alignment strategies that ensure models remain both safe and useful in complex multimodal settings.
- Abstract(参考訳): 視覚言語モデルがますます有能になるにつれて、安全性と有用性のバランスを維持することが、依然として中心的な課題である。
安全メカニズムは必須だが、過度に注意を払って、モデルが良質な要求を減らし、過剰な拒絶を引き起こす可能性がある。
しかし、既存のベンチマークは視覚的モダリティの過剰な拒絶に体系的に対処していない。
この設定は、命令が無害であるが付随する画像には有害な内容が含まれているというような、ユニークな課題をもたらす。
このようなシナリオではモデルはしばしば失敗し、保守的すぎることや、タスクの完了を安全でないものとすることで、よりきめ細かいアライメントの必要性を強調します。
理想的な行動は、安全な完了、すなわち要求の良心的な部分を満たすことであり、潜在的に有害な要素について明示的に警告する。
そこで本研究では,VLMにおけるオーバーリフレクションとセーフコンプリートに着目した最初のマルチモーダルベンチマークであるDUAL-Benchを提案する。
本研究は, セマンティックス保存型視覚摂動下での強靭性に着目し, 危険カテゴリーの18のVLMを評価した。
GPT-5-Nanoは12.9%、GPT-5モデルは平均7.9%、Qwenモデルはわずか3.9%である。
DUAL-Benchは、複雑なマルチモーダル環境でモデルが安全かつ有用であることを保証する、よりニュアンスなアライメント戦略の開発を促進することを願っている。
関連論文リスト
- SaFeR-VLM: Toward Safety-aware Fine-grained Reasoning in Multimodal Models [66.71948519280669]
MLRM(Multimodal Large Reasoning Models)は、クロスモーダルな推論を示すが、しばしば敵のプロンプトによる安全性のリスクを増幅する。
既存の防御は主に出力レベルで動作し、推論プロセスを制約せず、モデルは暗黙のリスクに置かれる。
4つのコンポーネントを統合し,表面レベルのフィルタリングを超える動的かつ解釈可能な安全性決定をサポートするSaFeR-VLMを提案する。
論文 参考訳(メタデータ) (2025-10-08T10:39:12Z) - From Evaluation to Defense: Advancing Safety in Video Large Language Models [33.10355085086974]
textbfVideoSafetyBench (VSB-77k)は,ビデオLLMの安全性に関する大規模かつ文化的に多様なベンチマークである。
ビデオモダリティの統合は安全性を平均42.3%低下させ、マルチモーダル攻撃のシステム的リスクを露呈する。
我々は,2つのイノベーションを通じて,前例のない安全性向上を実現する2段階フレームワークである textbfVideoSafety-R1 を提案する。
論文 参考訳(メタデータ) (2025-05-22T13:16:53Z) - The Hidden Risks of Large Reasoning Models: A Safety Assessment of R1 [70.94607997570729]
本稿では,OpenAI-o3およびDeepSeek-R1推論モデルの総合的安全性評価を行う。
本研究では, 現実の応用における強靭性を評価するために, ジェイルブレイクやインジェクションなどの敵攻撃に対する感受性について検討する。
論文 参考訳(メタデータ) (2025-02-18T09:06:07Z) - Rethinking Bottlenecks in Safety Fine-Tuning of Vision Language Models [25.606641582511106]
モデル性能を向上させるために,マルチイメージ入力と安全チェーン・オブ・ソート(CoT)ラベルを微粒な推論ロジックとして統合する新しいデータセットを提案する。
実験の結果,MISを用いた微調整InternVL2.5-8Bは,マルチイメージタスクに挑戦する上で,強力なオープンソースモデルとAPIベースモデルの両方を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2025-01-30T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。