論文の概要: GuardTrace-VL: Detecting Unsafe Multimodel Reasoning via Iterative Safety Supervision
- arxiv url: http://arxiv.org/abs/2511.20994v1
- Date: Wed, 26 Nov 2025 02:49:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.932715
- Title: GuardTrace-VL: Detecting Unsafe Multimodel Reasoning via Iterative Safety Supervision
- Title(参考訳): GuardTrace-VL:イテレーティブ・セーフティ・スーパービジョンによる安全でないマルチモデル推論の検出
- Authors: Yuxiao Xiang, Junchi Chen, Zhenchao Jin, Changtao Miao, Haojie Yuan, Qi Chu, Tao Gong, Nenghai Yu,
- Abstract要約: GuardTrace-VLは、共同画像テキスト分析を通じてQTAパイプライン全体を監視する、視覚対応の安全監査ツールである。
本研究では,データ修正プロセスと組み合わさった3段階のプログレッシブトレーニング手法を提案する。
提案したテストセットでは、ドメイン内シナリオとドメイン外シナリオの両方を対象として、安全でない推論検出タスクにおいて、GuardTrace-VLモデルがF1スコア93.1%を達成した。
- 参考スコア(独自算出の注目度): 47.99880677909197
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large reasoning models (MLRMs) are increasingly deployed for vision-language tasks that produce explicit intermediate rationales. However, reasoning traces can contain unsafe content even when the final answer is non-harmful, creating deployment risks. Existing multimodal safety guards primarily evaluate only the input question and the final answer, neglecting the intermediate reasoning process. This oversight allows undetected harm, such as biased inferences or policy-violating use of visual context, to emerge during reasoning. We introduce GuardTrace-VL, a vision-aware safety auditor that monitors the full Question-Thinking-Answer (QTA) pipeline via joint image-text analysis, enabling detection of unsafe content as it emerges in the reasoning stage. To support training and evaluation, we construct the GuardTrace dataset, which is generated through diverse prompting strategies and refined via a MLRM- and human-based voting and verification pipeline. Furthermore, we propose a three-stage progressive training scheme combined with the data refinement process, enabling the model to learn nuanced and context-dependent safety preferences according to different risk levels. On our proposed test set covering both in-domain and out-of-domain scenarios, GuardTrace-VL model achieves an F1 score of 93.1% on unsafe reasoning detection tasks, representing a 13.5% improvement in F1 score compared to the previous strongest multimodal safety defense methods. The codes will be made publicly available.
- Abstract(参考訳): マルチモーダルな大推論モデル(MLRM)は、明確な中間的理性を生成する視覚言語タスクに対して、ますます多くデプロイされている。
しかしながら、推論トレースには、最終回答が有害でない場合でも、安全でないコンテンツが含まれ、デプロイメントのリスクが生じる。
既存のマルチモーダル安全ガードは、入力された質問と最終回答のみを評価し、中間的推論プロセスを無視する。
この監視により、バイアス付き推論や視覚的コンテキストのポリシー違反使用といった未検出の害が推論中に出現する。
本稿では,共同画像テキスト解析によってQTAパイプライン全体を監視し,推論段階での安全でないコンテンツの検出を可能にする視覚認識型安全監査装置であるGuardTrace-VLを紹介する。
トレーニングと評価を支援するため,多様なプロンプト戦略によって生成されるGuardTraceデータセットを構築し,MLRMおよび人間による投票・検証パイプラインを通じて改良する。
さらに,データ改質プロセスと組み合わさった3段階のプログレッシブトレーニング手法を提案する。
ドメイン内シナリオとドメイン外シナリオの両方をカバーするテストセットにおいて、GuardTrace-VLモデルは安全でない推論検出タスクにおいてF1スコア93.1%を達成し、従来の最強マルチモーダル安全防御手法と比較してF1スコアが13.5%向上したことを示す。
コードは公開されます。
関連論文リスト
- SafeRBench: A Comprehensive Benchmark for Safety Assessment in Large Reasoning Models [60.8821834954637]
LRMの安全性をエンドツーエンドに評価する最初のベンチマークであるSafeRBenchを紹介する。
私たちは、リスクカテゴリとレベルを入力設計に組み込んだ先駆者です。
我々は,長い推論トレースを意味的に一貫性のある単位にセグメント化するためのマイクロシンクのチャンキング機構を導入する。
論文 参考訳(メタデータ) (2025-11-19T06:46:33Z) - InvThink: Towards AI Safety via Inverse Reasoning [23.940337534762563]
InvThinkは、大きな言語モデルに、逆思考の能力を与える。
i) 安全性の改善は, 既存の安全手法と比較して, モデルサイズによるスケーリングがより強力であることを示す。
InvThinkは、外向き(医療、金融、法律)やエージェント的(ブラックメール、殺人)のリスクシナリオを含む高い領域で優れており、有害反応の最大15.7%の減少を達成している。
論文 参考訳(メタデータ) (2025-10-02T01:26:53Z) - Towards Safe Reasoning in Large Reasoning Models via Corrective Intervention [53.25106308403173]
既存の手法は、安全推論の独特な重要性を軽視し、信頼性を損なうとともに、悪質なユーザに対して安全でない推論がアクセス可能で、悪質なユーザによって悪用された場合、アプリケーションに潜在的なリスクを生じさせることを示す。
我々は、安全トリガー付きコンプライアンスステップを代入し、強い信号による優先学習のためのペアを構築することで、安全推論を強制するアライメント手法であるIntervened Preference Optimization (IPO)を提案する。
論文 参考訳(メタデータ) (2025-09-29T07:41:09Z) - LatentGuard: Controllable Latent Steering for Robust Refusal of Attacks and Reliable Response Generation [4.29885665563186]
LATENTGUARDは、行動アライメントと教師付き潜在空間制御を組み合わせて、解釈可能で正確な安全操縦を行うフレームワークである。
本研究は, 実用性を損なうことなく, 安全性制御性と応答解釈性の両方を向上することを示す。
論文 参考訳(メタデータ) (2025-09-24T07:31:54Z) - ReasoningShield: Safety Detection over Reasoning Traces of Large Reasoning Models [20.274878511727945]
ReasoningShieldは、Large Reasoning Models (LRMs)におけるChain-of-Thoughts (CoTs)をモデレートするためのフレームワークである
ReasoningShieldは最新のパフォーマンスを実現し、LlamaGuard-4のようなタスク固有のツールを35.6%、GPT-4oのような汎用商用モデルを15.8%向上させた。
論文 参考訳(メタデータ) (2025-05-22T19:44:41Z) - Advancing Neural Network Verification through Hierarchical Safety Abstract Interpretation [52.626086874715284]
我々は、安全でない出力の階層構造を検証する抽象的DNN検証と呼ばれる新しい問題定式化を導入する。
出力到達可能な集合に関する抽象的解釈と推論を活用することにより,形式的検証プロセスにおいて,複数の安全性レベルを評価することができる。
我々の貢献には、新しい抽象的安全性の定式化と既存のアプローチとの関係を理論的に探求することが含まれる。
論文 参考訳(メタデータ) (2025-05-08T13:29:46Z) - Safe Vision-Language Models via Unsafe Weights Manipulation [75.04426753720551]
我々は、異なるレベルの粒度で安全性を評価する新しい指標セットであるSafe-Groundを導入し、安全性の評価を見直した。
我々は異なる方向を採り、トレーニングなしでモデルをより安全にできるかどうかを探り、Unsafe Weights Manipulation (UWM)を導入します。
UWMは、セーフとアンセーフのインスタンスのキャリブレーションセットを使用して、セーフとアンセーフのコンテンツのアクティベーションを比較し、後者を処理する上で最も重要なパラメータを特定する。
論文 参考訳(メタデータ) (2025-03-14T17:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。