論文の概要: OmniGuard: Unified Omni-Modal Guardrails with Deliberate Reasoning
- arxiv url: http://arxiv.org/abs/2512.02306v1
- Date: Tue, 02 Dec 2025 01:01:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.669843
- Title: OmniGuard: Unified Omni-Modal Guardrails with Deliberate Reasoning
- Title(参考訳): OmniGuard:Deliberate Reasoningを備えた統一オムニモードガードレール
- Authors: Boyu Zhu, Xiaofei Wen, Wenjie Jacky Mo, Tinghui Zhu, Yanan Xie, Peng Qi, Muhao Chen,
- Abstract要約: オムニガード(OmniGuard, OmniGuard)は、すべてのモダリティに対して、意図的な推論能力で保護を行うオムニガード(OmniGuard)のファミリーである。
OmniGuardのトレーニングを支援するため、210万以上の多様なサンプルからなる大規模で総合的なオムニモーダル安全データセットをキュレートする。
15のベンチマークでの実験では、OmniGuardは幅広いマルチモーダル安全性シナリオにおいて、強力な有効性と一般化を実現している。
- 参考スコア(独自算出の注目度): 25.190494543355047
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Omni-modal Large Language Models (OLLMs) that process text, images, videos, and audio introduce new challenges for safety and value guardrails in human-AI interaction. Prior guardrail research largely targets unimodal settings and typically frames safeguarding as binary classification, which limits robustness across diverse modalities and tasks. To address this gap, we propose OmniGuard, the first family of omni-modal guardrails that performs safeguarding across all modalities with deliberate reasoning ability. To support the training of OMNIGUARD, we curate a large, comprehensive omni-modal safety dataset comprising over 210K diverse samples, with inputs that cover all modalities through both unimodal and cross-modal samples. Each sample is annotated with structured safety labels and carefully curated safety critiques from expert models through targeted distillation. Extensive experiments on 15 benchmarks show that OmniGuard achieves strong effectiveness and generalization across a wide range of multimodal safety scenarios. Importantly, OmniGuard provides a unified framework that enforces policies and mitigates risks in omni-modalities, paving the way toward building more robust and capable omnimodal safeguarding systems.
- Abstract(参考訳): テキスト、画像、ビデオ、オーディオを処理するOmni-modal Large Language Models (OLLMs)は、人間とAIのインタラクションにおいて、安全性と価値を守るための新しい課題を導入している。
以前のガードレールの研究は、主に単調な設定を目標としており、典型的には、様々なモダリティやタスクの堅牢性を制限するバイナリ分類として保護されている。
このギャップに対処するため,オムニガード(OmniGuard, OmniGuard, OmniGuard)を提案する。
OMNIGUARDのトレーニングを支援するため、210万以上の多様なサンプルからなる大規模で総合的なOMNIGUARD安全データセットをキュレートした。
それぞれのサンプルには、構造化された安全ラベルと、ターゲット蒸留による専門家モデルからの安全基準が注記されている。
15ベンチマークの大規模な実験により、OmniGuardは幅広いマルチモーダル安全性シナリオにおいて、強力な有効性と一般化を実現している。
重要なことは、OmniGuardはポリシーを強制し、オムニモダリティのリスクを軽減し、より堅牢で有能なオムニモダリティ保護システムを構築するための統一されたフレームワークを提供する。
関連論文リスト
- Qwen3Guard Technical Report [127.69960525219051]
Qwen3Guardは、多言語安全ガードレールモデルである。
生成的Qwen3Guardは、きめ細かい三級判定を可能にする命令追従タスクとして安全分類をキャストする。
Stream Qwen3Guardは、リアルタイム安全監視のためのトークンレベルの分類ヘッドを導入している。
論文 参考訳(メタデータ) (2025-10-16T04:00:18Z) - Protect: Towards Robust Guardrailing Stack for Trustworthy Enterprise LLM Systems [4.404101728634984]
Protectは、テキスト、画像、オーディオ入力間でシームレスに動作するように設計されたマルチモーダルガードレールモデルである。
Low-Rank Adaptation (LoRA)を通じてトレーニングされたカテゴリ固有のアダプタを、広範なマルチモーダルデータセットに統合する。
教師支援型アノテーションパイプラインは、推論と説明トレースを利用して、高忠実でコンテキスト対応なラベルを生成する。
論文 参考訳(メタデータ) (2025-10-15T09:40:24Z) - Building a Foundational Guardrail for General Agentic Systems via Synthetic Data [76.18834864749606]
LLMエージェントは、計画段階で介入するマルチステップタスクを計画できる。
既存のガードレールは主にポスト・エグゼクティブ(英語版)を運用しており、スケーリングが困難であり、計画レベルで制御可能な監督を行う余地がほとんどない。
我々は、良性軌道を合成し、カテゴリーラベル付きリスクを困難に注入し、自動報酬モデルを介して出力をフィルタリングする制御可能なエンジンであるAuraGenを紹介する。
論文 参考訳(メタデータ) (2025-10-10T18:42:32Z) - Secure Tug-of-War (SecTOW): Iterative Defense-Attack Training with Reinforcement Learning for Multimodal Model Security [63.41350337821108]
マルチモーダル大規模言語モデル(MLLM)のセキュリティを高めるために,Secure Tug-of-War(SecTOW)を提案する。
SecTOWは2つのモジュールで構成される:ディフェンダーと補助攻撃者。どちらも強化学習(GRPO)を使用して反復的に訓練される。
SecTOWは、一般的な性能を維持しながら、セキュリティを大幅に改善することを示す。
論文 参考訳(メタデータ) (2025-07-29T17:39:48Z) - Automating Steering for Safe Multimodal Large Language Models [58.36932318051907]
基礎モデルの微調整を必要とせず,モジュール型かつ適応型推論時間介入技術であるAutoSteerを導入する。
AutoSteerは,(1)モデル内部層間の最も安全性に関連のある識別を自動的に行う新しい安全意識スコア(SAS),(2)中間表現から有害な出力の可能性を推定するために訓練された適応安全プローバ,(3)安全性のリスクが検出された場合に生成を選択的に介入する軽量な拒絶ヘッドの3つのコアコンポーネントを組み込んだ。
論文 参考訳(メタデータ) (2025-07-17T16:04:55Z) - GuardSet-X: Massive Multi-Domain Safety Policy-Grounded Guardrail Dataset [18.306944278068638]
ここでは、最初の大規模マルチドメイン安全ポリシー付きガードレールデータセットであるGuardSet-Xを紹介する。
GuardSet-Xは金融、法律、CodeGenといった8つのセーフティクリティカルドメインにまたがる広範なドメインカバレッジを提供する。
先進的なガードレールモデル19をベンチマークし、一連の結果を明らかにした。
論文 参考訳(メタデータ) (2025-06-18T01:35:33Z) - HoliSafe: Holistic Safety Benchmarking and Modeling for Vision-Language Model [58.12612140992874]
我々は、安全で安全でない5つの画像テキストの組み合わせにまたがる、全体的な安全データセットとベンチマークである textbfHoliSafeを紹介した。
また,入力画像の有害性を評価するために,視覚ガードモジュール(VGM)を用いて,VLMの安全性を高めるための新しいモジュラーフレームワークを提案する。
実験により、HoliSafeでトレーニングされたVGMを使用したSafe-VLMは、複数のVLMベンチマークで最先端の安全性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-06-05T07:26:34Z) - Safe RLHF-V: Safe Reinforcement Learning from Multi-modal Human Feedback [34.01716144973483]
汎用AIアシスタント構築にはMLLM(Multimodal large language model)が不可欠である。
MLLMの安全アライメントをどうやって確保すれば、望ましくない行動を防ぐことができるのか?
本研究では,安全なRLHF-Vを初めて探求する。
論文 参考訳(メタデータ) (2025-03-22T07:40:20Z) - RapGuard: Safeguarding Multimodal Large Language Models via Rationale-aware Defensive Prompting [7.0595410083835315]
RapGuardは、シナリオ固有の安全プロンプトを生成するために、マルチモーダル連鎖推論を使用する新しいフレームワークである。
RapGuardは最先端の安全性能を実現し、応答の品質を低下させることなく有害なコンテンツを著しく削減する。
論文 参考訳(メタデータ) (2024-12-25T08:31:53Z) - LlavaGuard: An Open VLM-based Framework for Safeguarding Vision Datasets and Models [26.148022772521493]
LlavaGuardはVLMベースの視覚保護装置のスイートで、大規模データとモデルの時代における信頼性の高いガードレールの必要性に対処する。
VLMセーフガードの安全性を教えるために,高品質なヒューマンエキスパートアノテーションを用いたマルチモーダル安全データセットを作成する。
0.5Bから7BまでのLlavaGuardモデルは、フレキシブルポリシーに対するビジュアルコンテンツの安全性コンプライアンスを評価する汎用ツールとして機能する。
論文 参考訳(メタデータ) (2024-06-07T17:44:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。