論文の概要: VisuoAlign: Safety Alignment of LVLMs with Multimodal Tree Search
- arxiv url: http://arxiv.org/abs/2510.15948v1
- Date: Fri, 10 Oct 2025 10:46:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-26 16:57:26.466854
- Title: VisuoAlign: Safety Alignment of LVLMs with Multimodal Tree Search
- Title(参考訳): VisuoAlign:マルチモーダルツリーサーチによるLVLMの安全アライメント
- Authors: MingSheng Li, Guangze Zhao, Sichen Liu,
- Abstract要約: 本稿では,アクシデント誘導木探索によるマルチモーダル安全アライメントのためのフレームワークであるVisuoAlignを提案する。
VisuoAlignはリスクを積極的に公開し、包括的なデータセット生成を可能にし、複雑なクロスモーダル脅威に対するLVLMの堅牢性を大幅に改善する。
- 参考スコア(独自算出の注目度): 3.174751774599702
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (LVLMs) have achieved remarkable progress in multimodal perception and generation, yet their safety alignment remains a critical challenge.Existing defenses and vulnerable to multimodal jailbreaks, as visual inputs introduce new attack surfaces, reasoning chains lack safety supervision, and alignment often degrades under modality fusion.To overcome these limitation, we propose VisuoAlign, a framework for multi-modal safety alignment via prompt-guided tree search.VisuoAlign embeds safety constrains into the reasoning process through visual-textual interactive prompts, employs Monte Carlo Tree Search(MCTS) to systematically construct diverse safety-critical prompt trajectories, and introduces prompt-based scaling to ensure real-time risk detection and compliant responses.Extensive experiments demonstrate that VisuoAlign proactively exposes risks, enables comprehensive dataset generation, and significantly improves the robustness of LVLMs against complex cross-modal threats.
- Abstract(参考訳): 大規模ビジョンランゲージモデル(LVLM)は、マルチモーダル認識と生成において顕著な進歩を遂げているが、その安全性の確保は依然として重要な課題である。視覚入力が新たな攻撃面を導入し、安全性の監督が欠如し、アライメントがしばしばモダリティ融合によって劣化する。これらの制限を克服するために、VisuoAlignを提案している。
関連論文リスト
- MSR-Align: Policy-Grounded Multimodal Alignment for Safety-Aware Reasoning in Vision-Language Models [18.760785302224175]
VLM(Vision-Language Models)は、多モーダル推論タスクにおいて、チェーンオブ思考能力の向上を通じて、顕著な進歩を遂げている。
既存の安全アライメントアプローチは、マルチモーダル入力によって引き起こされる複雑でニュアンスな脅威に対処するには不十分である。
MSR-Alignは、視覚とテキストのモダリティの双方にわたって標準化された安全ポリシーよりも、きめ細かい、熟考的な推論をサポートしている。
論文 参考訳(メタデータ) (2025-06-24T02:37:59Z) - Cross-Modal Obfuscation for Jailbreak Attacks on Large Vision-Language Models [11.867355323884217]
本稿では,悪質なプロンプトを視覚的およびテキスト的フラグメントに分解する新しいブラックボックス・ジェイルブレイク攻撃フレームワークを提案する。
我々のアプローチは、調整可能な推論の複雑さをサポートし、以前の攻撃よりもはるかに少ないクエリを必要とし、ステルスと効率の両方を可能にします。
論文 参考訳(メタデータ) (2025-06-20T05:30:25Z) - ROSE: Toward Reality-Oriented Safety Evaluation of Large Language Models [60.28667314609623]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいてブラックボックスコンポーネントとしてますます多くデプロイされている。
我々は,多目的強化学習を用いて敵のLDMを微調整する新しいフレームワークであるReal-Oriented Safety Evaluation (ROSE)を提案する。
論文 参考訳(メタデータ) (2025-06-17T10:55:17Z) - Align is not Enough: Multimodal Universal Jailbreak Attack against Multimodal Large Language Models [83.80177564873094]
マルチモーダル・ユニバーサル・ジェイルブレイク・アタック・フレームワークを提案する。
LLaVA,Yi-VL,MiniGPT4,MiniGPT-v2,InstructBLIPなどのMLLMの望ましくないコンテキスト生成を評価する。
本研究は,MLLMにおける堅牢な安全対策の必要性を浮き彫りにするものである。
論文 参考訳(メタデータ) (2025-06-02T04:33:56Z) - DREAM: Disentangling Risks to Enhance Safety Alignment in Multimodal Large Language Models [37.104276926258095]
MLLM(Multimodal Large Language Models)は、視覚データとテキストデータの統合により、ユニークな安全性上の課題を提起する。
textbfDREAM(textittextbfDisentangling textbfRisks to textbfEnhance Safety textbfAlignment in textbfMLLMs)を導入する。
論文 参考訳(メタデータ) (2025-04-25T03:54:24Z) - MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。
最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。
役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文 参考訳(メタデータ) (2025-03-24T20:38:42Z) - Multimodal Situational Safety [73.63981779844916]
マルチモーダル・シチュエーション・セーフティ(Multimodal situational Safety)と呼ばれる新しい安全課題の評価と分析を行う。
MLLMが言語やアクションを通じても安全に応答するためには、言語クエリが対応する視覚的コンテキスト内での安全性への影響を評価する必要があることが多い。
我々は,現在のMLLMの状況安全性能を評価するためのマルチモーダル状況安全ベンチマーク(MSSBench)を開発した。
論文 参考訳(メタデータ) (2024-10-08T16:16:07Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。