論文の概要: OmniVL-Guard: Towards Unified Vision-Language Forgery Detection and Grounding via Balanced RL
- arxiv url: http://arxiv.org/abs/2602.10687v1
- Date: Wed, 11 Feb 2026 09:41:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.657073
- Title: OmniVL-Guard: Towards Unified Vision-Language Forgery Detection and Grounding via Balanced RL
- Title(参考訳): OmniVL-Guard:Unified Vision-Language Forgery Detection and Grounding via Balanced RL
- Authors: Jinjie Shen, Jing Wu, Yaxiong Wang, Lechao Cheng, Shengeng Tang, Tianrui Hui, Nan Pu, Zhun Zhong,
- Abstract要約: 既存の偽造検出手法は、現実世界の誤報に多いインターリーブされたテキスト、画像、ビデオを扱うのに失敗する。
このギャップを埋めるため,本論文では,オムニバス・ビジョン言語による偽造検出と接地のための統一フレームワークの開発を目標としている。
我々は、OmniVL-Guardという、オムニバス視覚言語による偽造検出と接地のためのバランスの取れた強化学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 63.388513841293616
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing forgery detection methods are often limited to uni-modal or bi-modal settings, failing to handle the interleaved text, images, and videos prevalent in real-world misinformation. To bridge this gap, this paper targets to develop a unified framework for omnibus vision-language forgery detection and grounding. In this unified setting, the {interplay} between diverse modalities and the dual requirements of simultaneous detection and localization pose a critical ``difficulty bias`` problem: the simpler veracity classification task tends to dominate the gradients, leading to suboptimal performance in fine-grained grounding during multi-task optimization. To address this challenge, we propose \textbf{OmniVL-Guard}, a balanced reinforcement learning framework for omnibus vision-language forgery detection and grounding. Particularly, OmniVL-Guard comprises two core designs: Self-Evolving CoT Generatio and Adaptive Reward Scaling Policy Optimization (ARSPO). {Self-Evolving CoT Generation} synthesizes high-quality reasoning paths, effectively overcoming the cold-start challenge. Building upon this, {Adaptive Reward Scaling Policy Optimization (ARSPO)} dynamically modulates reward scales and task weights, ensuring a balanced joint optimization. Extensive experiments demonstrate that OmniVL-Guard significantly outperforms state-of-the-art methods and exhibits zero-shot robust generalization across out-of-domain scenarios.
- Abstract(参考訳): 既存の偽造検出方法は、しばしばユニモーダル(uni-modal)またはバイモーダル(bi-modal)の設定に制限される。
このギャップを埋めるために,本論文では,オムニバス・ヴィジュアル言語による偽造検出と接地のための統一的なフレームワークを開発することを目的とする。
この統一された設定では、多様なモダリティと同時検出と局所化の二重要求の間の相互作用は重要な「微分バイアス」問題を引き起こす: より単純な妥当性分類タスクは勾配を支配する傾向にあり、マルチタスク最適化時の微粒な接地において、最適以下の性能をもたらす。
この課題に対処するために、オムニバス視覚言語偽造検出と接地のためのバランスの取れた強化学習フレームワークである \textbf{OmniVL-Guard} を提案する。
特にOmniVL-Guardは、自己進化CoTジェネラティクスとアダプティブリワードスケーリングポリシー最適化(ARSPO)の2つのコア設計で構成されている。
自己進化型CoT生成は高品質な推論経路を合成し、コールドスタートの課題を効果的に克服する。
これに基づいて、適応リワードスケーリングポリシー最適化(ARSPO)は報酬スケールとタスクウェイトを動的に調整し、バランスの取れた共同最適化を保証する。
大規模な実験により、OmniVL-Guardは最先端の手法を大きく上回り、ドメイン外のシナリオでゼロショットの堅牢な一般化を示す。
関連論文リスト
- Hierarchical Refinement of Universal Multimodal Attacks on Vision-Language Models [41.79238283279954]
HRAは、サンプルレベルと最適化レベルの両方で普遍対向摂動(UAP)を洗練する。
画像のモダリティについては、敵の例をクリーンな画像と摂動に切り離し、各コンポーネントを独立して扱うことができる。
テキストのモダリティについて、HRAは文内重要度と文間重要度を組み合わせ、世界的影響力のある単語を識別する。
論文 参考訳(メタデータ) (2026-01-15T11:45:56Z) - Unifying Search and Recommendation in LLMs via Gradient Multi-Subspace Tuning [33.69176756907003]
Gradient Multi-Subspace Tuning (GEMS)は、検索とレコメンデーションタスクを統合する新しいフレームワークである。
GEMSは検索タスクとレコメンデーションタスクの両方において、最先端のベースラインを一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2026-01-14T14:03:07Z) - MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - GARDO: Reinforcing Diffusion Models without Reward Hacking [54.841464430913476]
オンライン強化学習(RL)による微調整拡散モデルにより,テキストと画像のアライメントが向上する可能性が示された。
このミスマッチは、しばしば報酬のハッキングにつながり、プロキシスコアは増加し、実際の画像品質は低下し、生成の多様性は崩壊する。
我々は、サンプル効率、効率的な探索、報酬ハッキングの軽減という競合する要求に対処するため、Gated and Adaptive Regularization with Diversity-Aware Optimization (GARDO)を提案する。
論文 参考訳(メタデータ) (2025-12-30T10:55:45Z) - QoS-Aware Hierarchical Reinforcement Learning for Joint Link Selection and Trajectory Optimization in SAGIN-Supported UAV Mobility Management [52.15690855486153]
宇宙空間統合ネットワーク (SAGIN) がユビキタスUAV接続を実現するための重要なアーキテクチャとして登場した。
本稿では,SAGINにおけるUAVモビリティ管理を制約付き多目的関節最適化問題として定式化する。
論文 参考訳(メタデータ) (2025-12-17T06:22:46Z) - Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories [58.988535279557546]
適応推論トラジェクトリを用いたtextbf sycophancy Mitigation を提案する。
SMARTは,分布外の入力に対して強い性能を維持しながら,サイコファンティクスの挙動を著しく低下させることを示した。
論文 参考訳(メタデータ) (2025-09-20T17:09:14Z) - Activation Steering Meets Preference Optimization: Defense Against Jailbreaks in Vision Language Models [25.261947712485107]
視覚言語モデル(VLM)は、理解と推論のために視覚情報とテキスト情報を統合するという印象的な能力を示しているが、敵の攻撃に対して非常に脆弱である。
モデルロバスト性を高めるために,アクティベーションレベルの介入とポリシレベルの最適化を組み合わせた新しい2段階防衛フレームワークであるtextitSequence-Level Preference Optimization for VLM (textitSPO-VLM)を提案する。
論文 参考訳(メタデータ) (2025-08-30T06:00:53Z) - ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。
推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。
12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文 参考訳(メタデータ) (2025-06-02T04:23:21Z) - Adaptive Sparse Convolutional Networks with Global Context Enhancement
for Faster Object Detection on Drone Images [26.51970603200391]
本稿では,スパース畳み込みに基づく検出ヘッドの最適化について検討する。
これは、小さなオブジェクトのコンテキスト情報の不十分な統合に悩まされる。
本稿では,グローバルな文脈拡張型適応スパース畳み込みネットワークを提案する。
論文 参考訳(メタデータ) (2023-03-25T14:42:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。