論文の概要: OmniVL-Guard Pro: A Tool-Augmented Agent for Omnibus Vision-Language Forensics
- arxiv url: http://arxiv.org/abs/2605.16962v1
- Date: Sat, 16 May 2026 12:26:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.391933
- Title: OmniVL-Guard Pro: A Tool-Augmented Agent for Omnibus Vision-Language Forensics
- Title(参考訳): OmniVL-Guard Pro: Omnibus Vision-Language Forensicsのためのツール拡張エージェント
- Authors: Jinjie Shen, Zheng Huang, Yuchen Zhang, Yujiao Wu, Yaxiong Wang, Lechao Cheng, Shengeng Tang, Tianrui Hui, Nan Pu, Zhun Zhong,
- Abstract要約: ツール拡張エージェントである textbf OmniVL-Guard Pro を提案する。
高品質なツール推論トラジェクトリを生成するために,textbfTree-Structured Self-Evolving Tool Trajectory Generationを導入する。
また,回答が正しいが推論が歪んだ場合に対して,プロセスレベルの監督を行うためのtextbfChecker-Guided Agentic Reinforcement Learningを提案する。
- 参考スコア(独自算出の注目度): 63.13200245209719
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing vision-language forgery detection and grounding methods operate under a closed-world paradigm, assuming verification can be completed by the model alone. However, self-contained MLLMs are constrained by finite parametric knowledge, static training corpora, and limited perceptual resolution, creating a practical ceiling in dynamic open-world forensics -- particularly for real-time event verification requiring external clues and forgery segmentation demanding fine-grained scrutiny of local manipulations. To address these limitations, we shift from scaling up the self-contained model toward reaching beyond it. We propose \textbf{OmniVL-Guard Pro}, a tool-augmented agent that extends unified forensics from closed-world prediction to open-world clues-driven reasoning. OmniVL-Guard Pro integrates a tool environment spanning real-time event search, local cropping and zooming, edge-anomaly screening, face detection, video frame extraction, and SAM3-based segmentation. To generate high-quality tool-reasoning trajectories, we introduce \textbf{Tree-Structured Self-Evolving Tool Trajectory Generation}, which produces diverse trajectories through seed guidance, guider-free self-evolution, and weakly-hinted hard sample synthesis, yielding the Full-Spectrum Tool Reasoning (FSTR) dataset for training. We further propose \textbf{Checker-Guided Agentic Reinforcement Learning} (CGARL), which provides process-level supervision to penalize cases where the answer is correct but the reasoning is distorted. Extensive experiments demonstrate that OmniVL-Guard Pro achieves state-of-the-art performance across various tasks, and exhibits strong zero-shot generalization. The FSTR dataset and code for OmniVL-Guard Pro will be publicly released at \url{https://github.com/shen8424/OmniVL-Guard-Pro}.
- Abstract(参考訳): 既存の視覚言語による偽造検出とグラウンド法は、モデルだけで検証を完了できると仮定して、クローズドワールドパラダイムの下で動作している。
しかし、自己完結型MLLMは有限パラメトリック知識、静的トレーニングコーパス、および限定された知覚分解によって制約されており、特に外部の手がかりを必要とするリアルタイム事象の検証や局所的な操作のきめ細かい精査を必要とする偽セグメンテーションにおいて、動的なオープンワールドの法医学において実践的な天井を形成している。
これらの制限に対処するために、私たちは、自己完結したモデルをスケールアップすることから、それを超えるものへとシフトします。
本稿では, クローズドワールド予測からオープンワールド手がかり駆動推論まで, 統一法医学を拡張したツール強化エージェントである \textbf{OmniVL-Guard Pro を提案する。
OmniVL-Guard Proは、リアルタイムイベント検索、局所的なトリミングとズーム、エッジアノマリースクリーニング、顔検出、ビデオフレーム抽出、SAM3ベースのセグメンテーションにまたがるツール環境を統合する。
高品質なツール推論トラジェクトリを生成するために、シードガイダンス、ガイドなし自己進化、弱い隠れたハードサンプル合成を通じて多様なトラジェクトリを生成する、訓練用フルスペクトルツール推論(FSTR)データセットを提供する、‘textbf{Tree-Structured Self-Evolving Tool Trajectory Generation’を導入する。
さらに,回答が正しいが推論が歪んだ場合の罰則をプロセスレベルで監督する「textbf{Checker-Guided Agentic Reinforcement Learning}」(CGARL)を提案する。
大規模な実験により、OmniVL-Guard Proは様々なタスクにまたがって最先端のパフォーマンスを達成し、強力なゼロショットの一般化を示す。
FSTRデータセットとOmniVL-Guard Proのコードは、 \url{https://github.com/shen8424/OmniVL-Guard-Pro}で公開される。
関連論文リスト
- EvoGuard: An Extensible Agentic RL-based Framework for Practical and Evolving AI-Generated Image Detection [19.507664662884086]
EvoGuardはAIGI検出のための新しいエージェントフレームワークである。
様々な最先端(SOTA)のMLLMと非MLLM検出器を呼び出し可能なツールとしてカプセル化している。
正と負のサンプル間のバイアスを緩和しながらSOTA精度を達成する。
論文 参考訳(メタデータ) (2026-03-18T04:14:40Z) - From Intuition to Investigation: A Tool-Augmented Reasoning MLLM Framework for Generalizable Face Anti-Spoofing [47.26568822352609]
ツール拡張型推論FAS(TAR-FAS)フレームワークを提案する。このフレームワークは、Face Anti-Spoofingタスクを、CoT-VT(Chain-of-Thought with Visual Tools)パラダイムとして再構成する。
TAR-FASは、信頼性の高いスプーフ検出のためのきめ細かな視覚的調査を行い、SOTA性能を実現する。
論文 参考訳(メタデータ) (2026-03-01T10:28:35Z) - ForgeryVCR: Visual-Centric Reasoning via Efficient Forensic Tools in MLLMs for Image Forgery Detection and Localization [62.03035862528452]
ForgeryVCRは、視覚中心推論(Visual-Centric Reasoning)を通じて、知覚できないトレースを明示的な視覚中間体に物質化するフレームワークである。
ForgeryVCRは、検出タスクとローカライゼーションタスクの両方において、最先端(SOTA)のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-02-15T11:14:47Z) - OmniVL-Guard: Towards Unified Vision-Language Forgery Detection and Grounding via Balanced RL [63.388513841293616]
既存の偽造検出手法は、現実世界の誤報に多いインターリーブされたテキスト、画像、ビデオを扱うのに失敗する。
このギャップを埋めるため,本論文では,オムニバス・ビジョン言語による偽造検出と接地のための統一フレームワークの開発を目標としている。
我々は、OmniVL-Guardという、オムニバス視覚言語による偽造検出と接地のためのバランスの取れた強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-11T09:41:36Z) - Agentic Spatio-Temporal Grounding via Collaborative Reasoning [80.83158605034465]
時間的ビデオグラウンド(Temporal Video Grounding)は、テキストクエリが与えられたビデオ内の対象物または人の時間的チューブを検索することを目的としている。
本稿では,STVGの課題に対して,オープンワールドおよびトレーニングフリーシナリオに向けたエージェント時空間グラウンド(ASTG)フレームワークを提案する。
具体的には、現代多言語モデル(MLLM)を活用した2つの特殊エージェントSRA(Spatial Reasoning Agent)とTRA(Temporal Reasoning Agent)である。
人気のあるベンチマークの実験は、既存の弱教師付きおよびゼロショットアプローチをマージンで上回る提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2026-02-10T10:16:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。