論文の概要: CompAgent: An Agentic Framework for Visual Compliance Verification
- arxiv url: http://arxiv.org/abs/2511.00171v1
- Date: Fri, 31 Oct 2025 18:20:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.650955
- Title: CompAgent: An Agentic Framework for Visual Compliance Verification
- Title(参考訳): CompAgent: ビジュアルコンプライアンス検証のためのエージェントフレームワーク
- Authors: Rahul Ghosh, Baishali Chaudhury, Hari Prasanna Das, Meghana Ashok, Ryan Razkenari, Sungmin Hong, Chun-Hao Liu,
- Abstract要約: 視覚コンプライアンスの検証は、コンピュータビジョンにおいて重要な問題であるが、未発見の課題である。
本稿では,視覚的コンプライアンス検証のための最初のエージェントフレームワークであるCompAgentを提案する。
検証エージェントは、画像、ツール出力、ポリシーコンテキストを統合し、マルチモーダル推論を実行する。
- 参考スコア(独自算出の注目度): 3.847341641557404
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual compliance verification is a critical yet underexplored problem in computer vision, especially in domains such as media, entertainment, and advertising where content must adhere to complex and evolving policy rules. Existing methods often rely on task-specific deep learning models trained on manually labeled datasets, which are costly to build and limited in generalizability. While recent multi-modal large language models (MLLMs) offer broad real-world knowledge and policy understanding, they struggle to reason over fine-grained visual details and apply structured compliance rules effectively on their own. In this paper, we propose CompAgent, the first agentic framework for visual compliance verification. CompAgent augments MLLMs with a suite of visual tools - such as object detectors, face analyzers, NSFW detectors, and captioning models - and introduces a planning agent that dynamically selects appropriate tools based on the compliance policy. A verification agent then integrates image, tool outputs, and policy context to perform multi-modal reasoning. Experiments on public benchmarks show that CompAgent outperforms specialized classifiers, direct MLLM prompting, and curated routing baselines, achieving up to 76% F1 score and a 10% improvement over the state-of-the-art on the UnsafeBench dataset. Our results demonstrate the effectiveness of agentic planning and tool-augmented reasoning for scalable, accurate, and adaptable visual compliance verification.
- Abstract(参考訳): ビジュアルコンプライアンスの検証はコンピュータビジョンにおいて、特にコンテンツが複雑で進化するポリシールールに従わなければならないメディア、エンターテイメント、広告といった分野において、重要で未解明の課題である。
既存の方法は、手動でラベル付けされたデータセットでトレーニングされたタスク固有のディープラーニングモデルに依存することが多い。
最近のMLLM(Multi-modal large language model)は、広範に現実世界の知識とポリシーの理解を提供するが、細粒度の視覚的詳細を推論し、構造化されたコンプライアンスルールを効果的に適用することは困難である。
本稿では,視覚的コンプライアンス検証のための最初のエージェントフレームワークであるCompAgentを提案する。
CompAgentはMLLMをオブジェクト検出器、顔アナライザ、NSFW検出器、キャプションモデルといった一連のビジュアルツールで拡張し、コンプライアンスポリシーに基づいて適切なツールを動的に選択する計画エージェントを導入している。
検証エージェントは、画像、ツール出力、ポリシーコンテキストを統合し、マルチモーダル推論を実行する。
公開ベンチマークの実験によると、CompAgentは特別な分類器、直接MLLMプロンプト、およびキュレートされたルーティングベースラインを上回り、最大76%のF1スコアを達成し、UnsafeBenchデータセットの最先端よりも10%改善している。
本研究は,拡張性,正確性,適応性を有する視覚的コンプライアンス検証のためのエージェント計画とツール強化推論の有効性を示す。
関連論文リスト
- FABRIC: Framework for Agent-Based Realistic Intelligence Creation [3.940391073007047]
大規模言語モデル(LLM)はエージェントとしてますます多くデプロイされ、目標を分解し、ツールを実行し、動的環境で結果を検証することが期待されている。
本稿では,LLMのみを用いたエージェントデータの統一化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-20T18:20:22Z) - Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling [83.78874399606379]
テスト時間スケーリングを備えたマルチエージェント協調フレームワークであるMACTを提案する。
4つの異なる小規模エージェントから構成され、明確に定義された役割と効果的なコラボレーションがある。
一般および数学的タスクの能力を犠牲にすることなく、より小さなパラメータスケールで優れた性能を示す。
論文 参考訳(メタデータ) (2025-08-05T12:52:09Z) - Agent-X: Evaluating Deep Multimodal Reasoning in Vision-Centric Agentic Tasks [94.19506319646376]
本稿では,実世界のマルチモーダル環境での視覚中心エージェント評価のためのベンチマークであるAgent-Xを紹介する。
Agent-Xは、828のエージェントタスクと、イメージ、マルチイメージ比較、ビデオ、命令テキストを含む、真の視覚的コンテキストを備えている。
その結果、GPT、Gemini、Qwenファミリーを含む最高のパフォーマンスモデルでさえ、多段階視覚タスクの解決に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2025-05-30T17:59:53Z) - nvAgent: Automated Data Visualization from Natural Language via Collaborative Agent Workflow [9.676697360425196]
自然言語から可視化へ(NL2Vis)は、自然言語記述を与えられたテーブルの視覚表現に変換する。
我々はNL2Visのための協調エージェントワークフローであるnvAgentを提案する。
新しいVisEvalベンチマークに関する総合的な評価は、nvAgentが最先端のベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-02-07T16:03:08Z) - Divide and Conquer: Language Models can Plan and Self-Correct for
Compositional Text-to-Image Generation [72.6168579583414]
CompAgentは、大規模な言語モデル(LLM)エージェントをコアとして、コンポジションテキスト・画像生成のためのトレーニング不要のアプローチである。
提案手法は,オープンワールド合成T2I生成のための総合的なベンチマークであるT2I-CompBenchに対して10%以上の改善を達成している。
論文 参考訳(メタデータ) (2024-01-28T16:18:39Z) - VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks [93.85005277463802]
VisualWebArenaは、マルチモーダルWebエージェントのパフォーマンスを現実的なタスクで評価するために設計されたベンチマークである。
このベンチマークを実行するには、イメージテキスト入力を正確に処理し、自然言語命令を解釈し、ユーザが定義した目的を達成するためにウェブサイト上でアクションを実行する必要がある。
論文 参考訳(メタデータ) (2024-01-24T18:35:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。