論文の概要: OVOD-Agent: A Markov-Bandit Framework for Proactive Visual Reasoning and Self-Evolving Detection
- arxiv url: http://arxiv.org/abs/2511.21064v1
- Date: Wed, 26 Nov 2025 05:08:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.974511
- Title: OVOD-Agent: A Markov-Bandit Framework for Proactive Visual Reasoning and Self-Evolving Detection
- Title(参考訳): OVOD-Agent:プロアクティブ・ビジュアル・推論と自己進化検出のためのマルコフ・バンディット・フレームワーク
- Authors: Chujie Wang, Jianyu Lu, Zhiyuan Luo, Xi Chen, Chu He,
- Abstract要約: Open-Vocabulary Object Detection (OVOD) は、セマンティック情報を活用することで、検出者がカテゴリをまたいで一般化できるようにすることを目的としている。
従来の研究は、テキスト表現の改善がOVODの性能を大幅に向上させることを示した。
我々は,受動的カテゴリーマッチングを積極的に視覚的推論と自己進化検出に変換するOVOD-Agentを提案する。
- 参考スコア(独自算出の注目度): 5.680346469299543
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-Vocabulary Object Detection (OVOD) aims to enable detectors to generalize across categories by leveraging semantic information. Although existing methods are pretrained on large vision-language datasets, their inference is still limited to fixed category names, creating a gap between multimodal training and unimodal inference. Previous work has shown that improving textual representation can significantly enhance OVOD performance, indicating that the textual space is still underexplored. To this end, we propose OVOD-Agent, which transforms passive category matching into proactive visual reasoning and self-evolving detection. Inspired by the Chain-of-Thought (CoT) paradigm, OVOD-Agent extends the textual optimization process into an interpretable Visual-CoT with explicit actions. OVOD's lightweight nature makes LLM-based management unsuitable; instead, we model visual context transitions as a Weakly Markovian Decision Process (w-MDP) over eight state spaces, which naturally represents the agent's state, memory, and interaction dynamics. A Bandit module generates exploration signals under limited supervision, helping the agent focus on uncertain regions and adapt its detection policy. We further integrate Markov transition matrices with Bandit trajectories for self-supervised Reward Model (RM) optimization, forming a closed loop from Bandit exploration to RM learning. Experiments on COCO and LVIS show that OVOD-Agent provides consistent improvements across OVOD backbones, particularly on rare categories, confirming the effectiveness of the proposed framework.
- Abstract(参考訳): Open-Vocabulary Object Detection (OVOD) は、セマンティック情報を活用することで、検出者がカテゴリをまたいで一般化できるようにすることを目的としている。
既存の手法は大規模な視覚言語データセットで事前訓練されているが、その推論は固定されたカテゴリ名に限られており、マルチモーダルトレーニングと非モーダル推論のギャップが生じる。
従来の研究は、テキスト表現の改善がOVODの性能を大幅に向上させることを示し、テキスト空間がまだ探索されていないことを示している。
そこで本研究では,受動的カテゴリーマッチングを積極的に視覚的推論と自己進化検出に変換するOVOD-Agentを提案する。
Chain-of-Thought(CoT)パラダイムにインスパイアされたOVOD-Agentは、テキスト最適化プロセスを明示的なアクションで解釈可能なVisual-CoTに拡張した。
OVODの軽量な性質は、LCMベースの管理を不適当にし、代わりに、エージェントの状態、メモリ、相互作用のダイナミクスを自然に表す8つの状態空間上で、視覚的コンテキスト遷移をWakly Markovian Decision Process (w-MDP)としてモデル化する。
Banditモジュールは限られた監督下で探索信号を生成し、エージェントが不確実な領域に集中し、検出ポリシーを適用するのに役立つ。
さらに,自己教師付きリワードモデル(RM)最適化のために,マルコフ遷移行列と帯域トラジェクトリを統合し,帯域探索からRM学習への閉ループを形成する。
COCOとLVISの実験により、OVOD-AgentはOVODバックボーン、特に稀なカテゴリで一貫した改善を提供し、提案フレームワークの有効性を確認した。
関連論文リスト
- Connecting the Dots: Training-Free Visual Grounding via Agentic Reasoning [63.109585527799005]
GroundingAgentは、タスク固有の微調整なしで動作するビジュアルグラウンドティングフレームワークである。
広く使用されているベンチマークでは、平均ゼロショットグラウンドの精度は65.1%である。
また、強い解釈可能性を提供し、各推論ステップを透過的に照らす。
論文 参考訳(メタデータ) (2025-11-24T03:11:08Z) - Explaining multimodal LLMs via intra-modal token interactions [55.27436637894534]
MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにおいて顕著な成功を収めているが、その内部決定機構は十分に理解されていない。
モーダル内相互作用を利用した解釈可能性の向上を提案する。
論文 参考訳(メタデータ) (2025-09-26T14:39:13Z) - Novel Category Discovery with X-Agent Attention for Open-Vocabulary Semantic Segmentation [48.806000388608005]
提案するX-Agentは,「潜時意味認識エージェント」を用いてモーダル間注意機構を編成する,革新的なOVSSフレームワークである。
X-Agentは最先端のパフォーマンスを実現し、潜伏したセマンティックサリエンシを効果的に強化する。
論文 参考訳(メタデータ) (2025-09-01T09:01:58Z) - MarvelOVD: Marrying Object Recognition and Vision-Language Models for Robust Open-Vocabulary Object Detection [107.15164718585666]
開語彙検出コンテキスト下でのVLMの偏り予測の根本原因について検討した。
私たちの観察は、非常に優れたトレーニングターゲットを生成する、単純で効果的なパラダイム、コード化されたMarvelOVDにつながります。
我々の手法は、他の最先端技術よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2024-07-31T09:23:57Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Activation Modulation and Recalibration Scheme for Weakly Supervised
Semantic Segmentation [24.08326440298189]
弱教師付きセマンティックセグメンテーションのための新しいアクティベーション変調と再校正手法を提案する。
PASCAL VOC 2012データセット上で,AMRが新たな最先端パフォーマンスを確立することを示す。
また,本手法はプラグアンドプレイであり,他の手法と組み合わせて性能向上を図ることが可能であることを実験により明らかにした。
論文 参考訳(メタデータ) (2021-12-16T16:26:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。