論文の概要: VGent: Visual Grounding via Modular Design for Disentangling Reasoning and Prediction
- arxiv url: http://arxiv.org/abs/2512.11099v1
- Date: Thu, 11 Dec 2025 20:21:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.563801
- Title: VGent: Visual Grounding via Modular Design for Disentangling Reasoning and Prediction
- Title(参考訳): VGent: 疎結合推論と予測のためのモジュール設計による視覚的グラウンドニング
- Authors: Weitai Kang, Jason Kuen, Mengwei Ren, Zijun Wei, Yan Yan, Kangning Liu,
- Abstract要約: VGentはモジュール型エンコーダデコーダアーキテクチャで、高レベルの推論と低レベルのバウンディングボックス予測をアンハングリングする。
本稿では,VGentが従来の手法よりも20.6%のF1改善を実現していることを示す。
- 参考スコア(独自算出の注目度): 23.814125316335154
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current visual grounding models are either based on a Multimodal Large Language Model (MLLM) that performs auto-regressive decoding, which is slow and risks hallucinations, or on re-aligning an LLM with vision features to learn new special or object tokens for grounding, which may undermine the LLM's pretrained reasoning ability. In contrast, we propose VGent, a modular encoder-decoder architecture that explicitly disentangles high-level reasoning and low-level bounding box prediction. Specifically, a frozen MLLM serves as the encoder to provide untouched powerful reasoning capabilities, while a decoder takes high-quality boxes proposed by detectors as queries and selects target box(es) via cross-attending on encoder's hidden states. This design fully leverages advances in both object detection and MLLM, avoids the pitfalls of auto-regressive decoding, and enables fast inference. Moreover, it supports modular upgrades of both the encoder and decoder to benefit the whole system: we introduce (i) QuadThinker, an RL-based training paradigm for enhancing multi-target reasoning ability of the encoder; (ii) mask-aware label for resolving detection-segmentation ambiguity; and (iii) global target recognition to improve the recognition of all the targets which benefits the selection among augmented proposals. Experiments on multi-target visual grounding benchmarks show that VGent achieves a new state-of-the-art with +20.6% F1 improvement over prior methods, and further boosts gIoU by +8.2% and cIoU by +5.8% under visual reference challenges, while maintaining constant, fast inference latency.
- Abstract(参考訳): 現在のビジュアルグラウンドティングモデルは、遅くて幻覚の危険性がある自動回帰デコードを実行するマルチモーダル・大規模言語モデル(MLLM)に基づいているか、あるいは視覚機能を備えたLLMを再調整してグラウンドディングのための新しい特別なトークンやオブジェクトトークンを学習し、LLMの事前制約された推論能力を損なう可能性がある。
対照的に,モジュール型エンコーダデコーダアーキテクチャであるVGentを提案する。
具体的には、冷凍MLLMがエンコーダとして機能し、デコーダは検知器によって提案される高品質なボックスをクエリとして取り、エンコーダの隠された状態にクロスアテンディングすることでターゲットボックスを選択する。
この設計は、オブジェクト検出とMLLMの両方の進歩をフル活用し、自動回帰デコーディングの落とし穴を回避し、高速な推論を可能にする。
さらに,システム全体のメリットを得るために,エンコーダとデコーダの両方のモジュールアップグレードもサポートしています。
i) エンコーダのマルチターゲット推論能力を高めるためのRLに基づく訓練パラダイムであるQuadThinker
二 検出・分離の曖昧さを解消するためのマスク対応ラベル及び
三 拡張提案の選定の恩恵を受ける全ての目標の認識を改善するためのグローバルな目標認識。
マルチターゲットの視覚的グラウンドベンチマークの実験では、VGentは従来の手法よりも20.6%のF1の改善を達成し、さらにgIoUを+8.2%、cIoUを+5.8%向上させた。
関連論文リスト
- Fusion to Enhance: Fusion Visual Encoder to Enhance Multimodal Language Model [1.3663057923522652]
本稿では,新しいビジョンタワーフレームワークであるFusion to Enhance (FtZ)を紹介する。
FtZは、意味的に強力なアンカーエンコーダと知覚に富んだ拡張エンコーダを革新的に構成することで、シングルエンコーダ設計を越えている。
この研究は、異種の専門家エンコーダを構成することが、現在のMLLMにおける視覚的認知ボトルネックを克服するための効率的かつ効果的な経路であることを証明している。
論文 参考訳(メタデータ) (2025-08-31T02:22:57Z) - ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。
推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。
12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文 参考訳(メタデータ) (2025-06-02T04:23:21Z) - Training-Free Reasoning and Reflection in MLLMs [45.134271969594614]
本稿では,FRANKモデルについて紹介する。FRANKモデルとは,既製のMLLMに推論とリフレクションを付与したトレーニングフレームANd r1-liKe MLLMである。
私たちの重要な洞察は、MLLMデコーダ層間の認識と推論を分離することです。
そこで本研究では, 深いデコーダ層に推論能力を統合する, テイラー型閉形式融合機構を提案する。
論文 参考訳(メタデータ) (2025-05-22T02:51:12Z) - Semi-supervised Semantic Segmentation with Multi-Constraint Consistency Learning [81.02648336552421]
本稿では,エンコーダとデコーダの段階的拡張を容易にするためのマルチ制約一貫性学習手法を提案する。
自己適応型特徴マスキングとノイズ注入は、デコーダの堅牢な学習のための特徴を摂動させるために、インスタンス固有の方法で設計されている。
Pascal VOC2012およびCityscapesデータセットの実験結果から,提案したMCCLが新たな最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-03-23T03:21:33Z) - EVEv2: Improved Baselines for Encoder-Free Vision-Language Models [72.07868838411474]
既存のエンコーダフリービジョン言語モデル(VLM)は、エンコーダベースモデルと性能ギャップを狭めている。
我々は,主流のエンコーダをベースとしたVLMと競合するエンコーダフリーVLMの効率的な戦略を開発する。
統一モデルにおいて、視覚と言語を適切に階層的に関連付けることで、モダリティ間の干渉を減少させることを示す。
論文 参考訳(メタデータ) (2025-02-10T18:59:58Z) - LAMBO: Large AI Model Empowered Edge Intelligence [71.56135386994119]
次世代エッジインテリジェンスは、オフロード技術を通じて様々なアプリケーションに恩恵をもたらすことが期待されている。
従来のオフロードアーキテクチャは、不均一な制約、部分的な認識、不確実な一般化、トラクタビリティの欠如など、いくつかの問題に直面している。
我々は、これらの問題を解決するための10億以上のパラメータを持つLarge AI Model-Based Offloading (LAMBO)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-29T07:25:42Z) - Learning to Learn Better for Video Object Segmentation [94.5753973590207]
本稿では,SVOS の学習目標機能 (LLB) を強調する新しいフレームワークを提案する。
識別ラベル生成モジュール(DLGM)と適応融合モジュールを設計し,これらの課題に対処する。
提案手法は最先端性能を実現する。
論文 参考訳(メタデータ) (2022-12-05T09:10:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。