論文の概要: Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2510.18876v1
- Date: Tue, 21 Oct 2025 17:59:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:14.129377
- Title: Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs
- Title(参考訳): Grasp Any Region:マルチモーダルLLMのための高精度でコンテキストのピクセル理解を目指して
- Authors: Haochen Wang, Yuhao Wang, Tao Zhang, Yikang Zhou, Yanwei Li, Jiacong Wang, Ye Tian, Jiahao Meng, Zilong Huang, Guangcan Mai, Anran Wang, Yunhai Tong, Zhuochen Wang, Xiangtai Li, Zhaoxiang Zhang,
- Abstract要約: そこで我々は,GAR (Grasp Any Region) を導入し,地域レベルの理解を深める。
GARは(1)必要なグローバルコンテキストを活用することによって正確な認識をサポートし、(2)複数のプロンプト間の相互作用をモデル化する。
そして自然に(3)高度な構成的推論を達成し、任意の領域に関する特定の自由形式の疑問に答える。
- 参考スコア(独自算出の注目度): 70.16126330041554
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Multimodal Large Language Models (MLLMs) excel at holistic understanding, they struggle in capturing the dense world with complex scenes, requiring fine-grained analysis of intricate details and object inter-relationships. Region-level MLLMs have been a promising step. However, previous attempts are generally optimized to understand given regions in isolation, neglecting crucial global contexts. To address this, we introduce Grasp Any Region (GAR) for comprehen- sive region-level visual understanding. Empowered by an effective RoI-aligned feature replay technique, GAR supports (1) precise perception by leveraging necessary global contexts, and (2) modeling interactions between multiple prompts. Together, it then naturally achieves (3) advanced compositional reasoning to answer specific free-form questions about any region, shifting the paradigm from passive description to active dialogue. Moreover, we construct GAR-Bench, which not only provides a more accurate evaluation of single-region comprehension, but also, more importantly, measures interactions and complex reasoning across multiple regions. Extensive experiments have demonstrated that GAR-1B not only maintains the state-of-the-art captioning capabilities, e.g., outperforming DAM-3B +4.5 on DLC-Bench, but also excels at modeling relationships between multiple prompts with advanced comprehension capabilities, even surpassing InternVL3-78B on GAR-Bench-VQA. More importantly, our zero-shot GAR-8B even outperforms in-domain VideoRefer-7B on VideoRefer-BenchQ, indicating its strong capabilities can be easily transferred to videos.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、全体的理解において優れているが、複雑な場面で密集した世界を捉え、複雑な詳細やオブジェクト間の関係を詳細に分析する必要がある。
地域レベルのMLLMは有望なステップでした。
しかし、以前の試みは一般的に、重要なグローバルコンテキストを無視して、与えられた領域を分離して理解するように最適化されている。
そこで我々は,GAR(Grasp Any Region)を導入し,地域レベルの視覚的理解を実現する。
GARは,(1)必要なグローバルなコンテキストを活用することによって,(1)正確な認識をサポートし,(2)複数のプロンプト間の相互作用をモデル化する。
そして、自然に(3)高度な構成的推論を達成し、任意の領域に関する特定の自由形式の質問に答え、パラダイムを受動的記述からアクティブな対話へとシフトさせる。
さらに,GAR-Benchを構築し,単一領域の理解をより正確に評価するだけでなく,複数の領域間の相互作用や複雑な推論を計測する。
GAR-1BはDLC-BenchでDAM-3B +4.5を上回り、GAR-Bench-VQAでInternVL3-78Bを上回り、高度な理解能力を持つ複数のプロンプト間の関係のモデル化に優れていた。
さらに重要なことは、私たちのゼロショットGAR-8Bは、VideoRefer-BenchQでドメイン内のVideoRefer-7Bよりも優れており、その強力な能力をビデオに簡単に転送できることを示している。
関連論文リスト
- VLM-FO1: Bridging the Gap Between High-Level Reasoning and Fine-Grained Perception in VLMs [13.486495756813078]
VLM(Vision-Language Models)は、高レベルのシーン理解において優れるが、精密なローカライゼーションを必要とする微粒な知覚タスクに重点を置いている。
VLM-FO1は、オブジェクト中心の知覚を堅牢な特徴検索タスクに再フレーミングすることで、この制限を克服する新しいフレームワークである。
本手法は,プリトレーニング済みのVLMと統合したプラグイン・アンド・プレイモジュールとして動作する。
論文 参考訳(メタデータ) (2025-09-30T08:10:56Z) - A Survey on Video Temporal Grounding with Multimodal Large Language Model [107.24431595873808]
時間的グラウンドリング(VTG)の最近の進歩は、きめ細かいビデオ理解を著しく向上させた。
より優れたマルチモーダル理解と推論能力により、MLLM(VTG-MLLM)に基づくVTGアプローチは、従来の微調整手法を徐々に超えつつある。
一般的なビデオ言語理解に関する広範な調査にもかかわらず、VTG-MLLMに関する包括的なレビューは乏しいままである。
論文 参考訳(メタデータ) (2025-08-07T08:52:11Z) - Perceive Anything: Recognize, Explain, Caption, and Segment Anything in Images and Videos [53.723410664944566]
本稿では,画像やビデオの総合的な領域レベルの視覚的理解のためのフレームワークであるPerceive Anything Model(PAM)を提案する。
提案手法は,Large Language Models (LLMs) を統合することで,強力なセグメンテーションモデルSAM 2を拡張し,オブジェクトセグメンテーションの同時実現を可能にする。
SAM 2のリッチな視覚的特徴をマルチモーダルトークンに効率的に変換するために、Semantic Perceiverという重要なコンポーネントが導入されている。
論文 参考訳(メタデータ) (2025-06-05T17:51:39Z) - RegionGPT: Towards Region Understanding Vision Language Model [88.42271128373191]
RegionGPT(RGPT)は、複雑な地域レベルのキャプションと理解のために設計された新しいフレームワークである。
我々は、詳細な地域レベルのキャプションを備えたトレーニングセットを充実させる、自動領域キャプションデータ生成パイプラインを開発する。
本研究では,領域レベルのタスクに対して,汎用的なRGPTモデルを効果的に適用し,性能を大幅に向上させることを実証する。
論文 参考訳(メタデータ) (2024-03-04T18:58:08Z) - RegionBLIP: A Unified Multi-modal Pre-training Framework for Holistic
and Regional Comprehension [12.497783401857134]
MLLM(Multi-modal Large Language Models)の理解を地域オブジェクトに拡張する。
本稿では,新しい位置支援型特徴抽出モジュールを提案する。
画像-リージョン-テキスト、ポイント-クラウド-テキスト、ポイント-クラウド-リージョン-テキストデータに基づいて、リージョンBLIPを事前訓練する。
論文 参考訳(メタデータ) (2023-08-03T14:17:22Z) - MGDoc: Pre-training with Multi-granular Hierarchy for Document Image
Understanding [53.03978356918377]
異なるレベルの粒度のコンテンツ間の空間的階層的関係は、文書画像理解タスクに不可欠である。
既存の方法は単語レベルか地域レベルから特徴を学習するが、両方を同時に考えることができない。
MGDocは,ページレベル,領域レベル,単語レベル情報を同時にエンコードするマルチモーダル・マルチグラニュラ事前学習フレームワークである。
論文 参考訳(メタデータ) (2022-11-27T22:47:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。