論文の概要: PixelRefer: A Unified Framework for Spatio-Temporal Object Referring with Arbitrary Granularity
- arxiv url: http://arxiv.org/abs/2510.23603v1
- Date: Mon, 27 Oct 2025 17:59:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.663981
- Title: PixelRefer: A Unified Framework for Spatio-Temporal Object Referring with Arbitrary Granularity
- Title(参考訳): PixelRefer: 任意粒度を持つ時空間オブジェクト参照のための統一フレームワーク
- Authors: Yuqian Yuan, Wenqiao Zhang, Xin Li, Shihao Wang, Kehan Li, Wentong Li, Jun Xiao, Lei Zhang, Beng Chin Ooi,
- Abstract要約: PixelReferは、統一された領域レベルのMLLMフレームワークで、ユーザが指定した領域についてより詳細な理解を可能にする。
解析の結果,グローバルな視覚トークンは主に初期のLCM層に寄与し,PixelRefer-Liteの設計を刺激していることがわかった。
微粒な命令チューニングを容易にするため,高品質なオブジェクト中心命令データセットであるPixelRefer-2.2Mをキュレートする。
- 参考スコア(独自算出の注目度): 39.98516860109934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) have demonstrated strong general-purpose capabilities in open-world visual comprehension. However, most existing MLLMs primarily focus on holistic, scene-level understanding, often overlooking the need for fine-grained, object-centric reasoning. In this paper, we present PixelRefer, a unified region-level MLLM framework that enables advanced fine-grained understanding over user-specified regions across both images and videos. Motivated by the observation that LLM attention predominantly focuses on object-level tokens, we propose a Scale-Adaptive Object Tokenizer (SAOT) to generate compact and semantically rich object representations from free-form regions. Our analysis reveals that global visual tokens contribute mainly in early LLM layers, inspiring the design of PixelRefer-Lite, an efficient variant that employs an Object-Centric Infusion module to pre-fuse global context into object tokens. This yields a lightweight Object-Only Framework that substantially reduces computational cost while maintaining high semantic fidelity. To facilitate fine-grained instruction tuning, we curate PixelRefer-2.2M, a high-quality object-centric instruction dataset. Extensive experiments across a range of benchmarks validate that PixelRefer achieves leading performance with fewer training samples, while PixelRefer-Lite offers competitive accuracy with notable gains in efficiency.
- Abstract(参考訳): マルチモーダル大規模言語モデル(MLLM)は、オープンワールドの視覚的理解において、強力な汎用性を示している。
しかしながら、既存のMLLMの多くは、主に全体論的、シーンレベルの理解に焦点を当てており、しばしば細粒度でオブジェクト中心の推論の必要性を見落としている。
本稿では,画像とビデオの両方にわたるユーザ指定領域について,より詳細な理解を可能にする,統一された領域レベルのMLLMフレームワークであるPixelReferを提案する。
LLMの注目がオブジェクトレベルのトークンに主に焦点をあてているという観測に触発されて、自由形式の領域からコンパクトで意味的にリッチなオブジェクト表現を生成するためのSAOT(Scale-Adaptive Object Tokenizer)を提案する。
我々の分析によると、グローバルな視覚トークンは、主に初期のLCM層に寄与し、グローバルなコンテキストをオブジェクトトークンにプリフューズするためにObject-Centric Infusionモジュールを使用する効率的な変種であるPixelRefer-Liteの設計を刺激している。
これにより軽量なObject-Only Frameworkが実現され、高いセマンティック忠実性を維持しながら計算コストを大幅に削減する。
微粒な命令チューニングを容易にするため,高品質なオブジェクト中心命令データセットであるPixelRefer-2.2Mをキュレートする。
さまざまなベンチマークにわたる大規模な実験では、PixelReferがトレーニングサンプルを減らしてリードパフォーマンスを達成しているのに対して、PixelRefer-Liteは競争精度と効率の顕著な向上を実現している。
関連論文リスト
- FineRS: Fine-grained Reasoning and Segmentation of Small Objects with Reinforcement Learning [62.11389260206383]
textscFineRSは、非常に小さなオブジェクトをセグメント化するための2段階のMLLMベースの強化学習フレームワークである。
textscFineRS-4kは,属性レベルの推論に基づくMLLMの評価と,微妙で小規模なターゲットに対する画素レベルのセグメンテーションのための新しいデータセットである。
論文 参考訳(メタデータ) (2025-10-24T10:14:17Z) - ARGenSeg: Image Segmentation with Autoregressive Image Generation Model [46.837184955843355]
本稿では,ARGenSeg(AutoRegressive Generation-based paradigm for image)を提案する。
提案手法は,複数のセグメンテーションデータセットに対する従来手法を超越し,推論速度を著しく向上させる。
論文 参考訳(メタデータ) (2025-10-23T17:58:26Z) - UniPixel: Unified Object Referring and Segmentation for Pixel-Level Visual Reasoning [83.68366772745689]
視覚的なプロンプト入力を柔軟に解釈し,マスクによる応答を生成できる大規模マルチモーダルモデルUniPixelを提案する。
具体的には、UniPixelは、要求に応じて視覚的なプロンプトを処理し、関連するマスクを生成し、推論中にこれらの中間ポインタに対してその後の推論条件を実行する。
提案手法の有効性は,画素レベルの参照/セグメンテーションや画像・ビデオにおけるオブジェクト中心の理解など,多種多様なタスクを対象とした10のベンチマークで検証されている。
論文 参考訳(メタデータ) (2025-09-22T17:59:40Z) - EagleVision: Object-level Attribute Multimodal LLM for Remote Sensing [3.3072144045024396]
EagleVisionは、オブジェクトの検出と属性の理解に優れるリモートセンシング用に設計されたMLLMである。
EVAttrs-95Kは、命令チューニングのためのRSにおいて、最初の大規模オブジェクト属性理解データセットである。
EagleVisionは、細粒度オブジェクト検出とオブジェクト属性理解タスクの両方で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-03-30T06:13:13Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。