論文の概要: Improving Generalized Visual Grounding with Instance-aware Joint Learning
- arxiv url: http://arxiv.org/abs/2509.13747v1
- Date: Wed, 17 Sep 2025 07:00:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.746755
- Title: Improving Generalized Visual Grounding with Instance-aware Joint Learning
- Title(参考訳): インスタンス対応共同学習による一般化ビジュアルグラウンドの改善
- Authors: Ming Dai, Wenxuan Cheng, Jiang-Jiang Liu, Lingfeng Yang, Zhenhua Feng, Wankou Yang, Jingdong Wang,
- Abstract要約: 汎用的なビジュアルグラウンドタスクは、マルチターゲットおよび非ターゲットシナリオに対応するように設計されている。
本稿では,GRECとGRESの両方に対応するインスタンス認識機能を備えたフレームワークであるInstanceVGを提案する。
フレームワークをインスタンス化するために、各インスタンスクエリに事前参照ポイントを割り当てます。
- 参考スコア(独自算出の注目度): 45.53531162436934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalized visual grounding tasks, including Generalized Referring Expression Comprehension (GREC) and Segmentation (GRES), extend the classical visual grounding paradigm by accommodating multi-target and non-target scenarios. Specifically, GREC focuses on accurately identifying all referential objects at the coarse bounding box level, while GRES aims for achieve fine-grained pixel-level perception. However, existing approaches typically treat these tasks independently, overlooking the benefits of jointly training GREC and GRES to ensure consistent multi-granularity predictions and streamline the overall process. Moreover, current methods often treat GRES as a semantic segmentation task, neglecting the crucial role of instance-aware capabilities and the necessity of ensuring consistent predictions between instance-level boxes and masks. To address these limitations, we propose InstanceVG, a multi-task generalized visual grounding framework equipped with instance-aware capabilities, which leverages instance queries to unify the joint and consistency predictions of instance-level boxes and masks. To the best of our knowledge, InstanceVG is the first framework to simultaneously tackle both GREC and GRES while incorporating instance-aware capabilities into generalized visual grounding. To instantiate the framework, we assign each instance query a prior reference point, which also serves as an additional basis for target matching. This design facilitates consistent predictions of points, boxes, and masks for the same instance. Extensive experiments obtained on ten datasets across four tasks demonstrate that InstanceVG achieves state-of-the-art performance, significantly surpassing the existing methods in various evaluation metrics. The code and model will be publicly available at https://github.com/Dmmm1997/InstanceVG.
- Abstract(参考訳): Generalized Referring Expression Comprehension (GREC) や Segmentation (GRES) などの一般的な視覚的グラウンドタスクは、従来の視覚的グラウンドのパラダイムを拡張し、マルチターゲットシナリオと非ターゲットシナリオの調整を行う。
具体的には、GRECは、粗いバウンディングボックスレベルで全ての参照オブジェクトを正確に識別することに焦点を当て、GRESは細かいピクセルレベルの知覚を達成することを目的としている。
しかしながら、既存のアプローチは一般的にこれらのタスクを独立に扱い、GRECとGRESを共同でトレーニングし、一貫性のある多重粒度予測を保証し、全体のプロセスの合理化という利点を見越す。
さらに、現在のメソッドは、GRESをセマンティックセグメンテーションタスクとして扱い、インスタンス認識能力の重要な役割を無視し、インスタンスレベルのボックスとマスク間の一貫性のある予測を保証する必要がある。
これらの制約に対処するため,インスタンスレベルのボックスとマスクの結合と一貫性の予測を統合するために,インスタンスクエリを活用する,インスタンス認識機能を備えたマルチタスク汎用ビジュアルグラウンドディングフレームワークであるInstanceVGを提案する。
我々の知る限り、InstanceVGはGRECとGRESの両方に同時に対応し、インスタンス認識機能を一般化されたビジュアルグラウンドに組み込んだ最初のフレームワークです。
フレームワークをインスタンス化するために、各インスタンスクエリに事前参照ポイントを割り当てます。
この設計は、同じインスタンスに対してポイント、ボックス、マスクの一貫性のある予測を容易にする。
4つのタスクにわたる10のデータセットで得られた大規模な実験は、InstanceVGが最先端のパフォーマンスを達成し、さまざまな評価指標で既存のメソッドをはるかに上回っていることを示している。
コードとモデルはhttps://github.com/Dmmm1997/InstanceVG.comで公開される。
関連論文リスト
- Hierarchical Alignment-enhanced Adaptive Grounding Network for Generalized Referring Expression Comprehension [46.07415235144545]
一般参照表現(GREC)の課題に対処する。
既存のRECメソッドは、GRECで遭遇した複雑なケースを扱う際の課題に直面している。
階層的アライメント強化型適応グラウンドネットワーク(HieA2G)を提案する。
論文 参考訳(メタデータ) (2025-01-02T18:57:59Z) - General and Task-Oriented Video Segmentation [60.58054218592606]
GvSegは、4つの異なるビデオセグメンテーションタスクに対処するための一般的なビデオセグメンテーションフレームワークである。
GvSegはセグメントターゲットに対する全体論的アンタングルとモデリングを提供し、外観、位置、形状の観点からそれらを徹底的に検証する。
7つのゴールド標準ベンチマークデータセットに関する大規模な実験は、GvSegが既存の専門/一般のソリューションをすべて超越していることを示している。
論文 参考訳(メタデータ) (2024-07-09T04:21:38Z) - Adapting Pre-Trained Vision Models for Novel Instance Detection and Segmentation [15.414518995812754]
新たなインスタンス検出と計算(NIDS)は、新しいオブジェクトインスタンスを検出し、セグメンテーションすることを目的としている。
我々は、オブジェクトの提案生成、インスタンステンプレートと提案領域の両方の埋め込み生成、インスタンスラベル割り当ての埋め込みマッチングを含む統一的でシンプルで効果的なフレームワーク(NIDS-Net)を提案する。
論文 参考訳(メタデータ) (2024-05-28T06:16:57Z) - CoHD: A Counting-Aware Hierarchical Decoding Framework for Generalized Referring Expression Segmentation [37.96005100341482]
Generalized Referring Expression (GRES)は、複雑な多重/非ターゲットシナリオを含むことによって、古典的なRESの定式化を増幅する。
近年のアプローチでは、オブジェクト指向の識別により、よく認識されたRESフレームワークを直接拡張することで、GRESに対処している。
GRESのための textbfCounting-Aware textbfHierarchical textbfDecoding framework (CoHD) を提案する。
論文 参考訳(メタデータ) (2024-05-24T15:53:59Z) - MIGC: Multi-Instance Generation Controller for Text-to-Image Synthesis [22.27724733876081]
本稿では,複数のインスタンスを同時に生成するマルチインスタンス生成(MIG)タスクを提案する。
我々は、MIGタスクの課題に対処するために、MIGC(Multi-Instance Generation Controller)という革新的なアプローチを導入する。
MIGタスクにおける生成モデルの性能を評価するため、COCO-MIGベンチマークと評価パイプラインを提供する。
論文 参考訳(メタデータ) (2024-02-08T04:52:36Z) - Aligning and Prompting Everything All at Once for Universal Visual
Perception [79.96124061108728]
APEは、さまざまなタスクを実行するために、すべてのことを一度に調整し、促す、普遍的な視覚知覚モデルである。
APEは、言語誘導接地をオープン語彙検出として再構成することで、検出と接地の収束を推し進める。
160以上のデータセットの実験では、APEが最先端のモデルより優れていることが示されている。
論文 参考訳(メタデータ) (2023-12-04T18:59:50Z) - Universal Instance Perception as Object Discovery and Retrieval [90.96031157557806]
UNIは多様なインスタンス認識タスクを統一されたオブジェクト発見・検索パラダイムに再構成する。
入力プロンプトを変更するだけで、さまざまな種類のオブジェクトを柔軟に知覚することができる。
UNIは10のインスタンスレベルのタスクから20の挑戦的なベンチマークで優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-03-12T14:28:24Z) - Target-Aware Object Discovery and Association for Unsupervised Video
Multi-Object Segmentation [79.6596425920849]
本稿では,教師なしビデオマルチオブジェクトセグメンテーションの課題について述べる。
より正確で効率的な時間区分のための新しいアプローチを紹介します。
DAVIS$_17$とYouTube-VISに対する提案手法を評価した結果,セグメント化精度と推論速度の両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-04-10T14:39:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。