論文の概要: Towards Unified Referring Expression Segmentation Across Omni-Level Visual Target Granularities
- arxiv url: http://arxiv.org/abs/2504.01954v1
- Date: Wed, 02 Apr 2025 17:58:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:21:11.372261
- Title: Towards Unified Referring Expression Segmentation Across Omni-Level Visual Target Granularities
- Title(参考訳): Omni-Level Visual Target Granularities における参照表現の統一化に向けて
- Authors: Jing Liu, Wenxuan Wang, Yisi Zhang, Yepeng Tang, Xingjian He, Longteng Guo, Tongtian Yue, Xinlong Wang,
- Abstract要約: Referring Expression segmentation (RES) は、記述言語表現にマッチするエンティティのマスクをセグメンテーションすることを目的としている。
従来のRESメソッドは、主にオブジェクトレベルのグラウンドに対処する。
現実のシナリオは、複数のレベルのターゲットの粒度を扱うことができる、より汎用的なフレームワークを必要とします。
オブジェクトレベルと部分レベルのRESタスクを統合した,統合型マルチモーダル大規模言語モデルUniRES++を提案する。
- 参考スコア(独自算出の注目度): 36.506512800685066
- License:
- Abstract: Referring expression segmentation (RES) aims at segmenting the entities' masks that match the descriptive language expression. While traditional RES methods primarily address object-level grounding, real-world scenarios demand a more versatile framework that can handle multiple levels of target granularity, such as multi-object, single object or part-level references. This introduces great challenges due to the diverse and nuanced ways users describe targets. However, existing datasets and models mainly focus on designing grounding specialists for object-level target localization, lacking the necessary data resources and unified frameworks for the more practical multi-grained RES. In this paper, we take a step further towards visual granularity unified RES task. To overcome the limitation of data scarcity, we introduce a new multi-granularity referring expression segmentation (MRES) task, alongside the RefCOCOm benchmark, which includes part-level annotations for advancing finer-grained visual understanding. In addition, we create MRES-32M, the largest visual grounding dataset, comprising over 32.2M masks and captions across 1M images, specifically designed for part-level vision-language grounding. To tackle the challenges of multi-granularity RES, we propose UniRES++, a unified multimodal large language model that integrates object-level and part-level RES tasks. UniRES++ incorporates targeted designs for fine-grained visual feature exploration. With the joint model architecture and parameters, UniRES++ achieves state-of-the-art performance across multiple benchmarks, including RefCOCOm for MRES, gRefCOCO for generalized RES, and RefCOCO, RefCOCO+, RefCOCOg for classic RES. To foster future research into multi-grained visual grounding, our RefCOCOm benchmark, MRES-32M dataset and model UniRES++ will be publicly available at https://github.com/Rubics-Xuan/MRES.
- Abstract(参考訳): Referring Expression segmentation (RES) は、記述言語表現にマッチするエンティティのマスクをセグメンテーションすることを目的としている。
従来のRESメソッドは主にオブジェクトレベルのグラウンド化に対処するが、現実のシナリオでは、マルチオブジェクト、単一オブジェクト、または部分レベルの参照など、複数のレベルのターゲット粒度を処理できる、より汎用的なフレームワークを必要としている。
これは、ユーザがターゲットを説明する多様でニュアンスに富んだ方法によって、大きな課題がもたらされる。
しかし、既存のデータセットとモデルは、主にオブジェクトレベルのターゲットローカライゼーションのための基盤となるスペシャリストを設計することに焦点を当てており、より実用的なマルチグラデーションRESに必要なデータリソースと統合フレームワークが欠如している。
本稿では,視覚的粒度統合 RES タスクに向けて一歩前進する。
データ不足の限界を克服するため、よりきめ細かい視覚的理解を促進するための部分レベルのアノテーションを含むRefCOCOmベンチマークとともに、新しいマルチグラニュラリティ参照表現セグメンテーション(MRES)タスクを導入する。
さらに、MRES-32Mは最大で、32.2Mのマスクと100万枚以上の画像のキャプションから構成される。
マルチグラニュラリティRESの課題に対処するため、オブジェクトレベルと部分レベルRESタスクを統合した統一型マルチモーダル大規模言語モデルUniRES++を提案する。
UniRES++は、きめ細かい視覚的特徴探索のためのターゲットデザインを組み込んでいる。
ジョイントモデルアーキテクチャとパラメータにより、UniRES++は、MRESのRefCOCOm、一般化RESのgRefCOCO、RefCOCO+、古典RESのRefCOCOgなど、複数のベンチマークで最先端のパフォーマンスを実現している。
RefCOCOmベンチマーク、MRES-32Mデータセット、モデル UniRES++ の今後の研究を促進するため、https://github.com/Rubics-Xuan/MRES で公開される予定である。
関連論文リスト
- Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - CoHD: A Counting-Aware Hierarchical Decoding Framework for Generalized Referring Expression Segmentation [37.96005100341482]
Generalized Referring Expression (GRES)は、複雑な多重/非ターゲットシナリオを含むことによって、古典的なRESの定式化を増幅する。
近年のアプローチでは、オブジェクト指向の識別により、よく認識されたRESフレームワークを直接拡張することで、GRESに対処している。
GRESのための textbfCounting-Aware textbfHierarchical textbfDecoding framework (CoHD) を提案する。
論文 参考訳(メタデータ) (2024-05-24T15:53:59Z) - Bring Adaptive Binding Prototypes to Generalized Referring Expression Segmentation [18.806738617249426]
Generalized Referring Expressionは、複数のオブジェクトを記述したり、特定のオブジェクト参照を欠いたりすることで、新しい課題を導入する。
既存のRESメソッドは通常、洗練されたエンコーダデコーダと機能融合モジュールに依存している。
本稿では,適応結合型モデル (MABP) を提案する。
論文 参考訳(メタデータ) (2024-05-24T03:07:38Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - UniRef++: Segment Every Reference Object in Spatial and Temporal Spaces [92.52589788633856]
単一のアーキテクチャで4つの参照ベースのオブジェクトセグメンテーションタスクを統合するために、UniRef++を提案する。
統一された設計により、UniRef++は幅広いベンチマークで共同でトレーニングすることができ、実行時に柔軟に複数のタスクを完了させることができる。
提案する UniRef++ は RIS と RVOS の最先端性能を実現し,パラメータ共有ネットワークを用いて FSS と VOS の競合性能を実現する。
論文 参考訳(メタデータ) (2023-12-25T12:54:11Z) - GSVA: Generalized Segmentation via Multimodal Large Language Models [72.57095903188922]
Generalized Referring Expression (GRES)は、従来のRESの範囲を拡張して、1つの式で複数のオブジェクトを参照したり、画像に存在しない空のターゲットを特定する。
セグメンテーションMLLMは、ユーザが特定のプロンプトで複数の主題を参照するケースを正しく扱えないため、現在のGRESの解決策は満足できないままである。
本稿では,このギャップに対処する汎用ビジョンアシスタント(GSVA)を提案する。
論文 参考訳(メタデータ) (2023-12-15T02:54:31Z) - Unveiling Parts Beyond Objects:Towards Finer-Granularity Referring Expression Segmentation [38.0788558329856]
MRES-32Mは、32.2M以上の高品質のマスクとキャプションから構成される。
さらに、UniRESという名前のシンプルな強力なモデルは、統一されたオブジェクトレベルと部分レベルグラウンドタスクを達成するように設計されている。
論文 参考訳(メタデータ) (2023-12-13T09:29:45Z) - GRES: Generalized Referring Expression Segmentation [32.12725360752345]
一般化参照式(Generalized Referring Expression, GRES)と呼ばれる新しいベンチマークを導入する。
GRESは、任意の数のターゲットオブジェクトを参照することができる。
我々は,マルチターゲット,ノーターゲット,シングルターゲット表現を含むgRefCOCOと呼ばれる,最初の大規模GRESデータセットを構築した。
論文 参考訳(メタデータ) (2023-06-01T17:57:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。