論文の概要: Unveiling Parts Beyond Objects:Towards Finer-Granularity Referring Expression Segmentation
- arxiv url: http://arxiv.org/abs/2312.08007v2
- Date: Thu, 21 Mar 2024 09:09:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 19:27:29.697889
- Title: Unveiling Parts Beyond Objects:Towards Finer-Granularity Referring Expression Segmentation
- Title(参考訳): 対象以外の部分の発見:表現のセグメンテーションを考慮に入れたFiner-Granularity
- Authors: Wenxuan Wang, Tongtian Yue, Yisi Zhang, Longteng Guo, Xingjian He, Xinlong Wang, Jing Liu,
- Abstract要約: MRES-32Mは、32.2M以上の高品質のマスクとキャプションから構成される。
さらに、UniRESという名前のシンプルな強力なモデルは、統一されたオブジェクトレベルと部分レベルグラウンドタスクを達成するように設計されている。
- 参考スコア(独自算出の注目度): 38.0788558329856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring expression segmentation (RES) aims at segmenting the foreground masks of the entities that match the descriptive natural language expression. Previous datasets and methods for classic RES task heavily rely on the prior assumption that one expression must refer to object-level targets. In this paper, we take a step further to finer-grained part-level RES task. To promote the object-level RES task towards finer-grained vision-language understanding, we put forward a new multi-granularity referring expression segmentation (MRES) task and construct an evaluation benchmark called RefCOCOm by manual annotations. By employing our automatic model-assisted data engine, we build the largest visual grounding dataset namely MRES-32M, which comprises over 32.2M high-quality masks and captions on the provided 1M images. Besides, a simple yet strong model named UniRES is designed to accomplish the unified object-level and part-level grounding task. Extensive experiments on our RefCOCOm for MRES and three datasets (i.e., RefCOCO(+/g) for classic RES task demonstrate the superiority of our method over previous state-of-the-art methods. To foster future research into fine-grained visual grounding, our benchmark RefCOCOm, the MRES-32M dataset and model UniRES will be publicly available at https://github.com/Rubics-Xuan/MRES
- Abstract(参考訳): Referring Expression segmentation (RES)は、記述的な自然言語表現にマッチするエンティティの前景マスクのセグメンテーションを目的としている。
従来のRESタスクのデータセットとメソッドは、1つの式がオブジェクトレベルのターゲットを参照しなければならないという前提に大きく依存しています。
本稿では、よりきめ細かい部分レベルRESタスクをさらに進める。
より粒度の細かい視覚言語理解に向けて,オブジェクトレベルのRESタスクを促進するため,MRESタスクを新たに提案し,手動アノテーションによるRefCOCOmと呼ばれる評価ベンチマークを構築した。
自動モデル支援データエンジンを用いることで、提供された1M画像の32.2M以上の高品質マスクとキャプションを含む、最大の視覚的グラウンドデータセットであるMRES-32Mを構築した。
さらに、UniRESという名前のシンプルな強力なモデルは、統一されたオブジェクトレベルと部分レベルグラウンドタスクを達成するように設計されている。
MRESのためのRefCOCOmと古典的なRESタスクのための3つのデータセット(RefCOCO(+/g))に関する大規模な実験は、従来の最先端手法よりも、我々の手法の優位性を実証している。
私たちのベンチマークであるRefCOCOm、MRES-32Mデータセット、モデルUniRESは、将来の詳細なビジュアルグラウンドの研究を促進するためにhttps://github.com/Rubics-Xuan/MRESで公開されます。
関連論文リスト
- SafaRi:Adaptive Sequence Transformer for Weakly Supervised Referring Expression Segmentation [11.243400478302771]
Referring Expression Consistency (RES) は、テキストによって参照される画像において、対象オブジェクトのセグメンテーションマスクを提供することを目的としている。
アルゴリズムの革新を取り入れたRESのための弱教師付きブートストラップアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-07-02T16:02:25Z) - SAM as the Guide: Mastering Pseudo-Label Refinement in Semi-Supervised Referring Expression Segmentation [66.92696817276288]
SemiRESは、RESを実行するためにラベル付きデータとラベルなしデータの組み合わせを効果的に活用する半教師付きフレームワークである。
SemiRESはSegment Anything Model (SAM) を組み込んでいる。
利用可能な候補と正確なマスクが一致しない場合、Pixel-Wise Adjustment(PWA)戦略を開発する。
論文 参考訳(メタデータ) (2024-06-03T15:42:30Z) - Bring Adaptive Binding Prototypes to Generalized Referring Expression Segmentation [18.806738617249426]
Generalized Referring Expressionは、複数のオブジェクトを記述したり、特定のオブジェクト参照を欠いたりすることで、新しい課題を導入する。
既存のRESメソッドは通常、洗練されたエンコーダデコーダと機能融合モジュールに依存している。
本稿では,適応結合型モデル (MABP) を提案する。
論文 参考訳(メタデータ) (2024-05-24T03:07:38Z) - RESMatch: Referring Expression Segmentation in a Semi-Supervised Manner [16.280644319404946]
Referring Expression segmentation (RES)は、自由形式の言語記述に基づいて特定のインスタンスレベルのオブジェクトをローカライズするタスクである。
本稿では、データアノテーションへの依存を減らすことを目的とした、RESのための最初の半教師付き学習(SSL)アプローチであるRESMatchを紹介する。
論文 参考訳(メタデータ) (2024-02-08T11:40:50Z) - GSVA: Generalized Segmentation via Multimodal Large Language Models [72.57095903188922]
Generalized Referring Expression (GRES)は、従来のRESの範囲を拡張して、1つの式で複数のオブジェクトを参照したり、画像に存在しない空のターゲットを特定する。
セグメンテーションMLLMは、ユーザが特定のプロンプトで複数の主題を参照するケースを正しく扱えないため、現在のGRESの解決策は満足できないままである。
本稿では,このギャップに対処する汎用ビジョンアシスタント(GSVA)を提案する。
論文 参考訳(メタデータ) (2023-12-15T02:54:31Z) - Towards Omni-supervised Referring Expression Segmentation [36.0543534772681]
Referring Expression (RES) はコンピュータビジョンにおける新たなタスクであり、テキスト記述に基づいてターゲットインスタンスを画像に分割する。
Omni-supervised Referring Expression (Omni-RES) と呼ばれるRESの新しい学習課題を提案する。
論文 参考訳(メタデータ) (2023-11-01T09:46:59Z) - GRES: Generalized Referring Expression Segmentation [32.12725360752345]
一般化参照式(Generalized Referring Expression, GRES)と呼ばれる新しいベンチマークを導入する。
GRESは、任意の数のターゲットオブジェクトを参照することができる。
我々は,マルチターゲット,ノーターゲット,シングルターゲット表現を含むgRefCOCOと呼ばれる,最初の大規模GRESデータセットを構築した。
論文 参考訳(メタデータ) (2023-06-01T17:57:32Z) - Fully and Weakly Supervised Referring Expression Segmentation with
End-to-End Learning [50.40482222266927]
Referring Expression(RES)は、与えられた言語表現に従ってターゲットをローカライズし、セグメンテーションすることを目的としている。
そこで我々は,カーネル分割パイプラインを並列に構築し,より分離し,局所化とセグメント化のステップと相互作用する。
我々の手法は単純だが驚くほど効果的であり、完全に教師された設定と弱い設定において、従来の最先端のRES手法よりも優れている。
論文 参考訳(メタデータ) (2022-12-17T08:29:33Z) - Locate then Segment: A Strong Pipeline for Referring Image Segmentation [73.19139431806853]
参照画像セグメンテーションは、自然言語表現によって参照されるオブジェクトをセグメンテーションすることを目的とする。
従来の方法は、視覚言語機能を融合させ、最終的なセグメンテーションマスクを直接生成するための暗黙的および反復的な相互作用メカニズムの設計に焦点を当てています。
これらの問題に取り組むための「Then-Then-Segment」スキームを紹介します。
私たちのフレームワークはシンプルですが驚くほど効果的です。
論文 参考訳(メタデータ) (2021-03-30T12:25:27Z) - Multi-task Collaborative Network for Joint Referring Expression
Comprehension and Segmentation [135.67558811281984]
表現理解(REC)とセグメンテーション(RES)を併用した共同学習を実現するための新しいマルチタスク協調ネットワーク(MCN)を提案する。
MCNでは、RESはRECがよりよい言語ビジョンアライメントを達成するのに役立ち、RECはRESが参照者を見つけるのに役立ちます。
我々は,このマルチタスク・セットアップにおいて,一貫性エネルギー最大化 (Consistency Energy Maximization, CEM) と適応ソフト非局所抑制 (Adaptive Soft Non-Located Suppression, ASNLS) という2つのイノベーティブな設計による予測競合という重要な課題に対処する。
論文 参考訳(メタデータ) (2020-03-19T14:25:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。