論文の概要: Advancing Referring Expression Segmentation Beyond Single Image
- arxiv url: http://arxiv.org/abs/2305.12452v1
- Date: Sun, 21 May 2023 13:14:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 20:25:06.226188
- Title: Advancing Referring Expression Segmentation Beyond Single Image
- Title(参考訳): 単体画像を超えた表現セグメンテーションの促進
- Authors: Yixuan Wu, Zhao Zhang, Xie Chi, Feng Zhu, Rui Zhao
- Abstract要約: GRES(Group-wise Referring Expression)という,より現実的で一般的な設定を提案する。
GRESは関連する画像のコレクションに拡張され、記述されたオブジェクトが入力された画像のサブセットに存在するようになる。
与えられた表現によって記述された対象オブジェクトの完全なグループワイドアノテーションを含むGRD(Grouped Referring)という,精巧にコンパイルされたデータセットを紹介した。
- 参考スコア(独自算出の注目度): 12.234097959235417
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring Expression Segmentation (RES) is a widely explored multi-modal
task, which endeavors to segment the pre-existing object within a single image
with a given linguistic expression. However, in broader real-world scenarios,
it is not always possible to determine if the described object exists in a
specific image. Typically, we have a collection of images, some of which may
contain the described objects. The current RES setting curbs its practicality
in such situations. To overcome this limitation, we propose a more realistic
and general setting, named Group-wise Referring Expression Segmentation (GRES),
which expands RES to a collection of related images, allowing the described
objects to be present in a subset of input images. To support this new setting,
we introduce an elaborately compiled dataset named Grouped Referring Dataset
(GRD), containing complete group-wise annotations of target objects described
by given expressions. We also present a baseline method named Grouped Referring
Segmenter (GRSer), which explicitly captures the language-vision and
intra-group vision-vision interactions to achieve state-of-the-art results on
the proposed GRES and related tasks, such as Co-Salient Object Detection and
RES. Our dataset and codes will be publicly released in
https://github.com/yixuan730/group-res.
- Abstract(参考訳): Referring Expression Segmentation (RES) は広く研究されているマルチモーダルタスクであり、既存のオブジェクトを与えられた言語表現で単一の画像に分割する試みである。
しかし、より広い現実世界のシナリオでは、記述されたオブジェクトが特定の画像に存在するかどうかを常に判断することは不可能である。
通常、イメージのコレクションがあり、いくつかは記述されたオブジェクトを含んでいます。
現在のRES設定は、そのような状況における実用性を抑制する。
この制限を克服するために、resを関連する画像の集合に拡張し、記述されたオブジェクトを入力画像のサブセットに表示できるようにする、よりリアルで一般的な設定であるgroup-wise reference expression segmentation(gres)を提案する。
この新しい設定をサポートするために、与えられた式で記述された対象オブジェクトの完全なグループ的アノテーションを含む、grouped reference dataset(grd)という精巧にコンパイルされたデータセットを紹介します。
また,grser(grouped reference segmenter)というベースライン手法を提案する。これは言語ビジョンとグループ内ビジョンのインタラクションを明示的に捉えて,提案するgrserと関連するタスク,例えば協調オブジェクト検出やresの最先端の結果を得る。
データセットとコードはhttps://github.com/yixuan730/group-resで公開されます。
関連論文リスト
- Instance-Aware Generalized Referring Expression Segmentation [32.96760407482406]
InstAlignは、セグメンテーションプロセスにオブジェクトレベルの推論を組み込むメソッドである。
提案手法は最先端性能を著しく向上させ, 高精度かつ柔軟なGRESのための新しい標準を設定した。
論文 参考訳(メタデータ) (2024-11-22T17:28:43Z) - GSVA: Generalized Segmentation via Multimodal Large Language Models [72.57095903188922]
Generalized Referring Expression (GRES)は、従来のRESの範囲を拡張して、1つの式で複数のオブジェクトを参照したり、画像に存在しない空のターゲットを特定する。
セグメンテーションMLLMは、ユーザが特定のプロンプトで複数の主題を参照するケースを正しく扱えないため、現在のGRESの解決策は満足できないままである。
本稿では,このギャップに対処する汎用ビジョンアシスタント(GSVA)を提案する。
論文 参考訳(メタデータ) (2023-12-15T02:54:31Z) - Grounding Everything: Emerging Localization Properties in
Vision-Language Transformers [51.260510447308306]
事前学習された視覚言語(VL)モデルでは、微調整なしでゼロショットのオープン語彙オブジェクトローカライゼーションが可能であることを示す。
本稿では,CLIPSurgeryが自己注意経路に導入した価値価値注意の考え方を一般化するグラウンドング・エコノミクス・モジュール(GEM)を提案する。
セマンティックセグメンテーションのための様々なベンチマークタスクとデータセットに基づいて提案したGEMフレームワークを評価する。
論文 参考訳(メタデータ) (2023-12-01T19:06:12Z) - Beyond One-to-One: Rethinking the Referring Image Segmentation [117.53010476628029]
イメージセグメンテーションの参照は、自然言語表現によって参照される対象オブジェクトをセグメンテーションすることを目的としている。
2つのデコーダ分岐を含むDMMI(Dual Multi-Modal Interaction)ネットワークを提案する。
テキスト・ツー・イメージ・デコーダでは、テキストの埋め込みを利用して視覚的特徴を検索し、対応するターゲットをローカライズする。
一方、画像からテキストへのデコーダは、視覚的特徴に条件付けられた消去されたエンティティ・フレーズを再構成するために実装される。
論文 参考訳(メタデータ) (2023-08-26T11:39:22Z) - RRSIS: Referring Remote Sensing Image Segmentation [25.538406069768662]
リモートセンシング画像から所望のオブジェクトをローカライズすることは、実用的な用途において非常に有用である。
与えられた表現が参照する対象を分割することを目的とした画像分割の参照は、自然画像において広範囲に研究されている。
本稿では、このギャップを埋めるため、リモートセンシング画像セグメンテーション(RRSIS)を紹介し、洞察に富んだ探索を行う。
論文 参考訳(メタデータ) (2023-06-14T16:40:19Z) - Referring Camouflaged Object Detection [97.90911862979355]
Ref-COD は、特定のカモフラージュされたオブジェクトを、サルエントターゲットオブジェクトによる参照画像の小さなセットに基づいて分割することを目的としている。
R2C7Kと呼ばれる大規模なデータセットは、実世界のシナリオで64のオブジェクトカテゴリをカバーする7Kイメージで構成されています。
論文 参考訳(メタデータ) (2023-06-13T04:15:37Z) - GRES: Generalized Referring Expression Segmentation [32.12725360752345]
一般化参照式(Generalized Referring Expression, GRES)と呼ばれる新しいベンチマークを導入する。
GRESは、任意の数のターゲットオブジェクトを参照することができる。
我々は,マルチターゲット,ノーターゲット,シングルターゲット表現を含むgRefCOCOと呼ばれる,最初の大規模GRESデータセットを構築した。
論文 参考訳(メタデータ) (2023-06-01T17:57:32Z) - Locate then Segment: A Strong Pipeline for Referring Image Segmentation [73.19139431806853]
参照画像セグメンテーションは、自然言語表現によって参照されるオブジェクトをセグメンテーションすることを目的とする。
従来の方法は、視覚言語機能を融合させ、最終的なセグメンテーションマスクを直接生成するための暗黙的および反復的な相互作用メカニズムの設計に焦点を当てています。
これらの問題に取り組むための「Then-Then-Segment」スキームを紹介します。
私たちのフレームワークはシンプルですが驚くほど効果的です。
論文 参考訳(メタデータ) (2021-03-30T12:25:27Z) - PhraseCut: Language-based Image Segmentation in the Wild [62.643450401286]
自然言語のフレーズを与えられた画像領域を分割する問題について考察する。
私たちのデータセットは、Visual Genomeデータセットの上に収集されます。
我々の実験は、我々のデータセットにおける概念のスケールと多様性が、既存の最先端技術に重大な課題をもたらすことを示している。
論文 参考訳(メタデータ) (2020-08-03T20:58:53Z) - Context-Aware Group Captioning via Self-Attention and Contrastive
Features [31.94715153491951]
本稿では,他の参照画像のコンテキスト内で対象画像のグループを記述することを目的とした,コンテキスト対応型グループキャプションを提案する。
そこで本研究では,自己認識機構とコントラスト的特徴構成を組み合わせたフレームワークを提案する。
私たちのデータセットは、パブリックなConceptual Captionsデータセットと、新しいStock Captionsデータセットの上に構築されています。
論文 参考訳(メタデータ) (2020-04-07T20:59:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。