論文の概要: Beyond One-to-One: Rethinking the Referring Image Segmentation
- arxiv url: http://arxiv.org/abs/2308.13853v1
- Date: Sat, 26 Aug 2023 11:39:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 18:37:52.232523
- Title: Beyond One-to-One: Rethinking the Referring Image Segmentation
- Title(参考訳): ワンツーワンを超えて:参照するイメージセグメンテーションを再考する
- Authors: Yutao Hu, Qixiong Wang, Wenqi Shao, Enze Xie, Zhenguo Li, Jungong Han,
Ping Luo
- Abstract要約: イメージセグメンテーションの参照は、自然言語表現によって参照される対象オブジェクトをセグメンテーションすることを目的としている。
2つのデコーダ分岐を含むDMMI(Dual Multi-Modal Interaction)ネットワークを提案する。
テキスト・ツー・イメージ・デコーダでは、テキストの埋め込みを利用して視覚的特徴を検索し、対応するターゲットをローカライズする。
一方、画像からテキストへのデコーダは、視覚的特徴に条件付けられた消去されたエンティティ・フレーズを再構成するために実装される。
- 参考スコア(独自算出の注目度): 117.53010476628029
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Referring image segmentation aims to segment the target object referred by a
natural language expression. However, previous methods rely on the strong
assumption that one sentence must describe one target in the image, which is
often not the case in real-world applications. As a result, such methods fail
when the expressions refer to either no objects or multiple objects. In this
paper, we address this issue from two perspectives. First, we propose a Dual
Multi-Modal Interaction (DMMI) Network, which contains two decoder branches and
enables information flow in two directions. In the text-to-image decoder, text
embedding is utilized to query the visual feature and localize the
corresponding target. Meanwhile, the image-to-text decoder is implemented to
reconstruct the erased entity-phrase conditioned on the visual feature. In this
way, visual features are encouraged to contain the critical semantic
information about target entity, which supports the accurate segmentation in
the text-to-image decoder in turn. Secondly, we collect a new challenging but
realistic dataset called Ref-ZOM, which includes image-text pairs under
different settings. Extensive experiments demonstrate our method achieves
state-of-the-art performance on different datasets, and the Ref-ZOM-trained
model performs well on various types of text inputs. Codes and datasets are
available at https://github.com/toggle1995/RIS-DMMI.
- Abstract(参考訳): 参照画像分割は、自然言語表現で参照される対象オブジェクトを分割することを目的としている。
しかし、従来の手法は、1つの文が画像の1つのターゲットを記述する必要があるという強い仮定に頼っている。
その結果、そのようなメソッドは、式がオブジェクトや複数のオブジェクトを参照していない場合に失敗する。
本稿では,この問題を2つの観点から論じる。
まず,2つのデコーダ分岐を含む2方向の情報フローを実現するDMMI(Dual Multi-Modal Interaction)ネットワークを提案する。
テキストから画像へのデコーダでは、テキスト埋め込みを使用して視覚特徴をクエリし、対応するターゲットをローカライズする。
一方、画像からテキストへのデコーダを実装して、その視覚特徴に基づく消去されたエンティティ・フレーズを再構築する。
このように、視覚機能は、テキストから画像へのデコーダの正確なセグメンテーションをサポートするターゲットエンティティに関する重要な意味情報を含むことが推奨される。
次に、異なる設定下で画像テキストペアを含むRef-ZOMという、難しいが現実的なデータセットを収集します。
大規模な実験により,提案手法は異なるデータセット上での最先端性能を実証し,Ref-ZOM学習モデルは各種テキスト入力に対して良好に動作することを示した。
コードとデータセットはhttps://github.com/toggle1995/RIS-DMMIで公開されている。
関連論文リスト
- Instance-Aware Generalized Referring Expression Segmentation [32.96760407482406]
InstAlignは、セグメンテーションプロセスにオブジェクトレベルの推論を組み込むメソッドである。
提案手法は最先端性能を著しく向上させ, 高精度かつ柔軟なGRESのための新しい標準を設定した。
論文 参考訳(メタデータ) (2024-11-22T17:28:43Z) - Exploring Fine-Grained Image-Text Alignment for Referring Remote Sensing Image Segmentation [27.95875467352853]
本稿では,視覚的および言語的表現を完全に活用する新たな参照リモートセンシング画像分割手法であるFIANetを提案する。
提案した細粒度画像テキストアライメントモジュール(FIAM)は、入力画像と対応するテキストの特徴を同時に活用する。
本稿では,RefSegRSとRRSIS-Dを含む2つのリモートセンシングデータセットに対する提案手法の有効性を評価する。
論文 参考訳(メタデータ) (2024-09-20T16:45:32Z) - Knowledge-Enhanced Dual-stream Zero-shot Composed Image Retrieval [53.89454443114146]
本研究では,ゼロショット合成画像検索タスク(ZS-CIR)について検討した。
従来の作品では、参照画像の特徴をテキスト埋め込み空間に投影することで、擬似ワードトークンを生成する。
知識強化型デュアルストリームゼロショット合成画像検索フレームワーク(KEDs)を提案する。
KEDはデータベースを組み込むことで、参照画像の属性を暗黙的にモデル化する。
論文 参考訳(メタデータ) (2024-03-24T04:23:56Z) - Synchronizing Vision and Language: Bidirectional Token-Masking
AutoEncoder for Referring Image Segmentation [26.262887028563163]
Referring Image (RIS)は、自然言語で表現されたターゲットオブジェクトをピクセルレベルのシーン内でセグメントすることを目的としている。
マスク付きオートエンコーダ(MAE)に触発された新しい双方向トークンマスキングオートエンコーダ(BTMAE)を提案する。
BTMAEは、画像と言語の両方に欠けている機能をトークンレベルで再構築することで、画像から言語、言語へのイメージのコンテキストを学習する。
論文 参考訳(メタデータ) (2023-11-29T07:33:38Z) - Decompose Semantic Shifts for Composed Image Retrieval [38.262678009072154]
合成画像検索は、ユーザが参照画像を出発点として提供し、開始点から所望の目標画像へのシフト方法に関するテキストを指定する画像検索タスクの一種である。
本稿では,セマンティック・シフト・ネットワーク(SSN)を提案する。セマンティック・シフト・ネットワーク(SSN)は,セマンティック・シフトを,参照画像から視覚プロトタイプへ,視覚プロトタイプから対象画像へ,という2つのステップに明示的に分解する。
提案したSSNは、CIRRデータセットとFashionIQデータセットでそれぞれ5.42%と1.37%の大幅な改善を示し、新しい最先端のパフォーマンスを確立している。
論文 参考訳(メタデータ) (2023-09-18T07:21:30Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Two-stage Visual Cues Enhancement Network for Referring Image
Segmentation [89.49412325699537]
Referring Image (RIS)は、ある自然言語表現によって参照される画像から対象のオブジェクトをセグメント化することを目的としている。
本稿では,2段階のビジュアルキュー拡張ネットワーク(TV-Net)を考案し,この問題に対処する。
この2段階の強化により,提案するTV-Netは,自然言語表現と画像間のきめ細かいマッチング動作の学習において,より優れた性能を享受できる。
論文 参考訳(メタデータ) (2021-10-09T02:53:39Z) - MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding [40.24656027709833]
生のテキストクエリで条件付き画像中のオブジェクトを検出するエンドツーエンド変調検出器 MDETR を提案する。
モデルの初期段階で2つのモダリティを融合することにより,テキストと画像上で共同で推論を行うトランスフォーマティブアーキテクチャを用いる。
GQAおよびCLEVR上での競合性能を達成することで,視覚的質問応答を容易に拡張することができる。
論文 参考訳(メタデータ) (2021-04-26T17:55:33Z) - Context-Aware Layout to Image Generation with Enhanced Object Appearance [123.62597976732948]
レイアウト・トゥ・イメージ(l2i)生成モデルの目的は、自然背景(スタフ)に対して複数のオブジェクト(もの)を含む複雑な画像を生成することである。
既存のL2Iモデルは大きな進歩を遂げているが、オブジェクト間とオブジェクト間の関係はしばしば壊れている。
これらの原因は、ジェネレータにコンテキスト認識オブジェクトや機能エンコーディングがないことと、識別装置に位置依存の外観表現がないことにあります。
論文 参考訳(メタデータ) (2021-03-22T14:43:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。