論文の概要: Towards Robust Referring Image Segmentation
- arxiv url: http://arxiv.org/abs/2209.09554v2
- Date: Sun, 23 Jul 2023 10:27:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-26 00:50:42.487004
- Title: Towards Robust Referring Image Segmentation
- Title(参考訳): 画像セグメンテーションのロバスト化に向けて
- Authors: Jianzong Wu, Xiangtai Li, Xia Li, Henghui Ding, Yunhai Tong, Dacheng
Tao
- Abstract要約: Referring Image (RIS)は、テキスト記述に基づいてオブジェクトマスクを出力する基本的な視覚言語タスクである。
我々はロバスト参照画像(R-RIS)というRISの新しい定式化を提案する。
既存のRISデータセットを負の文で拡張することで、3つのR-RISデータセットを作成します。
本稿では,トークンベースのビジョンと言語融合モジュールを備えた,RefSegformerと呼ばれるトランスフォーマーベースのモデルを提案する。
- 参考スコア(独自算出の注目度): 80.53860642199412
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring Image Segmentation (RIS) is a fundamental vision-language task that
outputs object masks based on text descriptions. Many works have achieved
considerable progress for RIS, including different fusion method designs. In
this work, we explore an essential question, ``What if the text description is
wrong or misleading?'' For example, the described objects are not in the image.
We term such a sentence as a negative sentence. However, existing solutions for
RIS cannot handle such a setting. To this end, we propose a new formulation of
RIS, named Robust Referring Image Segmentation (R-RIS). It considers the
negative sentence inputs besides the regular positive text inputs. To
facilitate this new task, we create three R-RIS datasets by augmenting existing
RIS datasets with negative sentences and propose new metrics to evaluate both
types of inputs in a unified manner. Furthermore, we propose a new
transformer-based model, called RefSegformer, with a token-based vision and
language fusion module. Our design can be easily extended to our R-RIS setting
by adding extra blank tokens. Our proposed RefSegformer achieves
state-of-the-art results on both RIS and R-RIS datasets, establishing a solid
baseline for both settings. Our project page is at
\url{https://github.com/jianzongwu/robust-ref-seg}.
- Abstract(参考訳): Referring Image Segmentation (RIS)は、テキスト記述に基づいてオブジェクトマスクを出力する基本的な視覚言語タスクである。
様々な融合法の設計を含む多くの研究がRISでかなりの進歩を遂げた。
本研究では,「もしテキスト記述が間違っていたり誤解を招いたりしたらどうするか」という本質的な質問を探索する。
私たちはそのような文を否定的な文と呼ぶ。
しかし、RISの既存のソリューションはそのような設定を扱えない。
この目的のために,ロバスト参照画像セグメンテーション (R-RIS) という新しいRISの定式化を提案する。
正のテキスト入力以外に負の文入力も考慮している。
この新しいタスクを容易にするために,既存のrisデータセットを負の文で拡張し,両方の入力を統一的に評価するための新しい指標を提案する。
さらに,トークンベースのビジョンと言語融合モジュールを備えたRefSegformerと呼ばれるトランスフォーマーモデルを提案する。
我々の設計は、余分な空白トークンを追加することでR-RIS設定に容易に拡張できる。
提案したRefSegformerは、RISとR-RISの両方のデータセットで最先端の結果を達成し、両方の設定にしっかりとしたベースラインを確立する。
プロジェクトページは \url{https://github.com/jianzongwu/robust-ref-seg} にある。
関連論文リスト
- iSEARLE: Improving Textual Inversion for Zero-Shot Composed Image Retrieval [26.101116761577796]
Composed Image Retrieval (CIR) は、相対キャプションに指定された変化を取り入れつつ、参照画像と視覚的に類似したターゲット画像を検索することを目的としている。
ラベル付きトレーニングデータセットを必要とせずにCIRに対処する新しいタスクであるZero-Shot CIR(ZS-CIR)を導入する。
CIRCOと呼ばれるオープンドメインベンチマークデータセットを提示し、各クエリに複数の基底真理とセマンティック分類をラベル付けする。
論文 参考訳(メタデータ) (2024-05-05T14:39:06Z) - Vision-by-Language for Training-Free Compositional Image Retrieval [78.60509831598745]
合成画像検索(CIR)は、データベース内の関連する対象画像を検索することを目的としている。
大規模視覚言語モデル(VLM)を用いた最近の研究動向
我々は、CIReVL(Vision-by-Language)による学習自由なCIRへの取り組みを提案する。
論文 参考訳(メタデータ) (2023-10-13T17:59:38Z) - Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。
本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。
提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文 参考訳(メタデータ) (2023-10-09T07:31:44Z) - Towards Complex-query Referring Image Segmentation: A Novel Benchmark [42.263084522244796]
複雑なクエリ、すなわち textbfRIS-CQ を用いた新しい RIS ベンチマークを提案する。
RIS-CQデータセットは高品質で大規模であり、リッチで具体的で情報に富んだクエリで既存のRISに挑戦する。
マルチモーダリティグラフアライメントモデル(textbftextscDuMoGa)と呼ばれる,RIS-CQをよりよく扱うニッチターゲット方式を提案する。
論文 参考訳(メタデータ) (2023-09-29T12:58:13Z) - Referring Image Segmentation Using Text Supervision [44.27304699305985]
既存の参照画像(RIS)メソッドは、監視のために高価なピクセルレベルまたはボックスレベルのアノテーションを必要とするのが一般的である。
本稿では,対象の局所化問題を分類プロセスとして定式化するための,弱教師付きRISフレームワークを提案する。
我々のフレームワークは、既存の完全教師付きRISメソッドに対して有望な性能を達成しつつ、関連する領域から適応した最先端の弱教師付き手法より優れた性能を実現している。
論文 参考訳(メタデータ) (2023-08-28T13:40:47Z) - Noisy-Correspondence Learning for Text-to-Image Person Re-identification [50.07634676709067]
本稿では,雑音対応においても頑健な視覚関係を学習するための新しいロバスト二重埋め込み法(RDE)を提案する。
提案手法は,3つのデータセット上での合成ノイズ対応と非合成ノイズ対応を両立させる。
論文 参考訳(メタデータ) (2023-08-19T05:34:13Z) - Pic2Word: Mapping Pictures to Words for Zero-shot Composed Image
Retrieval [84.11127588805138]
Composed Image Retrieval (CIR)は、クエリイメージとテキストを組み合わせて、対象とするターゲットを記述する。
既存の方法は、クエリ画像、テキスト仕様、ターゲット画像からなるラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。
我々は,ラベル付き三重項学習を必要とせずにCIRモデルを構築することを目的として,Zero-Shot Composed Image Retrieval (ZS-CIR)を提案する。
論文 参考訳(メタデータ) (2023-02-06T19:40:04Z) - BOSS: Bottom-up Cross-modal Semantic Composition with Hybrid
Counterfactual Training for Robust Content-based Image Retrieval [61.803481264081036]
CIR(Content-Based Image Retrieval)は,サンプル画像と補完テキストの合成を同時に解釈することで,対象画像の検索を目的とする。
本稿では,新しいアンダーラインtextbfBottom-up crunderlinetextbfOss-modal underlinetextbfSemantic compounderlinetextbfSition (textbfBOSS) とHybrid Counterfactual Training frameworkを用いてこの問題に取り組む。
論文 参考訳(メタデータ) (2022-07-09T07:14:44Z) - Towards Robust Referring Video Object Segmentation with Cyclic
Relational Consensus [42.14174599341824]
Referring Video Object (R-VOS) は、言語表現に基づくビデオ内のオブジェクトのセグメンテーションを目的とした課題である。
既存のほとんどのR-VOSメソッドは重要な仮定を持ち、参照されるオブジェクトはビデオに表示されなければならない。
本研究では,意味的ミスマッチを扱えるロバストなR-VOSモデルの必要性を強調した。
論文 参考訳(メタデータ) (2022-07-04T05:08:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。