論文の概要: Towards Robust Referring Image Segmentation
- arxiv url: http://arxiv.org/abs/2209.09554v1
- Date: Tue, 20 Sep 2022 08:48:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 18:35:33.820611
- Title: Towards Robust Referring Image Segmentation
- Title(参考訳): 画像セグメンテーションのロバスト化に向けて
- Authors: Jianzong Wu, Xiangtai Li, Xia Li, Henghui Ding, Yunhai Tong, Dacheng
Tao
- Abstract要約: Referring Image (RIS) は、テキスト記述を与えられた対応するオブジェクトマスクを出力することで、画像と言語を接続することを目的としている。
文章の記述が間違っていたり、文章の記述を誤解させたりした場合はどうだろうか?
本稿ではロバスト参照画像(R-RIS)というRISの新規な定式化を提案する。
入力負の文を増大させることにより,3つの異なるデータセットを提示する。
- 参考スコア(独自算出の注目度): 80.53860642199412
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring Image Segmentation (RIS) aims to connect image and language via
outputting the corresponding object masks given a text description, which is a
fundamental vision-language task. Despite lots of works that have achieved
considerable progress for RIS, in this work, we explore an essential question,
"what if the description is wrong or misleading of the text description?". We
term such a sentence as a negative sentence. However, we find that existing
works cannot handle such settings. To this end, we propose a novel formulation
of RIS, named Robust Referring Image Segmentation (R-RIS). It considers the
negative sentence inputs besides the regularly given text inputs. We present
three different datasets via augmenting the input negative sentences and a new
metric to unify both input types. Furthermore, we design a new
transformer-based model named RefSegformer, where we introduce a token-based
vision and language fusion module. Such module can be easily extended to our
R-RIS setting by adding extra blank tokens. Our proposed RefSegformer achieves
the new state-of-the-art results on three regular RIS datasets and three R-RIS
datasets, which serves as a new solid baseline for further research. The
project page is at \url{https://lxtgh.github.io/project/robust_ref_seg/}.
- Abstract(参考訳): Referring Image Segmentation (RIS)は、基本的な視覚言語タスクであるテキスト記述が与えられたオブジェクトマスクを出力することで、画像と言語を接続することを目的としている。
RISでかなりの進歩を遂げた多くの著作にもかかわらず、本書では「記述が間違っていたり、文章の記述を誤解させたりしたらどうするか」という本質的な疑問を探求する。
私たちはそのような文を否定的な文と呼ぶ。
しかし、既存の作業ではそのような設定は処理できない。
この目的のために,ロバスト参照画像セグメンテーション (R-RIS) という新しいRISの定式化を提案する。
通常のテキスト入力に加えて、負の文入力も考慮する。
入力否定文の強化と、両方の入力タイプを統一するための新しいメトリクスによって、3つの異なるデータセットを示す。
さらに,RefSegformerと呼ばれる新しいトランスフォーマーモデルの設計を行い,トークンベースのビジョンと言語融合モジュールを導入する。
このようなモジュールは、余分な空白トークンを追加することで、R-RIS設定に容易に拡張できます。
提案したRefSegformerは,3つの通常のRISデータセットと3つのR-RISデータセットに対して,新たな最先端結果を実現する。
プロジェクトページは \url{https://lxtgh.github.io/project/robust_ref_seg/} にある。
関連論文リスト
- iSEARLE: Improving Textual Inversion for Zero-Shot Composed Image Retrieval [26.101116761577796]
Composed Image Retrieval (CIR) は、相対キャプションに指定された変化を取り入れつつ、参照画像と視覚的に類似したターゲット画像を検索することを目的としている。
ラベル付きトレーニングデータセットを必要とせずにCIRに対処する新しいタスクであるZero-Shot CIR(ZS-CIR)を導入する。
CIRCOと呼ばれるオープンドメインベンチマークデータセットを提示し、各クエリに複数の基底真理とセマンティック分類をラベル付けする。
論文 参考訳(メタデータ) (2024-05-05T14:39:06Z) - Vision-by-Language for Training-Free Compositional Image Retrieval [78.60509831598745]
合成画像検索(CIR)は、データベース内の関連する対象画像を検索することを目的としている。
大規模視覚言語モデル(VLM)を用いた最近の研究動向
我々は、CIReVL(Vision-by-Language)による学習自由なCIRへの取り組みを提案する。
論文 参考訳(メタデータ) (2023-10-13T17:59:38Z) - Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。
本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。
提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文 参考訳(メタデータ) (2023-10-09T07:31:44Z) - Towards Complex-query Referring Image Segmentation: A Novel Benchmark [42.263084522244796]
複雑なクエリ、すなわち textbfRIS-CQ を用いた新しい RIS ベンチマークを提案する。
RIS-CQデータセットは高品質で大規模であり、リッチで具体的で情報に富んだクエリで既存のRISに挑戦する。
マルチモーダリティグラフアライメントモデル(textbftextscDuMoGa)と呼ばれる,RIS-CQをよりよく扱うニッチターゲット方式を提案する。
論文 参考訳(メタデータ) (2023-09-29T12:58:13Z) - Referring Image Segmentation Using Text Supervision [44.27304699305985]
既存の参照画像(RIS)メソッドは、監視のために高価なピクセルレベルまたはボックスレベルのアノテーションを必要とするのが一般的である。
本稿では,対象の局所化問題を分類プロセスとして定式化するための,弱教師付きRISフレームワークを提案する。
我々のフレームワークは、既存の完全教師付きRISメソッドに対して有望な性能を達成しつつ、関連する領域から適応した最先端の弱教師付き手法より優れた性能を実現している。
論文 参考訳(メタデータ) (2023-08-28T13:40:47Z) - Noisy-Correspondence Learning for Text-to-Image Person Re-identification [50.07634676709067]
本稿では,雑音対応においても頑健な視覚関係を学習するための新しいロバスト二重埋め込み法(RDE)を提案する。
提案手法は,3つのデータセット上での合成ノイズ対応と非合成ノイズ対応を両立させる。
論文 参考訳(メタデータ) (2023-08-19T05:34:13Z) - Pic2Word: Mapping Pictures to Words for Zero-shot Composed Image
Retrieval [84.11127588805138]
Composed Image Retrieval (CIR)は、クエリイメージとテキストを組み合わせて、対象とするターゲットを記述する。
既存の方法は、クエリ画像、テキスト仕様、ターゲット画像からなるラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。
我々は,ラベル付き三重項学習を必要とせずにCIRモデルを構築することを目的として,Zero-Shot Composed Image Retrieval (ZS-CIR)を提案する。
論文 参考訳(メタデータ) (2023-02-06T19:40:04Z) - BOSS: Bottom-up Cross-modal Semantic Composition with Hybrid
Counterfactual Training for Robust Content-based Image Retrieval [61.803481264081036]
CIR(Content-Based Image Retrieval)は,サンプル画像と補完テキストの合成を同時に解釈することで,対象画像の検索を目的とする。
本稿では,新しいアンダーラインtextbfBottom-up crunderlinetextbfOss-modal underlinetextbfSemantic compounderlinetextbfSition (textbfBOSS) とHybrid Counterfactual Training frameworkを用いてこの問題に取り組む。
論文 参考訳(メタデータ) (2022-07-09T07:14:44Z) - Towards Robust Referring Video Object Segmentation with Cyclic
Relational Consensus [42.14174599341824]
Referring Video Object (R-VOS) は、言語表現に基づくビデオ内のオブジェクトのセグメンテーションを目的とした課題である。
既存のほとんどのR-VOSメソッドは重要な仮定を持ち、参照されるオブジェクトはビデオに表示されなければならない。
本研究では,意味的ミスマッチを扱えるロバストなR-VOSモデルの必要性を強調した。
論文 参考訳(メタデータ) (2022-07-04T05:08:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。