論文の概要: Data Roaming and Early Fusion for Composed Image Retrieval
- arxiv url: http://arxiv.org/abs/2303.09429v1
- Date: Thu, 16 Mar 2023 16:02:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 14:44:28.178720
- Title: Data Roaming and Early Fusion for Composed Image Retrieval
- Title(参考訳): 合成画像検索のためのデータローミングと早期融合
- Authors: Matan Levy, Rami Ben-Ari, Nir Darshan, Dani Lischinski
- Abstract要約: コンポジション画像検索 (CoIR) について検討し, クエリは画像とテキストの2つのモダリティから構成され, ユーザの表現能力を拡張している。
従来の手法では、通常、各クエリのモダリティを個別に符号化し、次に抽出した特徴を遅く融合させることで、このタスクに対処する。
本稿では,CASE(Cross-Attention driven Shift)という手法を提案する。
- 参考スコア(独自算出の注目度): 15.361338005924045
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We study the task of Composed Image Retrieval (CoIR), where a query is
composed of two modalities, image and text, extending the user's expression
ability. Previous methods typically address this task by a separate encoding of
each query modality, followed by late fusion of the extracted features. In this
paper, we propose a new approach, Cross-Attention driven Shift Encoder (CASE),
employing early fusion between modalities through a cross-attention module with
an additional auxiliary task. We show that our method outperforms the existing
state-of-the-art, on established benchmarks (FashionIQ and CIRR) by a large
margin. However, CoIR datasets are a few orders of magnitude smaller compared
to other vision and language (V&L) datasets, and some suffer from serious flaws
(e.g., queries with a redundant modality). We address these shortcomings by
introducing Large Scale Composed Image Retrieval (LaSCo), a new CoIR dataset
x10 times larger than current ones. Pre-training on LaSCo yields a further
performance boost. We further suggest a new analysis of CoIR datasets and
methods, for detecting modality redundancy or necessity, in queries.
- Abstract(参考訳): 本研究では,クエリが画像とテキストの2つのモダリティで構成され,ユーザの表現能力を拡張する,合成画像検索(coir)のタスクについて検討する。
従来の方法では、各クエリのモダリティを別々にエンコーディングし、その後に抽出された特徴の後期融合によって、このタスクに対処する。
本稿では,CASE(Cross-Attention driven Shift Encoder)という新しい手法を提案する。
本手法は,確立したベンチマーク (fashioniq と cirr) において,既存の最先端技術よりも高いマージンを示した。
しかし、CoIRデータセットは他のビジョンや言語(V&L)データセットと比べて桁違いに小さく、深刻な欠陥(冗長なモダリティを持つクエリなど)に悩まされているものもある。
本稿では,新しいcoirデータセットであるlasco(large scale composed image retrieval)を導入することで,これらの欠点を解決する。
LaSCoの事前トレーニングはさらなるパフォーマンス向上をもたらす。
さらに,クエリにおけるモダリティ冗長性や必要性を検出するために,coirデータセットとメソッドの新たな分析を提案する。
関連論文リスト
- Rotated Multi-Scale Interaction Network for Referring Remote Sensing
Image Segmentation [66.31941110777734]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Retrieving Conditions from Reference Images for Diffusion Models [31.940034690882747]
改良されたデータセットと評価が望まれるだけでなく、条件付き画像からのみ関連情報を取得するためのより慎重な方法が期待されている。
このデータセットによって実現された新しいタスクを述べ、これらのタスクを完了させる成功を測定するための新しい多様性指標を導入します。
論文 参考訳(メタデータ) (2023-12-05T06:04:16Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z) - Zero-Shot Composed Image Retrieval with Textual Inversion [28.513594970580396]
Composed Image Retrieval (CIR) は、参照画像と相対キャプションからなるクエリに基づいてターゲット画像を取得することを目的としている。
ラベル付きトレーニングデータセットを必要とせずにCIRに対処することを目的とした新しいタスクZero-Shot CIR(ZS-CIR)を提案する。
論文 参考訳(メタデータ) (2023-03-27T14:31:25Z) - Text-Based Person Search with Limited Data [66.26504077270356]
テキストベースの人物検索(TBPS)は、画像ギャラリーから対象人物を記述的なテキストクエリで検索することを目的としている。
限られたデータによってもたらされる問題に対処する2つの新しいコンポーネントを持つフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:20:47Z) - Open-Set Recognition: A Good Closed-Set Classifier is All You Need [146.6814176602689]
分類器が「ゼロ・オブ・ア・ア・ア・ベ」決定を行う能力は、閉集合クラスにおける精度と高い相関関係があることが示される。
この相関を利用して、閉セット精度を向上させることにより、クロスエントロピーOSR'ベースライン'の性能を向上させる。
また、セマンティックノベルティを検出するタスクをより尊重する新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2021-10-12T17:58:59Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - The Little W-Net That Could: State-of-the-Art Retinal Vessel
Segmentation with Minimalistic Models [19.089445797922316]
数桁のパラメータが桁違いに少ない標準U-Netのミニマリストバージョンが、現在のベストプラクティスの性能を近似していることを示す。
また,W-Netと呼ばれる単純な拡張も提案する。
また、Artery/Veinセグメンテーション問題にもアプローチを試行し、その結果を最先端技術に整合させる。
論文 参考訳(メタデータ) (2020-09-03T19:59:51Z) - On Creating Benchmark Dataset for Aerial Image Interpretation: Reviews,
Guidances and Million-AID [57.71601467271486]
本稿では,RS画像解釈に適したベンチマークデータセットを効率的に作成する方法の問題点について論じる。
本稿ではまず,文献計測によるRS画像解釈のためのインテリジェントアルゴリズム開発における課題について分析する。
提案したガイダンスに続いて、RSイメージデータセットの構築例、すなわち、新しい大規模ベンチマークデータセットであるMario-AIDも提供する。
論文 参考訳(メタデータ) (2020-06-22T17:59:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。