論文の概要: Data Roaming and Early Fusion for Composed Image Retrieval
- arxiv url: http://arxiv.org/abs/2303.09429v1
- Date: Thu, 16 Mar 2023 16:02:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 14:44:28.178720
- Title: Data Roaming and Early Fusion for Composed Image Retrieval
- Title(参考訳): 合成画像検索のためのデータローミングと早期融合
- Authors: Matan Levy, Rami Ben-Ari, Nir Darshan, Dani Lischinski
- Abstract要約: コンポジション画像検索 (CoIR) について検討し, クエリは画像とテキストの2つのモダリティから構成され, ユーザの表現能力を拡張している。
従来の手法では、通常、各クエリのモダリティを個別に符号化し、次に抽出した特徴を遅く融合させることで、このタスクに対処する。
本稿では,CASE(Cross-Attention driven Shift)という手法を提案する。
- 参考スコア(独自算出の注目度): 15.361338005924045
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We study the task of Composed Image Retrieval (CoIR), where a query is
composed of two modalities, image and text, extending the user's expression
ability. Previous methods typically address this task by a separate encoding of
each query modality, followed by late fusion of the extracted features. In this
paper, we propose a new approach, Cross-Attention driven Shift Encoder (CASE),
employing early fusion between modalities through a cross-attention module with
an additional auxiliary task. We show that our method outperforms the existing
state-of-the-art, on established benchmarks (FashionIQ and CIRR) by a large
margin. However, CoIR datasets are a few orders of magnitude smaller compared
to other vision and language (V&L) datasets, and some suffer from serious flaws
(e.g., queries with a redundant modality). We address these shortcomings by
introducing Large Scale Composed Image Retrieval (LaSCo), a new CoIR dataset
x10 times larger than current ones. Pre-training on LaSCo yields a further
performance boost. We further suggest a new analysis of CoIR datasets and
methods, for detecting modality redundancy or necessity, in queries.
- Abstract(参考訳): 本研究では,クエリが画像とテキストの2つのモダリティで構成され,ユーザの表現能力を拡張する,合成画像検索(coir)のタスクについて検討する。
従来の方法では、各クエリのモダリティを別々にエンコーディングし、その後に抽出された特徴の後期融合によって、このタスクに対処する。
本稿では,CASE(Cross-Attention driven Shift Encoder)という新しい手法を提案する。
本手法は,確立したベンチマーク (fashioniq と cirr) において,既存の最先端技術よりも高いマージンを示した。
しかし、CoIRデータセットは他のビジョンや言語(V&L)データセットと比べて桁違いに小さく、深刻な欠陥(冗長なモダリティを持つクエリなど)に悩まされているものもある。
本稿では,新しいcoirデータセットであるlasco(large scale composed image retrieval)を導入することで,これらの欠点を解決する。
LaSCoの事前トレーニングはさらなるパフォーマンス向上をもたらす。
さらに,クエリにおけるモダリティ冗長性や必要性を検出するために,coirデータセットとメソッドの新たな分析を提案する。
関連論文リスト
- Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone [170.85076677740292]
本稿では、視覚言語(VL)事前学習のための新しいモデルアーキテクチャであるFIBER(Fusion-In-the-Backbone-basedER)を提案する。
ユニモーダルバックボーンの後に、専用のトランスフォーマー層を融合させる代わりに、FIBERはマルチモーダルフュージョンをモデルに深く押し込む。
我々は、VQA、画像キャプション、検索、フレーズグラウンド、参照表現理解、オブジェクト検出など、幅広いVLタスクに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2022-06-15T16:41:29Z) - Progressive Learning for Image Retrieval with Hybrid-Modality Queries [48.79599320198615]
ハイブリッドモダリティクエリによる画像検索(CTI-IR)
我々は、CTI-IRタスクを3段階の学習問題に分解し、ハイブリッドモダリティクエリを用いて画像検索のための複雑な知識を段階的に学習する。
提案モデルは,Fashion-IQおよびShoesベンチマークデータセットにおいて,Recall@K平均の最先端手法を24.9%,9.5%向上させる。
論文 参考訳(メタデータ) (2022-04-24T08:10:06Z) - Text-Based Person Search with Limited Data [66.26504077270356]
テキストベースの人物検索(TBPS)は、画像ギャラリーから対象人物を記述的なテキストクエリで検索することを目的としている。
限られたデータによってもたらされる問題に対処する2つの新しいコンポーネントを持つフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:20:47Z) - Dynamic Relevance Learning for Few-Shot Object Detection [7.409874554766274]
動的グラフ畳み込みネットワーク(GCN)を構築するために,すべてのサポート画像とクエリ画像上の関心領域(RoI)の関係を利用した動的関連学習モデルを提案する。
提案モデルでは,より一般化された特徴の学習の有効性を示す総合的な性能が得られた。
論文 参考訳(メタデータ) (2021-08-04T18:29:42Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - Scale-Localized Abstract Reasoning [79.00011351374869]
本稿では,インテリジェンステストとしてよく用いられる抽象的関係推論タスクについて考察する。
いくつかのパターンは空間的有理性を持っているが、他のパターンは意味論に過ぎないため、各クエリを複数の解像度で処理するマルチスケールアーキテクチャを提案する。
異なる解法によって実際に異なるルールが解かれることを示し、組み合わせたマルチスケールアプローチは、全てのベンチマークにおいて、このタスクにおける既存の技術の状態を5~54%上回っていることを示す。
論文 参考訳(メタデータ) (2020-09-20T10:37:29Z) - The Little W-Net That Could: State-of-the-Art Retinal Vessel
Segmentation with Minimalistic Models [19.089445797922316]
数桁のパラメータが桁違いに少ない標準U-Netのミニマリストバージョンが、現在のベストプラクティスの性能を近似していることを示す。
また,W-Netと呼ばれる単純な拡張も提案する。
また、Artery/Veinセグメンテーション問題にもアプローチを試行し、その結果を最先端技術に整合させる。
論文 参考訳(メタデータ) (2020-09-03T19:59:51Z) - Query Resolution for Conversational Search with Limited Supervision [63.131221660019776]
本稿では,双方向トランスフォーマに基づくニューラルクエリ解決モデルQuReTeCを提案する。
我々はQuReTeCが最先端モデルより優れており、また、QuReTeCのトレーニングに必要な人為的なデータ量を大幅に削減するために、我々の遠隔監視手法が有効であることを示す。
論文 参考訳(メタデータ) (2020-05-24T11:37:22Z) - Transformer Reasoning Network for Image-Text Matching and Retrieval [14.238818604272751]
マルチモーダルな大規模情報検索作業における画像テキストマッチングの問題点を考察する。
トランスフォーマー推論ネットワーク(TERN, Transformer Reasoning Network, TERN)は, 現代の関係認識型自己認識型トランスフォーマー(Transformer)のアーキテクチャである。
TERNは2つの異なるモダリティを別々に推論し、最終的な共通抽象概念空間を強制することができる。
論文 参考訳(メタデータ) (2020-04-20T09:09:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。