論文の概要: Data Roaming and Early Fusion for Composed Image Retrieval
- arxiv url: http://arxiv.org/abs/2303.09429v1
- Date: Thu, 16 Mar 2023 16:02:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 14:44:28.178720
- Title: Data Roaming and Early Fusion for Composed Image Retrieval
- Title(参考訳): 合成画像検索のためのデータローミングと早期融合
- Authors: Matan Levy, Rami Ben-Ari, Nir Darshan, Dani Lischinski
- Abstract要約: コンポジション画像検索 (CoIR) について検討し, クエリは画像とテキストの2つのモダリティから構成され, ユーザの表現能力を拡張している。
従来の手法では、通常、各クエリのモダリティを個別に符号化し、次に抽出した特徴を遅く融合させることで、このタスクに対処する。
本稿では,CASE(Cross-Attention driven Shift)という手法を提案する。
- 参考スコア(独自算出の注目度): 15.361338005924045
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We study the task of Composed Image Retrieval (CoIR), where a query is
composed of two modalities, image and text, extending the user's expression
ability. Previous methods typically address this task by a separate encoding of
each query modality, followed by late fusion of the extracted features. In this
paper, we propose a new approach, Cross-Attention driven Shift Encoder (CASE),
employing early fusion between modalities through a cross-attention module with
an additional auxiliary task. We show that our method outperforms the existing
state-of-the-art, on established benchmarks (FashionIQ and CIRR) by a large
margin. However, CoIR datasets are a few orders of magnitude smaller compared
to other vision and language (V&L) datasets, and some suffer from serious flaws
(e.g., queries with a redundant modality). We address these shortcomings by
introducing Large Scale Composed Image Retrieval (LaSCo), a new CoIR dataset
x10 times larger than current ones. Pre-training on LaSCo yields a further
performance boost. We further suggest a new analysis of CoIR datasets and
methods, for detecting modality redundancy or necessity, in queries.
- Abstract(参考訳): 本研究では,クエリが画像とテキストの2つのモダリティで構成され,ユーザの表現能力を拡張する,合成画像検索(coir)のタスクについて検討する。
従来の方法では、各クエリのモダリティを別々にエンコーディングし、その後に抽出された特徴の後期融合によって、このタスクに対処する。
本稿では,CASE(Cross-Attention driven Shift Encoder)という新しい手法を提案する。
本手法は,確立したベンチマーク (fashioniq と cirr) において,既存の最先端技術よりも高いマージンを示した。
しかし、CoIRデータセットは他のビジョンや言語(V&L)データセットと比べて桁違いに小さく、深刻な欠陥(冗長なモダリティを持つクエリなど)に悩まされているものもある。
本稿では,新しいcoirデータセットであるlasco(large scale composed image retrieval)を導入することで,これらの欠点を解決する。
LaSCoの事前トレーニングはさらなるパフォーマンス向上をもたらす。
さらに,クエリにおけるモダリティ冗長性や必要性を検出するために,coirデータセットとメソッドの新たな分析を提案する。
関連論文リスト
- Training-free Zero-shot Composed Image Retrieval via Weighted Modality Fusion and Similarity [2.724141845301679]
合成画像検索(CIR)は、参照画像と修正テキストの組み合わせとしてクエリを定式化する。
本稿では,ZS-CIRのためのトレーニングフリーアプローチを提案する。
提案手法は単純で実装が容易であり,FashionIQおよびCIRRデータセットを用いた実験によりその有効性が検証された。
論文 参考訳(メタデータ) (2024-09-07T21:52:58Z) - Rethinking Image Super-Resolution from Training Data Perspectives [54.28824316574355]
画像超解像(SR)におけるトレーニングデータの効果について検討する。
そこで我々は,自動画像評価パイプラインを提案する。
その結果, (i) 圧縮アーチファクトの少ないデータセット, (ii) 被写体数によって判断される画像内多様性の高いデータセット, (iii) ImageNet や PASS からの大量の画像がSR性能に肯定的な影響を与えることがわかった。
論文 参考訳(メタデータ) (2024-09-01T16:25:04Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - CoVR-2: Automatic Data Construction for Composed Video Retrieval [59.854331104466254]
Composed Image Retrieval (CoIR) はテキストと画像のクエリを一緒に考えるタスクとして最近人気を集めている。
本稿では,ビデオキャプションペアのトリプレットを生成する,スケーラブルな自動データセット作成手法を提案する。
また、コンポジションビデオ検索(CoVR)を含むタスクの範囲を広げる。
論文 参考訳(メタデータ) (2023-08-28T17:55:33Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z) - Zero-Shot Composed Image Retrieval with Textual Inversion [28.513594970580396]
Composed Image Retrieval (CIR) は、参照画像と相対キャプションからなるクエリに基づいてターゲット画像を取得することを目的としている。
ラベル付きトレーニングデータセットを必要とせずにCIRに対処することを目的とした新しいタスクZero-Shot CIR(ZS-CIR)を提案する。
論文 参考訳(メタデータ) (2023-03-27T14:31:25Z) - Open-Set Recognition: A Good Closed-Set Classifier is All You Need [146.6814176602689]
分類器が「ゼロ・オブ・ア・ア・ア・ベ」決定を行う能力は、閉集合クラスにおける精度と高い相関関係があることが示される。
この相関を利用して、閉セット精度を向上させることにより、クロスエントロピーOSR'ベースライン'の性能を向上させる。
また、セマンティックノベルティを検出するタスクをより尊重する新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2021-10-12T17:58:59Z) - The Little W-Net That Could: State-of-the-Art Retinal Vessel
Segmentation with Minimalistic Models [19.089445797922316]
数桁のパラメータが桁違いに少ない標準U-Netのミニマリストバージョンが、現在のベストプラクティスの性能を近似していることを示す。
また,W-Netと呼ばれる単純な拡張も提案する。
また、Artery/Veinセグメンテーション問題にもアプローチを試行し、その結果を最先端技術に整合させる。
論文 参考訳(メタデータ) (2020-09-03T19:59:51Z) - On Creating Benchmark Dataset for Aerial Image Interpretation: Reviews,
Guidances and Million-AID [57.71601467271486]
本稿では,RS画像解釈に適したベンチマークデータセットを効率的に作成する方法の問題点について論じる。
本稿ではまず,文献計測によるRS画像解釈のためのインテリジェントアルゴリズム開発における課題について分析する。
提案したガイダンスに続いて、RSイメージデータセットの構築例、すなわち、新しい大規模ベンチマークデータセットであるMario-AIDも提供する。
論文 参考訳(メタデータ) (2020-06-22T17:59:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。