論文の概要: Data Roaming and Quality Assessment for Composed Image Retrieval
- arxiv url: http://arxiv.org/abs/2303.09429v2
- Date: Wed, 20 Dec 2023 11:07:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 22:25:05.112388
- Title: Data Roaming and Quality Assessment for Composed Image Retrieval
- Title(参考訳): 合成画像検索のためのデータローミングと品質評価
- Authors: Matan Levy, Rami Ben-Ari, Nir Darshan, Dani Lischinski
- Abstract要約: Composed Image Retrieval (CoIR)は、画像とテキストのモダリティを組み合わせたクエリで、ユーザがより効果的にインテントを表現できるようにする。
我々は,既存のものより10倍大きい新しいCoIRデータセットであるLaSCoデータセットを紹介する。
また、新しいCoIRベースラインであるCASE(Cross-Attention driven Shift)も導入する。
- 参考スコア(独自算出の注目度): 25.452015862927766
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The task of Composed Image Retrieval (CoIR) involves queries that combine
image and text modalities, allowing users to express their intent more
effectively. However, current CoIR datasets are orders of magnitude smaller
compared to other vision and language (V&L) datasets. Additionally, some of
these datasets have noticeable issues, such as queries containing redundant
modalities. To address these shortcomings, we introduce the Large Scale
Composed Image Retrieval (LaSCo) dataset, a new CoIR dataset which is ten times
larger than existing ones. Pre-training on our LaSCo, shows a noteworthy
improvement in performance, even in zero-shot. Furthermore, we propose a new
approach for analyzing CoIR datasets and methods, which detects modality
redundancy or necessity, in queries. We also introduce a new CoIR baseline, the
Cross-Attention driven Shift Encoder (CASE). This baseline allows for early
fusion of modalities using a cross-attention module and employs an additional
auxiliary task during training. Our experiments demonstrate that this new
baseline outperforms the current state-of-the-art methods on established
benchmarks like FashionIQ and CIRR.
- Abstract(参考訳): Composed Image Retrieval (CoIR)のタスクは、画像とテキストのモダリティを組み合わせたクエリを伴い、ユーザがより効果的にインテントを表現できるようにする。
しかし、現在のCoIRデータセットは他のビジョンや言語(V&L)データセットに比べて桁違いに小さい。
さらに、これらのデータセットの中には冗長なモダリティを含むクエリなど、注目すべき問題もある。
これらの欠点に対処するために、我々は、既存のものより10倍大きい新しいCoIRデータセットであるLaSCoデータセット(Large Scale Composed Image Retrieval)を紹介した。
LaSCoの事前トレーニングでは、ゼロショットでも、注目すべきパフォーマンス向上が示されています。
さらに,クエリにおけるモダリティ冗長性や必要性を検出するcoirデータセットと手法を新たに分析する手法を提案する。
また、新しいCoIRベースラインであるCASE(Cross-Attention driven Shift Encoder)も導入する。
このベースラインは、クロスアテンションモジュールを使用してモダリティの早期統合を可能にし、トレーニング中に追加の補助タスクを使用する。
この新たなベースラインは、FashionIQやCIRRのような確立されたベンチマークにおいて、現在の最先端の手法よりも優れていることを示す。
関連論文リスト
- Training-free Zero-shot Composed Image Retrieval via Weighted Modality Fusion and Similarity [2.724141845301679]
合成画像検索(CIR)は、参照画像と修正テキストの組み合わせとしてクエリを定式化する。
本稿では,ZS-CIRのためのトレーニングフリーアプローチを提案する。
提案手法は単純で実装が容易であり,FashionIQおよびCIRRデータセットを用いた実験によりその有効性が検証された。
論文 参考訳(メタデータ) (2024-09-07T21:52:58Z) - Rethinking Image Super-Resolution from Training Data Perspectives [54.28824316574355]
画像超解像(SR)におけるトレーニングデータの効果について検討する。
そこで我々は,自動画像評価パイプラインを提案する。
その結果, (i) 圧縮アーチファクトの少ないデータセット, (ii) 被写体数によって判断される画像内多様性の高いデータセット, (iii) ImageNet や PASS からの大量の画像がSR性能に肯定的な影響を与えることがわかった。
論文 参考訳(メタデータ) (2024-09-01T16:25:04Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - CoVR-2: Automatic Data Construction for Composed Video Retrieval [59.854331104466254]
Composed Image Retrieval (CoIR) はテキストと画像のクエリを一緒に考えるタスクとして最近人気を集めている。
本稿では,ビデオキャプションペアのトリプレットを生成する,スケーラブルな自動データセット作成手法を提案する。
また、コンポジションビデオ検索(CoVR)を含むタスクの範囲を広げる。
論文 参考訳(メタデータ) (2023-08-28T17:55:33Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z) - Zero-Shot Composed Image Retrieval with Textual Inversion [28.513594970580396]
Composed Image Retrieval (CIR) は、参照画像と相対キャプションからなるクエリに基づいてターゲット画像を取得することを目的としている。
ラベル付きトレーニングデータセットを必要とせずにCIRに対処することを目的とした新しいタスクZero-Shot CIR(ZS-CIR)を提案する。
論文 参考訳(メタデータ) (2023-03-27T14:31:25Z) - Open-Set Recognition: A Good Closed-Set Classifier is All You Need [146.6814176602689]
分類器が「ゼロ・オブ・ア・ア・ア・ベ」決定を行う能力は、閉集合クラスにおける精度と高い相関関係があることが示される。
この相関を利用して、閉セット精度を向上させることにより、クロスエントロピーOSR'ベースライン'の性能を向上させる。
また、セマンティックノベルティを検出するタスクをより尊重する新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2021-10-12T17:58:59Z) - The Little W-Net That Could: State-of-the-Art Retinal Vessel
Segmentation with Minimalistic Models [19.089445797922316]
数桁のパラメータが桁違いに少ない標準U-Netのミニマリストバージョンが、現在のベストプラクティスの性能を近似していることを示す。
また,W-Netと呼ばれる単純な拡張も提案する。
また、Artery/Veinセグメンテーション問題にもアプローチを試行し、その結果を最先端技術に整合させる。
論文 参考訳(メタデータ) (2020-09-03T19:59:51Z) - On Creating Benchmark Dataset for Aerial Image Interpretation: Reviews,
Guidances and Million-AID [57.71601467271486]
本稿では,RS画像解釈に適したベンチマークデータセットを効率的に作成する方法の問題点について論じる。
本稿ではまず,文献計測によるRS画像解釈のためのインテリジェントアルゴリズム開発における課題について分析する。
提案したガイダンスに続いて、RSイメージデータセットの構築例、すなわち、新しい大規模ベンチマークデータセットであるMario-AIDも提供する。
論文 参考訳(メタデータ) (2020-06-22T17:59:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。