Fugu-MT 論文翻訳(概要): Data Roaming and Quality Assessment for Composed Image Retrieval

論文の概要: Data Roaming and Quality Assessment for Composed Image Retrieval

arxiv url: http://arxiv.org/abs/2303.09429v2
Date: Wed, 20 Dec 2023 11:07:57 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-21 22:25:05.112388
Title: Data Roaming and Quality Assessment for Composed Image Retrieval
Title（参考訳）: 合成画像検索のためのデータローミングと品質評価
Authors: Matan Levy, Rami Ben-Ari, Nir Darshan, Dani Lischinski
Abstract要約: Composed Image Retrieval (CoIR)は、画像とテキストのモダリティを組み合わせたクエリで、ユーザがより効果的にインテントを表現できるようにする。我々は,既存のものより10倍大きい新しいCoIRデータセットであるLaSCoデータセットを紹介する。また、新しいCoIRベースラインであるCASE(Cross-Attention driven Shift)も導入する。
参考スコア（独自算出の注目度）: 25.452015862927766
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The task of Composed Image Retrieval (CoIR) involves queries that combine image and text modalities, allowing users to express their intent more effectively. However, current CoIR datasets are orders of magnitude smaller compared to other vision and language (V&L) datasets. Additionally, some of these datasets have noticeable issues, such as queries containing redundant modalities. To address these shortcomings, we introduce the Large Scale Composed Image Retrieval (LaSCo) dataset, a new CoIR dataset which is ten times larger than existing ones. Pre-training on our LaSCo, shows a noteworthy improvement in performance, even in zero-shot. Furthermore, we propose a new approach for analyzing CoIR datasets and methods, which detects modality redundancy or necessity, in queries. We also introduce a new CoIR baseline, the Cross-Attention driven Shift Encoder (CASE). This baseline allows for early fusion of modalities using a cross-attention module and employs an additional auxiliary task during training. Our experiments demonstrate that this new baseline outperforms the current state-of-the-art methods on established benchmarks like FashionIQ and CIRR.
Abstract（参考訳）: Composed Image Retrieval (CoIR)のタスクは、画像とテキストのモダリティを組み合わせたクエリを伴い、ユーザがより効果的にインテントを表現できるようにする。しかし、現在のCoIRデータセットは他のビジョンや言語(V&L)データセットに比べて桁違いに小さい。さらに、これらのデータセットの中には冗長なモダリティを含むクエリなど、注目すべき問題もある。これらの欠点に対処するために、我々は、既存のものより10倍大きい新しいCoIRデータセットであるLaSCoデータセット(Large Scale Composed Image Retrieval)を紹介した。 LaSCoの事前トレーニングでは、ゼロショットでも、注目すべきパフォーマンス向上が示されています。さらに,クエリにおけるモダリティ冗長性や必要性を検出するcoirデータセットと手法を新たに分析する手法を提案する。また、新しいCoIRベースラインであるCASE(Cross-Attention driven Shift Encoder)も導入する。このベースラインは、クロスアテンションモジュールを使用してモダリティの早期統合を可能にし、トレーニング中に追加の補助タスクを使用する。この新たなベースラインは、FashionIQやCIRRのような確立されたベンチマークにおいて、現在の最先端の手法よりも優れていることを示す。

関連論文リスト

CIR-CoT: Towards Interpretable Composed Image Retrieval via End-to-End Chain-of-Thought Reasoning [93.05917922306196]
Composed Image Retrieval (CIR) は、参照画像と修正テキストから対象画像を見つけることを目的としている。 CIR-CoTは、明示的なChain-of-Thought (CoT)推論を統合するために設計された最初のエンドツーエンド検索指向MLLMである。
論文参考訳（メタデータ） (2025-10-09T09:41:45Z)
CoLLM: A Large Language Model for Composed Image Retrieval [76.29725148964368]
Composed Image Retrieval (CIR)は、マルチモーダルクエリに基づいた画像検索を目的とした複雑なタスクである。本稿では,イメージキャプションペアからトリプレットをオンザフライで生成するワンストップフレームワークであるCoLLMを提案する。我々はLarge Language Models (LLMs) を利用して参照画像の埋め込みと修正テキストを生成する。
論文参考訳（メタデータ） (2025-03-25T17:59:50Z)
A Comprehensive Survey on Composed Image Retrieval [54.54527281731775]
Composed Image Retrieval (CIR)は、ユーザがマルチモーダルクエリを使ってターゲットイメージを検索できる、新しくて困難なタスクである。現在、この分野のタイムリーな概要を提供するため、CIRの包括的なレビューは行われていない。我々は、ACM TOIS、SIGIR、CVPRなど、トップカンファレンスやジャーナルで120以上の出版物から洞察を合成する。
論文参考訳（メタデータ） (2025-02-19T01:37:24Z)
Compositional Image Retrieval via Instruction-Aware Contrastive Learning [40.54022628032561]
Composed Image Retrieval (CIR)は、テキストとペアリングした画像の合成クエリに基づいてターゲットイメージを検索する。実際には、下流タスクにおけるアノテートデータの不足のため、ゼロショットCIR(ZS-CIR)が望ましい。命令調整型マルチモーダルLLM(MLLM)を用いて合成表現を生成する新しい埋め込み手法を提案する。
論文参考訳（メタデータ） (2024-12-07T22:46:52Z)
Training-free Zero-shot Composed Image Retrieval via Weighted Modality Fusion and Similarity [2.724141845301679]
合成画像検索(CIR)は、参照画像と修正テキストの組み合わせとしてクエリを定式化する。本稿では,ZS-CIRのためのトレーニングフリーアプローチを提案する。提案手法は単純で実装が容易であり,FashionIQおよびCIRRデータセットを用いた実験によりその有効性が検証された。
論文参考訳（メタデータ） (2024-09-07T21:52:58Z)
Rethinking Image Super-Resolution from Training Data Perspectives [54.28824316574355]
画像超解像(SR)におけるトレーニングデータの効果について検討する。そこで我々は,自動画像評価パイプラインを提案する。その結果, (i) 圧縮アーチファクトの少ないデータセット, (ii) 被写体数によって判断される画像内多様性の高いデータセット, (iii) ImageNet や PASS からの大量の画像がSR性能に肯定的な影響を与えることがわかった。
論文参考訳（メタデータ） (2024-09-01T16:25:04Z)
Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文参考訳（メタデータ） (2023-12-19T08:14:14Z)
CoVR-2: Automatic Data Construction for Composed Video Retrieval [59.854331104466254]
Composed Image Retrieval (CoIR) はテキストと画像のクエリを一緒に考えるタスクとして最近人気を集めている。本稿では,ビデオキャプションペアのトリプレットを生成する,スケーラブルな自動データセット作成手法を提案する。また、コンポジションビデオ検索(CoVR)を含むタスクの範囲を広げる。
論文参考訳（メタデータ） (2023-08-28T17:55:33Z)
Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文参考訳（メタデータ） (2023-06-12T17:56:01Z)
Zero-Shot Composed Image Retrieval with Textual Inversion [28.513594970580396]
Composed Image Retrieval (CIR) は、参照画像と相対キャプションからなるクエリに基づいてターゲット画像を取得することを目的としている。ラベル付きトレーニングデータセットを必要とせずにCIRに対処することを目的とした新しいタスクZero-Shot CIR(ZS-CIR)を提案する。
論文参考訳（メタデータ） (2023-03-27T14:31:25Z)
Open-Set Recognition: A Good Closed-Set Classifier is All You Need [146.6814176602689]
分類器が「ゼロ・オブ・ア・ア・ア・ベ」決定を行う能力は、閉集合クラスにおける精度と高い相関関係があることが示される。この相関を利用して、閉セット精度を向上させることにより、クロスエントロピーOSR'ベースライン'の性能を向上させる。また、セマンティックノベルティを検出するタスクをより尊重する新しいベンチマークを構築した。
論文参考訳（メタデータ） (2021-10-12T17:58:59Z)
The Little W-Net That Could: State-of-the-Art Retinal Vessel Segmentation with Minimalistic Models [19.089445797922316]
数桁のパラメータが桁違いに少ない標準U-Netのミニマリストバージョンが、現在のベストプラクティスの性能を近似していることを示す。また,W-Netと呼ばれる単純な拡張も提案する。また、Artery/Veinセグメンテーション問題にもアプローチを試行し、その結果を最先端技術に整合させる。
論文参考訳（メタデータ） (2020-09-03T19:59:51Z)
On Creating Benchmark Dataset for Aerial Image Interpretation: Reviews, Guidances and Million-AID [57.71601467271486]
本稿では,RS画像解釈に適したベンチマークデータセットを効率的に作成する方法の問題点について論じる。本稿ではまず,文献計測によるRS画像解釈のためのインテリジェントアルゴリズム開発における課題について分析する。提案したガイダンスに続いて、RSイメージデータセットの構築例、すなわち、新しい大規模ベンチマークデータセットであるMario-AIDも提供する。
論文参考訳（メタデータ） (2020-06-22T17:59:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。