論文の概要: Fine-grained Textual Inversion Network for Zero-Shot Composed Image Retrieval
- arxiv url: http://arxiv.org/abs/2503.19296v1
- Date: Tue, 25 Mar 2025 02:51:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:54:12.267076
- Title: Fine-grained Textual Inversion Network for Zero-Shot Composed Image Retrieval
- Title(参考訳): ゼロショット合成画像検索のための微細テキストインバージョンネットワーク
- Authors: Haoqiang Lin, Haokun Wen, Xuemeng Song, Meng Liu, Yupeng Hu, Liqiang Nie,
- Abstract要約: 本稿では,FTI4CIR という ZS-CIR のためのテキスト・インバージョン・ネットワークを提案する。
FTI4CIRは、微粒な擬ワードトークンマッピングとトリワイズキャプションベースのセマンティック正規化の2つの主要コンポーネントから構成される。
- 参考スコア(独自算出の注目度): 60.20835288280572
- License:
- Abstract: Composed Image Retrieval (CIR) allows users to search target images with a multimodal query, comprising a reference image and a modification text that describes the user's modification demand over the reference image. Nevertheless, due to the expensive labor cost of training data annotation, recent researchers have shifted to the challenging task of zero-shot CIR (ZS-CIR), which targets fulfilling CIR without annotated triplets. The pioneer ZS-CIR studies focus on converting the CIR task into a standard text-to-image retrieval task by pre-training a textual inversion network that can map a given image into a single pseudo-word token. Despite their significant progress, their coarse-grained textual inversion may be insufficient to capture the full content of the image accurately. To overcome this issue, in this work, we propose a novel Fine-grained Textual Inversion Network for ZS-CIR, named FTI4CIR. In particular, FTI4CIR comprises two main components: fine-grained pseudo-word token mapping and tri-wise caption-based semantic regularization. The former maps the image into a subject-oriented pseudo-word token and several attribute-oriented pseudo-word tokens to comprehensively express the image in the textual form, while the latter works on jointly aligning the fine-grained pseudo-word tokens to the real-word token embedding space based on a BLIP-generated image caption template. Extensive experiments conducted on three benchmark datasets demonstrate the superiority of our proposed method.
- Abstract(参考訳): Composed Image Retrieval (CIR) では、ユーザは、参照イメージと、参照イメージに対するユーザの修正要求を記述する修正テキストを含む、マルチモーダルなクエリでターゲットイメージを検索することができる。
それでも、トレーニングデータアノテーションのコストのかかるコストのため、最近の研究者は、アノテーションのないCIRの実現を目標とするゼロショットCIR(ZS-CIR)の課題に移行した。
先駆的なZS-CIR研究は、与えられた画像を1つの擬似語トークンにマッピングできるテキスト・インバージョン・ネットワークを事前学習することで、CIRタスクを標準のテキスト・ツー・イメージ検索タスクに変換することに重点を置いている。
その顕著な進歩にもかかわらず、粗い粒度のテキストの逆転は、画像の完全な内容を正確に捉えるには不十分である。
そこで本研究では,FTI4CIR と呼ばれる ZS-CIR のためのファイングラニュアルテキスト変換ネットワークを提案する。
特に、FTI4CIRは2つの主要なコンポーネントで構成されている。
前者は、イメージを主題指向の擬似語トークンといくつかの属性指向の擬似語トークンにマッピングして、その画像をテキスト形式で包括的に表現する一方、後者はBLIP生成画像キャプションテンプレートに基づいて、細粒度の擬似語トークンを実単語トークン埋め込み空間に共同で調整する。
3つのベンチマークデータセットで行った大規模な実験は,提案手法の優位性を実証している。
関連論文リスト
- PDV: Prompt Directional Vectors for Zero-shot Composed Image Retrieval [37.95145173167645]
Prompt Directional Vector (PDV)は、ユーザプロンプトによって誘導されるセマンティックな修正をキャプチャする、シンプルで効果的なトレーニング不要拡張である。
PDVは,(1) 文字プロンプトから画像特徴へのセマンティックトランスファーによる合成画像埋め込み,(3) 合成テキストと画像埋め込みの重み付き融合,という3つの重要な改善を実現している。
論文 参考訳(メタデータ) (2025-02-11T03:20:21Z) - An Efficient Post-hoc Framework for Reducing Task Discrepancy of Text Encoders for Composed Image Retrieval [34.065449743428005]
Composed Image Retrieval (CIR) は、参照画像と条件付きテキストに基づいてターゲット画像を取得することを目的としており、制御可能な画像検索を可能にする。
従来のZero-Shot (ZS) CIRメソッドは、画像埋め込みをテキストトークン埋め込み空間に投影することで、高価なトレーニング用CIRトリプルの必要性を回避している。
本稿では,プロジェクションベースのCIR手法を補完する効率的なテキストのみのフレームワークであるReduceing Taskrepancy of Texts (RTD)を紹介する。
論文 参考訳(メタデータ) (2024-06-13T14:49:28Z) - iSEARLE: Improving Textual Inversion for Zero-Shot Composed Image Retrieval [26.101116761577796]
Composed Image Retrieval (CIR) は、相対キャプションに指定された変化を取り入れつつ、参照画像と視覚的に類似したターゲット画像を検索することを目的としている。
ラベル付きトレーニングデータセットを必要とせずにCIRに対処する新しいタスクであるZero-Shot CIR(ZS-CIR)を導入する。
CIRCOと呼ばれるオープンドメインベンチマークデータセットを提示し、各クエリに複数の基底真理とセマンティック分類をラベル付けする。
論文 参考訳(メタデータ) (2024-05-05T14:39:06Z) - Spherical Linear Interpolation and Text-Anchoring for Zero-shot Composed Image Retrieval [43.47770490199544]
Composed Image Retrieval (CIR)は、画像とキャプションで構成されたクエリを使って画像を取得する複雑なタスクである。
Slerp(Spherical Linear Interpolation)を用いて画像とテキストを直接マージする新しいZS-CIR手法を提案する。
また,テキストエンコーダを固定しながら画像エンコーダを微調整するText-Anchored-Tuning (TAT)を導入する。
論文 参考訳(メタデータ) (2024-05-01T15:19:54Z) - Knowledge-Enhanced Dual-stream Zero-shot Composed Image Retrieval [53.89454443114146]
本研究では,ゼロショット合成画像検索タスク(ZS-CIR)について検討した。
従来の作品では、参照画像の特徴をテキスト埋め込み空間に投影することで、擬似ワードトークンを生成する。
知識強化型デュアルストリームゼロショット合成画像検索フレームワーク(KEDs)を提案する。
KEDはデータベースを組み込むことで、参照画像の属性を暗黙的にモデル化する。
論文 参考訳(メタデータ) (2024-03-24T04:23:56Z) - Language-only Efficient Training of Zero-shot Composed Image Retrieval [46.93446891158521]
合成画像検索(CIR)タスクは、画像とテキストの合成クエリを処理し、両方の条件で相対的な画像を検索する。
本稿では,学習に言語のみを用いる新しいCIRフレームワークを提案する。
我々のLinCIR(Language-only Training for CIR)は、SMP(Self-Masking projection)と呼ばれる新しいセルフスーパービジョンによって、テキストデータセットでのみ訓練することができる。
論文 参考訳(メタデータ) (2023-12-04T16:22:06Z) - Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。
本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。
提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文 参考訳(メタデータ) (2023-10-09T07:31:44Z) - Pic2Word: Mapping Pictures to Words for Zero-shot Composed Image
Retrieval [84.11127588805138]
Composed Image Retrieval (CIR)は、クエリイメージとテキストを組み合わせて、対象とするターゲットを記述する。
既存の方法は、クエリ画像、テキスト仕様、ターゲット画像からなるラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。
我々は,ラベル付き三重項学習を必要とせずにCIRモデルを構築することを目的として,Zero-Shot Composed Image Retrieval (ZS-CIR)を提案する。
論文 参考訳(メタデータ) (2023-02-06T19:40:04Z) - BOSS: Bottom-up Cross-modal Semantic Composition with Hybrid
Counterfactual Training for Robust Content-based Image Retrieval [61.803481264081036]
CIR(Content-Based Image Retrieval)は,サンプル画像と補完テキストの合成を同時に解釈することで,対象画像の検索を目的とする。
本稿では,新しいアンダーラインtextbfBottom-up crunderlinetextbfOss-modal underlinetextbfSemantic compounderlinetextbfSition (textbfBOSS) とHybrid Counterfactual Training frameworkを用いてこの問題に取り組む。
論文 参考訳(メタデータ) (2022-07-09T07:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。