論文の概要: HINT: Composed Image Retrieval with Dual-path Compositional Contextualized Network
- arxiv url: http://arxiv.org/abs/2603.26341v1
- Date: Fri, 27 Mar 2026 12:01:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.485156
- Title: HINT: Composed Image Retrieval with Dual-path Compositional Contextualized Network
- Title(参考訳): HINT:デュアルパス構成文脈ネットワークを用いた画像検索
- Authors: Mingyu Zhang, Zixu Li, Zhiwei Chen, Zhiheng Fu, Xiaowei Zhu, Jiajia Nie, Yinwei Wei, Yupeng Hu,
- Abstract要約: Composed Image Retrieval (CIR) は難しい画像検索パラダイムである。
本稿では,文脈的符号化を行い,マッチングと非マッチングの類似性の違いを増幅する2つのpatHsItional coNtextualized neTwork (HINT)を提案する。
我々のHINTモデルは、2つのCIRベンチマークデータセットにまたがるすべてのメトリクスで最適なパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 32.657095507841085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Composed Image Retrieval (CIR) is a challenging image retrieval paradigm. It aims to retrieve target images from large-scale image databases that are consistent with the modification semantics, based on a multimodal query composed of a reference image and modification text. Although existing methods have made significant progress in cross-modal alignment and feature fusion, a key flaw remains: the neglect of contextual information in discriminating matching samples. However, addressing this limitation is not an easy task due to two challenges: 1) implicit dependencies and 2) the lack of a differential amplification mechanism. To address these challenges, we propose a dual-patH composItional coNtextualized neTwork (HINT), which can perform contextualized encoding and amplify the similarity differences between matching and non-matching samples, thus improving the upper performance of CIR models in complex scenarios. Our HINT model achieves optimal performance on all metrics across two CIR benchmark datasets, demonstrating the superiority of our HINT model. Codes are available at https://github.com/zh-mingyu/HINT.
- Abstract(参考訳): Composed Image Retrieval (CIR) は難しい画像検索パラダイムである。
本研究の目的は、参照画像と修正テキストからなるマルチモーダルクエリに基づいて、修正セマンティクスと整合した大規模画像データベースからターゲット画像を取得することである。
既存の手法は、クロスモーダルアライメントと特徴融合において大きな進歩を遂げているが、重要な欠点は、マッチングサンプルの識別における文脈情報の無視である。
しかし、2つの課題があるため、この制限に対処するのは簡単な作業ではない。
1)暗黙の依存関係
2) 差動増幅機構の欠如。
これらの課題に対処するために,2つのpatH合成coNtextualized neTwork (HINT)を提案する。
我々のHINTモデルは、2つのCIRベンチマークデータセットにまたがるすべてのメトリクスで最適なパフォーマンスを実現し、HINTモデルの優位性を実証します。
コードはhttps://github.com/zh-mingyu/HINT.comで公開されている。
関連論文リスト
- WISER: Wider Search, Deeper Thinking, and Adaptive Fusion for Training-Free Zero-Shot Composed Image Retrieval [36.577766022251446]
ZS-CIRは、マルチモーダルクエリがアノテートされたトリプレットをトレーニングすることなく、ターゲット画像を取得することを目的としている。
我々は,T2IとI2Iを"検索-検証-精細化"パイプラインを介して統合する,トレーニング不要のフレームワークであるWISERを提案する。
論文 参考訳(メタデータ) (2026-02-26T14:11:10Z) - CoLLM: A Large Language Model for Composed Image Retrieval [76.29725148964368]
Composed Image Retrieval (CIR)は、マルチモーダルクエリに基づいた画像検索を目的とした複雑なタスクである。
本稿では,イメージキャプションペアからトリプレットをオンザフライで生成するワンストップフレームワークであるCoLLMを提案する。
我々はLarge Language Models (LLMs) を利用して参照画像の埋め込みと修正テキストを生成する。
論文 参考訳(メタデータ) (2025-03-25T17:59:50Z) - MMAIF: Multi-task and Multi-degradation All-in-One for Image Fusion with Language Guidance [11.023241681116295]
本稿では,マルチタスク,マルチデグラデーション,言語誘導画像融合のための統一的なフレームワークを提案する。
本フレームワークは,1)実世界の画像劣化をシミュレートし,モデルを誘導するインタラクティブなプロンプトを生成する実用的な劣化パイプライン,2)遅延空間で動作するオールインワントランスフォーマー(DiT)と,劣化した入力と生成されたプロンプトの両方に条件付きクリーンなイメージを融合させる。
論文 参考訳(メタデータ) (2025-03-19T07:20:02Z) - Modality and Task Adaptation for Enhanced Zero-shot Composed Image Retrieval [20.612534837883892]
Zero-Shot Composed Image Retrieval (ZS-CIR) はバイモーダル (image+text) クエリを用いてターゲット画像を取得するように設計されている。
本稿では,2つのコンポーネントからなる軽量なポストホックフレームワークを提案する。
実験により,提案するコンポーネントを組み込むことで,インバージョンに基づく手法が大幅な改善を実現することが示された。
論文 参考訳(メタデータ) (2024-10-31T08:49:05Z) - Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。
本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。
提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文 参考訳(メタデータ) (2023-10-09T07:31:44Z) - Data Roaming and Quality Assessment for Composed Image Retrieval [25.452015862927766]
Composed Image Retrieval (CoIR)は、画像とテキストのモダリティを組み合わせたクエリで、ユーザがより効果的にインテントを表現できるようにする。
我々は,既存のものより10倍大きい新しいCoIRデータセットであるLaSCoデータセットを紹介する。
また、新しいCoIRベースラインであるCASE(Cross-Attention driven Shift)も導入する。
論文 参考訳(メタデータ) (2023-03-16T16:02:24Z) - Reference-based Image and Video Super-Resolution via C2-Matching [100.0808130445653]
本稿では,C2-Matchingを提案する。
C2-Matchingは、標準的なCUFED5ベンチマークにおいて、最先端のアーツを著しく上回っている。
また、類似シーンで撮影された画像がHR参照画像として機能するため、C2-Matchingを参照ベースでビデオスーパーリゾリューションタスクに拡張する。
論文 参考訳(メタデータ) (2022-12-19T16:15:02Z) - DDet: Dual-path Dynamic Enhancement Network for Real-World Image
Super-Resolution [69.2432352477966]
実画像超解像(Real-SR)は、実世界の高分解能画像(HR)と低分解能画像(LR)の関係に焦点を当てている。
本稿では,Real-SRのためのデュアルパス動的拡張ネットワーク(DDet)を提案する。
特徴表現のための大規模な畳み込みブロックを積み重ねる従来の手法とは異なり、非一貫性のある画像対を研究するためのコンテンツ認識フレームワークを導入する。
論文 参考訳(メタデータ) (2020-02-25T18:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。