Fugu-MT 論文翻訳(概要): Pix2Key: Controllable Open-Vocabulary Retrieval with Semantic Decomposition and Self-Supervised Visual Dictionary Learning

論文の概要: Pix2Key: Controllable Open-Vocabulary Retrieval with Semantic Decomposition and Self-Supervised Visual Dictionary Learning

arxiv url: http://arxiv.org/abs/2602.22510v1
Date: Thu, 26 Feb 2026 01:03:23 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 18:41:22.461354
Title: Pix2Key: Controllable Open-Vocabulary Retrieval with Semantic Decomposition and Self-Supervised Visual Dictionary Learning
Title（参考訳）: Pix2Key:セマンティック分解と自己教師付きビジュアル辞書学習による制御可能なオープン語彙検索
Authors: Guoyizhe Wei, Yang Jiao, Nan Xi, Zhishen Huang, Jingjing Meng, Rama Chellappa, Yan Gao,
Abstract要約: Composed Image Retrieval (CIR)は、参照画像と自然言語編集を使用して、要求された変更を適用するイメージを検索する。クエリと候補の両方をオープン語彙のビジュアル辞書として表現するPix2Keyを提案する。
参考スコア（独自算出の注目度）: 44.83513975626648
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Composed Image Retrieval (CIR) uses a reference image plus a natural-language edit to retrieve images that apply the requested change while preserving other relevant visual content. Classic fusion pipelines typically rely on supervised triplets and can lose fine-grained cues, while recent zero-shot approaches often caption the reference image and merge the caption with the edit, which may miss implicit user intent and return repetitive results. We present Pix2Key, which represents both queries and candidates as open-vocabulary visual dictionaries, enabling intent-aware constraint matching and diversity-aware reranking in a unified embedding space. A self-supervised pretraining component, V-Dict-AE, further improves the dictionary representation using only images, strengthening fine-grained attribute understanding without CIR-specific supervision. On the DFMM-Compose benchmark, Pix2Key improves Recall@10 up to 3.2 points, and adding V-Dict-AE yields an additional 2.3-point gain while improving intent consistency and maintaining high list diversity.
Abstract（参考訳）: Composed Image Retrieval (CIR)は、参照画像と自然言語編集を使用して、他の関連するビジュアルコンテンツを保存しながら、要求された変更を適用した画像を検索する。古典的な融合パイプラインは、典型的には教師付き三重項に依存しており、きめ細かな手がかりを失うことがあるが、最近のゼロショットアプローチでは、しばしば参照イメージをキャプションし、そのキャプションを編集とマージし、暗黙のユーザ意図を見逃して繰り返し結果を返す。本稿では、クエリと候補の両方をオープン語彙のビジュアル辞書として表現し、統合された埋め込み空間における意図認識制約マッチングと多様性認識の再評価を可能にするPix2Keyを提案する。自己教師付き事前学習コンポーネントであるV-Dict-AEは、画像のみを用いた辞書表現をさらに改善し、CIR固有の監督なしに詳細な属性理解を強化する。 DFMM-Composeベンチマークでは、Pix2KeyはRecall@10を3.2ポイントまで改善し、V-Dict-AEを追加することでインテントの一貫性を改善し、高いリストの多様性を維持する。

関連論文リスト

Fine-Grained Zero-Shot Composed Image Retrieval with Complementary Visual-Semantic Integration [64.12127577975696]
ゼロショット合成画像検索(ZS-CIR)は急速に発展し,実用化が進んでいる分野である。既存のZS-CIR法は、細粒度の変化を捉え、視覚情報と意味情報を効果的に統合するのに苦労することが多い。補足型ビジュアルセマンティック統合を用いたファイングラインドゼロショット合成画像検索手法を提案する。
論文参考訳（メタデータ） (2026-01-20T15:17:14Z)
DictAS: A Framework for Class-Generalizable Few-Shot Anomaly Segmentation via Dictionary Lookup [19.78332125963566]
対象データに再トレーニングを加えることなく、未確認対象カテゴリの視覚異常を検出するための統合モデルであるDictASを提案する。 D DictASは主に3つのコンポーネントから構成される: 辞書構築 - 通常の参照画像の特徴を使って実辞書のインデックスと内容をシミュレートする。 7つの公開産業および医療データセットの実験により、DictASは最先端のFSAS手法を一貫して上回っていることが示された。
論文参考訳（メタデータ） (2025-08-19T06:38:56Z)
OFFSET: Segmentation-based Focus Shift Revision for Composed Image Retrieval [59.377821673653436]
Composed Image Retrieval (CIR)は、ユーザの複雑な検索要求を柔軟に表現することができる。 1) 視覚データにおける支配的部分とノイズ的部分の不均一性は無視され、クエリー特徴が劣化する。本研究は、主部分分割と二重焦点写像という2つのモジュールからなる集中写像に基づく特徴抽出器を提案する。
論文参考訳（メタデータ） (2025-07-08T03:27:46Z)
Fine-grained Textual Inversion Network for Zero-Shot Composed Image Retrieval [60.20835288280572]
本稿では,FTI4CIR という ZS-CIR のためのテキスト・インバージョン・ネットワークを提案する。 FTI4CIRは、微粒な擬ワードトークンマッピングとトリワイズキャプションベースのセマンティック正規化の2つの主要コンポーネントから構成される。
論文参考訳（メタデータ） (2025-03-25T02:51:25Z)
Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文参考訳（メタデータ） (2023-10-09T07:31:44Z)
Collaborative Group: Composed Image Retrieval via Consensus Learning from Noisy Annotations [67.92679668612858]
我々は,集団が個人より優れているという心理的概念に触発されたコンセンサスネットワーク(Css-Net)を提案する。 Css-Netは,(1)コンセンサスモジュールと4つのコンセンサスモジュール,(2)コンセンサス間の相互作用の学習を促進するKulback-Leibler分散損失の2つのコアコンポーネントから構成される。ベンチマークデータセット、特にFashionIQでは、Css-Netが大幅に改善されている。特に、R@10が2.77%、R@50が6.67%増加し、リコールが大幅に向上している。
論文参考訳（メタデータ） (2023-06-03T11:50:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。