論文の概要: Personalizing Retrieval using Joint Embeddings or "the Return of Fluffy"
- arxiv url: http://arxiv.org/abs/2510.05411v1
- Date: Mon, 06 Oct 2025 22:08:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.006753
- Title: Personalizing Retrieval using Joint Embeddings or "the Return of Fluffy"
- Title(参考訳): 共同埋め込みや「ふわふわの返却」を利用した検索
- Authors: Bruno Korbar, Andrew Zisserman,
- Abstract要約: ローカルイメージ埋め込み(オブジェクトインスタンスの)からテキストトークンへの"翻訳"が可能なマッピングネットワークを設計する。
トレーニング可能な地図ネットワークであるpi-mapと凍結したCLIPテキストと画像エンコーダの併用によるアプローチは、パーソナライズされた検索を評価するために設計された2つのベンチマークにおいて、技術の状態を改善することを示す。
- 参考スコア(独自算出の注目度): 55.07411490538404
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The goal of this paper is to be able to retrieve images using a compound query that combines object instance information from an image, with a natural text description of what that object is doing or where it is. For example, to retrieve an image of "Fluffy the unicorn (specified by an image) on someone's head". To achieve this we design a mapping network that can "translate" from a local image embedding (of the object instance) to a text token, such that the combination of the token and a natural language query is suitable for CLIP style text encoding, and image retrieval. Generating a text token in this manner involves a simple training procedure, that only needs to be performed once for each object instance. We show that our approach of using a trainable mapping network, termed pi-map, together with frozen CLIP text and image encoders, improves the state of the art on two benchmarks designed to assess personalized retrieval.
- Abstract(参考訳): 本論文の目的は、画像からオブジェクトのインスタンス情報と、そのオブジェクトが何をしているか、どこにあるのかを自然なテキストで記述した複合クエリを用いて、画像の検索を可能にすることである。
例えば、"Fluffy the unicorn (画像によって特定) on someone's head"のイメージを取得する。
そこで我々は,CLIPスタイルのテキストエンコーディングや画像検索に適した,局所的な画像埋め込み(オブジェクトインスタンスの)からテキストトークンへの"翻訳"が可能なマッピングネットワークを設計した。
このような方法でテキストトークンを生成するには、各オブジェクトインスタンスに対して一度だけ実行する必要のある、単純なトレーニング手順が必要です。
トレーニング可能な地図ネットワークであるpi-mapと凍結したCLIPテキストと画像エンコーダを併用することで、パーソナライズされた検索を評価するために設計された2つのベンチマークの最先端性を向上することを示す。
関連論文リスト
- Knowledge-Enhanced Dual-stream Zero-shot Composed Image Retrieval [53.89454443114146]
本研究では,ゼロショット合成画像検索タスク(ZS-CIR)について検討した。
従来の作品では、参照画像の特徴をテキスト埋め込み空間に投影することで、擬似ワードトークンを生成する。
知識強化型デュアルストリームゼロショット合成画像検索フレームワーク(KEDs)を提案する。
KEDはデータベースを組み込むことで、参照画像の属性を暗黙的にモデル化する。
論文 参考訳(メタデータ) (2024-03-24T04:23:56Z) - Text-based Person Search without Parallel Image-Text Data [52.63433741872629]
テキストベースの人物探索(TBPS)は,対象者の画像を与えられた自然言語記述に基づいて大きな画像ギャラリーから検索することを目的としている。
既存の手法は、並列画像テキストペアによるトレーニングモデルによって支配されており、収集には非常にコストがかかる。
本稿では,並列画像テキストデータなしでTBPSを探索する試みについて述べる。
論文 参考訳(メタデータ) (2023-05-22T12:13:08Z) - Bi-directional Training for Composed Image Retrieval via Text Prompt
Learning [46.60334745348141]
合成画像検索は、参照画像と修正テキストからなるマルチモーダルユーザクエリに基づいて、対象画像の検索を行う。
本稿では,このような逆クエリを活用し,既存の合成画像検索アーキテクチャに適用可能な双方向トレーニング手法を提案する。
2つの標準データセットに対する実験により,我々の新しい手法はベースラインBLIPモデルよりも性能が向上することが示された。
論文 参考訳(メタデータ) (2023-03-29T11:37:41Z) - End-to-end Semantic Object Detection with Cross-Modal Alignment [0.0]
提案文のアライメントはコントラスト学習を用いて行われ、テキストクエリとのセマンティックアライメントを反映した各提案のスコアを生成する。
領域提案ネットワーク(RPN)はオブジェクト提案を生成するために使用され、エンドツーエンドのトレーニングプロセスにより、セマンティックイメージ検索の効率的かつ効果的なソリューションが実現される。
論文 参考訳(メタデータ) (2023-02-10T12:06:18Z) - ARTEMIS: Attention-based Retrieval with Text-Explicit Matching and
Implicit Similarity [16.550790981646276]
現在のアプローチでは、クエリの2つの要素のそれぞれの特徴をひとつの表現にまとめています。
本研究の目的は,テキスト・ツー・イメージ検索と画像・ツー・イメージ検索という,慣れ親しんだ2つのフレームワークのプリズムを通じてタスクに新たな光を当てることである。
論文 参考訳(メタデータ) (2022-03-15T17:29:20Z) - CLIP-GEN: Language-Free Training of a Text-to-Image Generator with CLIP [17.861540412002967]
一般的なテキスト・画像生成のための自己教師型スキームであるCLIP-GENを提案する。
提案手法では,テキスト・ツー・イメージ・ジェネレータをトレーニングするには,一般領域におけるラベルなし画像のセットのみが必要となる。
本手法は画像品質の点で最適化に基づくテキスト・画像の手法よりも優れる。
論文 参考訳(メタデータ) (2022-03-01T12:11:32Z) - Telling the What while Pointing the Where: Fine-grained Mouse Trace and
Language Supervision for Improved Image Retrieval [60.24860627782486]
きめ細かい画像検索は、しばしば、探しているコンテンツがどこにあるかを表現する能力を必要とする。
本稿では,ユーザが音声自然言語(“What”)とマウスが空のキャンバス(“where”)にトレースした画像を同時に記述する画像検索装置について述べる。
我々のモデルは、この空間的ガイダンスを考慮に入れ、テキストのみの等価システムと比較して、より正確な検索結果を提供する。
論文 参考訳(メタデータ) (2021-02-09T17:54:34Z) - Expressing Objects just like Words: Recurrent Visual Embedding for
Image-Text Matching [102.62343739435289]
既存の画像テキストマッチングアプローチは、テキストと画像の各独立オブジェクト間の親和性をキャプチャして集約することにより、画像テキストペアの類似性を推測する。
本稿では,リカレントニューラルネットワーク(RNN)を用いて画像と文を対称に処理するDual Path Recurrent Neural Network (DP-RNN)を提案する。
我々のモデルはFlickr30Kデータセットの最先端性能とMS-COCOデータセットの競合性能を達成する。
論文 参考訳(メタデータ) (2020-02-20T00:51:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。