論文の概要: FreestyleRet: Retrieving Images from Style-Diversified Queries
- arxiv url: http://arxiv.org/abs/2312.02428v1
- Date: Tue, 5 Dec 2023 02:07:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 17:17:45.899599
- Title: FreestyleRet: Retrieving Images from Style-Diversified Queries
- Title(参考訳): FreestyleRet:スタイルの異なるクエリから画像を取得する
- Authors: Hao Li, Curise Jia, Peng Jin, Zesen Cheng, Kehan Li, Jialu Sui, Chang
Liu, Li Yuan
- Abstract要約: Style-Diversified Query-Based Image Retrievalタスクは、さまざまなクエリスタイルに基づいた検索を可能にする。
テキスト,スケッチ,低解像度,アートなど,さまざまなクエリスタイルを含む,最初のDiverse-Style Retrievalデータセットを提案する。
提案手法は,スタイルインプット・プロンプト・チューニング・ストラテジーを駆使して,従来の検索モデルよりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 17.253021422951928
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image Retrieval aims to retrieve corresponding images based on a given query.
In application scenarios, users intend to express their retrieval intent
through various query styles. However, current retrieval tasks predominantly
focus on text-query retrieval exploration, leading to limited retrieval query
options and potential ambiguity or bias in user intention. In this paper, we
propose the Style-Diversified Query-Based Image Retrieval task, which enables
retrieval based on various query styles. To facilitate the novel setting, we
propose the first Diverse-Style Retrieval dataset, encompassing diverse query
styles including text, sketch, low-resolution, and art. We also propose a
light-weighted style-diversified retrieval framework. For various query style
inputs, we apply the Gram Matrix to extract the query's textural features and
cluster them into a style space with style-specific bases. Then we employ the
style-init prompt tuning module to enable the visual encoder to comprehend the
texture and style information of the query. Experiments demonstrate that our
model, employing the style-init prompt tuning strategy, outperforms existing
retrieval models on the style-diversified retrieval task. Moreover,
style-diversified queries~(sketch+text, art+text, etc) can be simultaneously
retrieved in our model. The auxiliary information from other queries enhances
the retrieval performance within the respective query.
- Abstract(参考訳): Image Retrievalは、所定のクエリに基づいて対応するイメージを取得することを目的としている。
アプリケーションシナリオでは、ユーザは様々なクエリスタイルで検索意図を表現する。
しかし、現在の検索タスクは、主にテキスト検索検索の探索に焦点を当てており、検索クエリオプションの制限と、ユーザの意図におけるあいまいさやバイアスの可能性を生んでいる。
本稿では,様々なクエリスタイルに基づいた検索が可能なスタイル分散クエリベース画像検索タスクを提案する。
そこで本研究では,テキスト,スケッチ,低解像度,アートなどの多様な問合せスタイルを包含する,最初の多彩な検索データセットを提案する。
また,軽量なスタイル分散検索フレームワークを提案する。
様々なクエリスタイル入力に対して、gramマトリックスを適用してクエリのテキスト特徴を抽出し、スタイル固有のベースを持つスタイル空間にクラスタ化する。
次に,ビジュアルエンコーダがクエリのテクスチャやスタイル情報を理解できるように,スタイルイントプロンプトチューニングモジュールを使用する。
実験により,本モデルでは,スタイルインシプリタ・インシプリタ・チューニング・ストラテジーを用いて,既存の検索モデルよりも高い性能を示した。
さらに、このモデルでは、スタイルの異なるクエリ~(sketch+text、art+textなど)を同時に検索できます。
他のクエリからの補助情報により、各クエリ内の検索性能が向上する。
関連論文リスト
- Query-oriented Data Augmentation for Session Search [71.84678750612754]
本稿では,検索ログの強化とモデリングの強化を目的としたクエリ指向データ拡張を提案する。
検索コンテキストの最も重要な部分を変更することで補足的なトレーニングペアを生成する。
我々は、現在のクエリを変更するためのいくつかの戦略を開発し、その結果、様々な難易度で新しいトレーニングデータを得る。
論文 参考訳(メタデータ) (2024-07-04T08:08:33Z) - Measuring Style Similarity in Diffusion Models [118.22433042873136]
画像からスタイル記述子を理解し抽出するためのフレームワークを提案する。
我々のフレームワークは、スタイルが画像の主観的特性であるという洞察を用いてキュレートされた新しいデータセットで構成されている。
また、テキスト・ツー・イメージ・モデルのトレーニングデータセットで使用される画像に対して、生成した画像のスタイルに使用できるスタイル属性記述子を抽出する手法を提案する。
論文 参考訳(メタデータ) (2024-04-01T17:58:30Z) - End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。
本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。
ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T08:04:12Z) - Decomposing Complex Queries for Tip-of-the-tongue Retrieval [72.07449449115167]
複雑なクエリは、コンテンツ要素(例えば、書籍の文字やイベント)、ドキュメントテキスト以外の情報を記述する。
この検索設定は舌の先端 (TOT) と呼ばれ、クエリと文書テキスト間の語彙的および意味的重複に依存するモデルでは特に困難である。
クエリを個別のヒントに分解し、サブクエリとしてルーティングし、特定の検索者にルーティングし、結果をアンサンブルすることで、このような複雑なクエリを扱うための、シンプルで効果的なフレームワークを導入します。
論文 参考訳(メタデータ) (2023-05-24T11:43:40Z) - Bi-directional Training for Composed Image Retrieval via Text Prompt
Learning [46.60334745348141]
合成画像検索は、参照画像と修正テキストからなるマルチモーダルユーザクエリに基づいて、対象画像の検索を行う。
本稿では,このような逆クエリを活用し,既存の合成画像検索アーキテクチャに適用可能な双方向トレーニング手法を提案する。
2つの標準データセットに対する実験により,我々の新しい手法はベースラインBLIPモデルよりも性能が向上することが示された。
論文 参考訳(メタデータ) (2023-03-29T11:37:41Z) - Self-supervised Multi-view Disentanglement for Expansion of Visual
Collections [6.944742823561]
類似した画像に対する問い合わせが画像の集合から導出される設定について考察する。
ビジュアルサーチでは、類似度の測定は複数の軸に沿って行うか、スタイルや色などのビューで行うことができる。
本研究の目的は,複数のビューからの表現に対して計算された類似性を効果的に組み合わせた検索アルゴリズムを設計することである。
論文 参考訳(メタデータ) (2023-02-04T22:09:17Z) - Progressive Learning for Image Retrieval with Hybrid-Modality Queries [48.79599320198615]
ハイブリッドモダリティクエリによる画像検索(CTI-IR)
我々は、CTI-IRタスクを3段階の学習問題に分解し、ハイブリッドモダリティクエリを用いて画像検索のための複雑な知識を段階的に学習する。
提案モデルは,Fashion-IQおよびShoesベンチマークデータセットにおいて,Recall@K平均の最先端手法を24.9%,9.5%向上させる。
論文 参考訳(メタデータ) (2022-04-24T08:10:06Z) - Probabilistic Compositional Embeddings for Multimodal Image Retrieval [48.450232527041436]
画像検索において複数のマルチモーダルクエリを構成する上で,より困難なシナリオについて検討する。
任意の数のクエリイメージと(あるいは)テキストが与えられた場合、我々のゴールは、複数のマルチモーダルクエリで指定されたセマンティックな概念を含むターゲットイメージを検索することである。
様々なクエリのセマンティクスを柔軟にエンコードできる情報埋め込みを学習するための,新しい多モード確率的合成法(MPC)を提案する。
論文 参考訳(メタデータ) (2022-04-12T14:45:37Z) - ARTEMIS: Attention-based Retrieval with Text-Explicit Matching and
Implicit Similarity [16.550790981646276]
現在のアプローチでは、クエリの2つの要素のそれぞれの特徴をひとつの表現にまとめています。
本研究の目的は,テキスト・ツー・イメージ検索と画像・ツー・イメージ検索という,慣れ親しんだ2つのフレームワークのプリズムを通じてタスクに新たな光を当てることである。
論文 参考訳(メタデータ) (2022-03-15T17:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。