論文の概要: Prompt-Guided Attention Head Selection for Focus-Oriented Image Retrieval
- arxiv url: http://arxiv.org/abs/2504.01348v1
- Date: Wed, 02 Apr 2025 04:33:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:23:07.940710
- Title: Prompt-Guided Attention Head Selection for Focus-Oriented Image Retrieval
- Title(参考訳): 焦点方向画像検索のためのPrompt-Guided Attention Head Selection
- Authors: Yuji Nozawa, Yu-Chieh Lin, Kazumoto Nakamura, Youyang Ng,
- Abstract要約: 視覚変換器(ViT)におけるマルチヘッドアテンション機構の頭部電位を利用するために,プロンプト誘導型アテンションヘッド選択(PHS)を提案する。
PHSは、注意マップをポイント、ボックス、セグメンテーションなどのユーザの視覚的プロンプトとマッチングすることで、特定の注意ヘッドを選択する。
PHSは複数のデータセットのパフォーマンスを大幅に改善し、Focus-Oriented Image Retrieval (FOIR)タスクでモデルパフォーマンスを向上させるための実用的でトレーニング不要なソリューションを提供する。
- 参考スコア(独自算出の注目度): 1.3905735045377272
- License:
- Abstract: The goal of this paper is to enhance pretrained Vision Transformer (ViT) models for focus-oriented image retrieval with visual prompting. In real-world image retrieval scenarios, both query and database images often exhibit complexity, with multiple objects and intricate backgrounds. Users often want to retrieve images with specific object, which we define as the Focus-Oriented Image Retrieval (FOIR) task. While a standard image encoder can be employed to extract image features for similarity matching, it may not perform optimally in the multi-object-based FOIR task. This is because each image is represented by a single global feature vector. To overcome this, a prompt-based image retrieval solution is required. We propose an approach called Prompt-guided attention Head Selection (PHS) to leverage the head-wise potential of the multi-head attention mechanism in ViT in a promptable manner. PHS selects specific attention heads by matching their attention maps with user's visual prompts, such as a point, box, or segmentation. This empowers the model to focus on specific object of interest while preserving the surrounding visual context. Notably, PHS does not necessitate model re-training and avoids any image alteration. Experimental results show that PHS substantially improves performance on multiple datasets, offering a practical and training-free solution to enhance model performance in the FOIR task.
- Abstract(参考訳): 本研究の目的は、視覚的プロンプトによる焦点指向画像検索のための事前学習型視覚変換器(ViT)モデルを強化することである。
実世界の画像検索では、クエリ画像とデータベース画像の両方が複雑で、複数のオブジェクトと複雑な背景を持つことが多い。
ユーザは、Focus-Oriented Image Retrieval (FOIR)タスクとして定義されている、特定のオブジェクトでイメージを検索したい場合が多い。
類似性マッチングのための画像特徴抽出には,標準的な画像エンコーダを用いることができるが,多目的FOIRタスクでは最適に動作しない場合がある。
これは、各画像が単一のグローバルな特徴ベクトルによって表現されるためである。
これを解決するには、プロンプトベースの画像検索ソリューションが必要である。
本稿では,Pmpt-Guided attention Head Selection (PHS) という手法を提案する。
PHSは、注意マップをポイント、ボックス、セグメンテーションなどのユーザの視覚的プロンプトとマッチングすることで、特定の注意ヘッドを選択する。
これによってモデルは、周囲の視覚的コンテキストを維持しながら、特定の関心対象にフォーカスすることが可能になる。
特に、PHSはモデルの再トレーニングを必要とせず、画像の変更を避ける。
実験の結果,PHSは複数のデータセットの性能を大幅に改善し,FOIRタスクにおけるモデル性能を向上させるための実用的でトレーニング不要なソリューションを提供することがわかった。
関連論文リスト
- Ranking-aware adapter for text-driven image ordering with CLIP [76.80965830448781]
本稿では,CLIPモデルを学習からランクへのタスクに再構成する,効率的かつ効率的な手法を提案する。
我々のアプローチは、ランキングの目的のために新しい指示に適応するための学習可能なプロンプトを取り入れている。
私たちのランキングアウェアアダプタは、様々なタスクにおいて微調整されたCLIPよりも一貫して優れています。
論文 参考訳(メタデータ) (2024-12-09T18:51:05Z) - Unifying Image Processing as Visual Prompting Question Answering [62.84955983910612]
画像処理はコンピュータビジョンの基本的な課題であり、画像の品質を高め、その後の視覚アプリケーションに不可欠な特徴を抽出することを目的としている。
伝統的に、タスク固有のモデルは個々のタスクのために開発され、そのようなモデルの設計には異なる専門知識が必要である。
本稿では,画像復元,画像強調,画像特徴抽出タスクを網羅する汎用画像処理モデルを提案する。
論文 参考訳(メタデータ) (2023-10-16T15:32:57Z) - Top-Down Visual Attention from Analysis by Synthesis [87.47527557366593]
我々は、古典的分析・合成(AbS)の視覚的視点からトップダウンの注意を考察する。
本稿では,AbSを変動的に近似したトップダウン変調ViTモデルであるAbSViT(Analytic-by-Synthesis Vision Transformer)を提案する。
論文 参考訳(メタデータ) (2023-03-23T05:17:05Z) - Toward an ImageNet Library of Functions for Global Optimization
Benchmarking [0.0]
本研究では,認識問題を画像認識問題に変換することを提案する。
教師付きマルチクラス画像認識問題として対処し、基本的ニューラルネットワークモデルを適用して解決する。
この明らかに成功した学習は、自動特徴抽出とBBO問題の局所構造推論への別のステップである。
論文 参考訳(メタデータ) (2022-06-27T21:05:00Z) - Two-stage Visual Cues Enhancement Network for Referring Image
Segmentation [89.49412325699537]
Referring Image (RIS)は、ある自然言語表現によって参照される画像から対象のオブジェクトをセグメント化することを目的としている。
本稿では,2段階のビジュアルキュー拡張ネットワーク(TV-Net)を考案し,この問題に対処する。
この2段階の強化により,提案するTV-Netは,自然言語表現と画像間のきめ細かいマッチング動作の学習において,より優れた性能を享受できる。
論文 参考訳(メタデータ) (2021-10-09T02:53:39Z) - Tasks Integrated Networks: Joint Detection and Retrieval for Image
Search [99.49021025124405]
多くの現実世界の探索シナリオ(例えばビデオ監視)では、オブジェクトは正確に検出または注釈付けされることはめったにない。
まず、エンド・ツー・エンド統合ネット(I-Net)を紹介します。
さらに,2つの新しいコントリビューションを行うDC-I-Netという改良されたI-Netを提案する。
論文 参考訳(メタデータ) (2020-09-03T03:57:50Z) - Keypoint-Aligned Embeddings for Image Retrieval and Re-identification [15.356786390476591]
本稿では,画像埋め込みをキーポイントの事前定義された順序に合わせることを提案する。
提案したキーポイント整列埋め込みモデル(KAE-Net)は,マルチタスク学習を通じて部分レベルの特徴を学習する。
CUB-200-2011、Cars196、VeRi-776のベンチマークデータセット上でのアートパフォーマンスの状態を達成している。
論文 参考訳(メタデータ) (2020-08-26T03:56:37Z) - Semantically Tied Paired Cycle Consistency for Any-Shot Sketch-based
Image Retrieval [55.29233996427243]
ローショットスケッチに基づく画像検索はコンピュータビジョンの新たな課題である。
本稿では,ゼロショットおよび少数ショットのスケッチベース画像検索(SBIR)タスクについて述べる。
これらの課題を解決するために,SEM-PCYC(SEM-PCYC)を提案する。
以上の結果から,Sketchy,TU-Berlin,QuickDrawのデータセットを拡張したバージョンでは,最先端の撮影性能が大幅に向上した。
論文 参考訳(メタデータ) (2020-06-20T22:43:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。