論文の概要: Learning Visual Prompts for Guiding the Attention of Vision Transformers
- arxiv url: http://arxiv.org/abs/2406.03303v1
- Date: Wed, 5 Jun 2024 14:13:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 18:01:08.349778
- Title: Learning Visual Prompts for Guiding the Attention of Vision Transformers
- Title(参考訳): 視覚変換器の注意を誘導する視覚プロンプトの学習
- Authors: Razieh Rezaei, Masoud Jalili Sabet, Jindong Gu, Daniel Rueckert, Philip Torr, Ashkan Khakzar,
- Abstract要約: 本研究は、視覚変換器の注意を導くための視覚的プロンプトを学習することを提案する。
入力画像に追加される学習された視覚的プロンプトは、事前訓練された視覚変換器の注意を画像上の空間的位置にリダイレクトする。
- 参考スコア(独自算出の注目度): 29.023448448047805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual prompting infuses visual information into the input image to adapt models toward specific predictions and tasks. Recently, manually crafted markers such as red circles are shown to guide the model to attend to a target region on the image. However, these markers only work on models trained with data containing those markers. Moreover, finding these prompts requires guesswork or prior knowledge of the domain on which the model is trained. This work circumvents manual design constraints by proposing to learn the visual prompts for guiding the attention of vision transformers. The learned visual prompt, added to any input image would redirect the attention of the pre-trained vision transformer to its spatial location on the image. Specifically, the prompt is learned in a self-supervised manner without requiring annotations and without fine-tuning the vision transformer. Our experiments demonstrate the effectiveness of the proposed optimization-based visual prompting strategy across various pre-trained vision encoders.
- Abstract(参考訳): 視覚的プロンプトは入力画像に視覚情報を注入し、特定の予測やタスクにモデルを適応させる。
近年,レッドサークルなどの手作業で作成したマーカーを用いて,画像上の対象領域への参加を誘導する手法が提案されている。
しかし、これらのマーカーは、これらのマーカーを含むデータで訓練されたモデルでのみ動作する。
さらに、これらのプロンプトを見つけるには、モデルがトレーニングされたドメインの推測や事前の知識が必要である。
この研究は、視覚変換器の注意を導くための視覚的プロンプトを学ぶことを提案することで、手動設計の制約を回避する。
入力画像に追加される学習された視覚的プロンプトは、事前訓練された視覚変換器の注意を画像上の空間的位置にリダイレクトする。
特に、プロンプトはアノテーションを必要とせず、視覚変換器を微調整することなく自己指導的に学習される。
本実験は,様々な事前学習された視覚エンコーダを対象とした最適化に基づく視覚的プロンプト戦略の有効性を実証する。
関連論文リスト
- On the Surprising Effectiveness of Attention Transfer for Vision Transformers [118.83572030360843]
従来の知恵は、事前学習型視覚変換器(ViT)が有用な表現を学習することで、下流のパフォーマンスを向上させることを示唆している。
予備学習で学んだ特徴や表現は必須ではない。
論文 参考訳(メタデータ) (2024-11-14T18:59:40Z) - Attention Prompting on Image for Large Vision-Language Models [63.794304207664176]
本稿では,画像上の注意喚起という新しいプロンプト手法を提案する。
我々は,CLIPのような補助モデルを用いて,テキストクエリに依存する入力画像に対するアテンションヒートマップを生成する。
各種バイソン言語ベンチマークの実験により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-09-25T17:59:13Z) - Instruction Tuning-free Visual Token Complement for Multimodal LLMs [51.138806401996696]
マルチモーダルな大言語モデル(MLLM)は、視覚と言語の間のエレガントな橋渡しを約束している。
本稿では,MLLM が欠落した視覚機能を取り戻すのに役立つ Visual Token Complement フレームワーク (VTC) を提案する。
我々のVTCは、テキスト不関連特徴を特定するためのガイドとしてテキスト・ツー・イメージ生成を統合し、視覚的セレクタを開発し、補完的な視覚的トークンを生成する。
論文 参考訳(メタデータ) (2024-08-09T12:13:01Z) - Vision Transformers Need Registers [26.63912173005165]
教師付きと自己監督型の両方のViTネットワークの特徴マップのアーティファクトを特定し,特徴付けする。
このソリューションは、教師付きモデルと自己教師型モデルの両方で完全にその問題を解決する。
論文 参考訳(メタデータ) (2023-09-28T16:45:46Z) - GeoVLN: Learning Geometry-Enhanced Visual Representation with Slot
Attention for Vision-and-Language Navigation [52.65506307440127]
我々は,ロバストなビジュアル・アンド・ランゲージナビゲーションのためのスロットアテンションに基づく幾何学的視覚表現を学習するGeoVLNを提案する。
我々はV&L BERTを用いて言語情報と視覚情報の両方を組み込んだクロスモーダル表現を学習する。
論文 参考訳(メタデータ) (2023-05-26T17:15:22Z) - Rethinking Visual Prompt Learning as Masked Visual Token Modeling [106.71983630652323]
マスク付き視覚トークンモデリング(VPTM)として視覚プロンプト学習を提案し、下流の視覚分類を事前訓練されたマスク付き視覚トークン予測に変換する。
VPTMは、生成前訓練された視覚モデルにおける最初の視覚的プロンプト法であり、タスク修正による事前学習と下流視覚分類の整合性を実現する。
論文 参考訳(メタデータ) (2023-03-09T02:43:10Z) - Visual Prompt Tuning for Generative Transfer Learning [26.895321693202284]
生成的知識伝達による視覚変換器の学習法を提案する。
我々は,映像を自己回帰的あるいは非自己回帰的変換器への視覚トークンのシーケンスとして表現する最先端の生成的視覚変換器を基盤とする。
新しい領域に適応するために、画像トークンシーケンスへのプロンプトと呼ばれる学習可能なトークンを優先するプロンプトチューニングを用いる。
論文 参考訳(メタデータ) (2022-10-03T14:56:05Z) - Pre-training image-language transformers for open-vocabulary tasks [53.446599611203474]
本稿では,様々なタスクの混合に基づく視覚・言語トランスフォーマーモデルに対する事前学習手法を提案する。
本稿では,事前学習における画像テキストキャプションデータの利用について検討する。
本研究では,視覚質問応答,視覚的エンターテイメント,キャプションなど,テキスト生成型視覚+言語タスクの手法の評価を行い,標準的な事前学習手法よりも大きな効果を示した。
論文 参考訳(メタデータ) (2022-09-09T16:11:11Z) - Learning Visual Representations with Caption Annotations [19.24013129952071]
本稿では,視覚的表現をイメージ・キャプション・ペア上で学習するプロキシ・タスクを提案する。
ICMLMは視覚的手がかりに頼って字幕中のマスキング語を予測する。
実験の結果,画像キャプションを利用してグローバルな意味情報を視覚表現に注入できることが確認された。
論文 参考訳(メタデータ) (2020-08-04T08:04:16Z) - Learning to Visually Navigate in Photorealistic Environments Without any
Supervision [37.22924101745505]
外部の監督や報酬を伴わずに画像入力から学習するための新しいアプローチを導入する。
我々のアプローチは3つの段階から構成される: 一人称視点の優れた表現を学習し、次に記憶を用いて探索することを学ぶ。
エージェントを訓練して、RGB入力のみでギブソンデータセットから挑戦的な写真リアリスティック環境をナビゲートすることで、このアプローチの利点を示す。
論文 参考訳(メタデータ) (2020-04-10T08:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。