論文の概要: Visual Attention Prompted Prediction and Learning
- arxiv url: http://arxiv.org/abs/2310.08420v3
- Date: Wed, 24 Apr 2024 03:35:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 23:47:37.515795
- Title: Visual Attention Prompted Prediction and Learning
- Title(参考訳): 視覚的注意刺激による予測と学習
- Authors: Yifei Zhang, Siyi Gu, Bo Pan, Guangji Bai, Meikang Qiu, Xiaofeng Yang, Liang Zhao,
- Abstract要約: 本稿では,視覚的プロンプトを利用してモデルの推論過程を制御し,注意喚起による予測と学習のための新しい枠組みを提案する。
4つのデータセットを用いた実験により,提案手法の有効性が示唆された。
- 参考スコア(独自算出の注目度): 18.29952735827087
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual explanation (attention)-guided learning uses not only labels but also explanations to guide model reasoning process. While visual attention-guided learning has shown promising results, it requires a large number of explanation annotations that are time-consuming to prepare. However, in many real-world situations, it is usually desired to prompt the model with visual attention without model retraining. For example, when doing AI-assisted cancer classification on a medical image, users (e.g., clinicians) can provide the AI model with visual attention prompt on which areas are indispensable and which are precluded. Despite its promising objectives, achieving visual attention-prompted prediction presents several major challenges: 1) How can the visual prompt be effectively integrated into the model's reasoning process? 2) How should the model handle samples that lack visual prompts? 3) What is the impact on the model's performance when a visual prompt is imperfect? This paper introduces a novel framework for attention-prompted prediction and learning, utilizing visual prompts to steer the model's reasoning process. To improve performance in non-prompted situations and align it with prompted scenarios, we propose a co-training approach for both non-prompted and prompted models, ensuring they share similar parameters and activations. Additionally, for instances where the visual prompt does not encompass the entire input image, we have developed innovative attention prompt refinement methods. These methods interpolate the incomplete prompts while maintaining alignment with the model's explanations. Extensive experiments on four datasets demonstrate the effectiveness of our proposed framework in enhancing predictions for samples both with and without prompt.
- Abstract(参考訳): 視覚的説明(注意)誘導学習はラベルだけでなく、モデル推論プロセスのガイドにも用いられる。
視覚的注意誘導学習は有望な結果を示しているが、準備に時間を要する多くの説明アノテーションが必要である。
しかし、現実の多くの状況では、モデルの再訓練なしに視覚的注意を喚起することが望まれる。
例えば、医療画像上でAI支援がん分類を行う場合、利用者(例えば臨床医)は、どの領域が必須で、どの領域が除外されているかという視覚的な注意喚起をAIモデルに提供することができる。
その有望な目標にもかかわらず、視覚的な注意を喚起する予測を達成することは、いくつかの大きな課題を提示する。
1) モデル推論プロセスに視覚的プロンプトを効果的に組み込むには,どうすればよいのか?
2) 視覚的なプロンプトを欠いたサンプルをどう扱うべきか?
3)視覚的プロンプトが不完全である場合,モデルのパフォーマンスにどのような影響があるのか?
本稿では,視覚的プロンプトを利用してモデルの推論過程を制御し,注意喚起による予測と学習のための新しい枠組みを提案する。
非プロンプト状況における性能向上と、それに伴うシナリオの調整を目的として、非プロンプトモデルとプロンプトモデルの両方に対する協調学習手法を提案し、同様のパラメータとアクティベーションの共有を保証した。
さらに、視覚的プロンプトが入力画像全体を包含していない場合、革新的な注意喚起プロンプト改善法が開発されている。
これらの手法は、モデルの説明と整合性を維持しながら不完全なプロンプトを補間する。
4つのデータセットに対する大規模な実験により,提案手法の有効性が実証された。
関連論文リスト
- Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Interpretable Visual Question Answering via Reasoning Supervision [4.76359068115052]
トランスフォーマーベースのアーキテクチャは、最近Visual Question Answering (VQA)タスクで顕著なパフォーマンスを示している。
本稿では,視覚的質問応答のための新しいアーキテクチャを提案する。
提案手法がモデルの視覚知覚能力を向上し,性能向上につながることを定量的かつ定性的に示す。
論文 参考訳(メタデータ) (2023-09-07T14:12:31Z) - Knowledge-Aware Prompt Tuning for Generalizable Vision-Language Models [64.24227572048075]
本稿では,視覚言語モデルのためのKnowledge-Aware Prompt Tuning(KAPT)フレームワークを提案する。
我々のアプローチは、人間の知性からインスピレーションを得ており、外部知識は、通常、オブジェクトの新たなカテゴリを認識するために組み込まれています。
論文 参考訳(メタデータ) (2023-08-22T04:24:45Z) - On the Role of Attention in Prompt-tuning [90.97555030446563]
本研究では,一層アテンションアーキテクチャのプロンプトチューニングについて検討し,文脈混合モデルについて検討する。
ソフトマックス・プロンプト・アテンションは, ソフトマックス・自己アテンションやリニア・プロンプト・アテンションよりも明らかに表現力が高いことを示す。
また、実際のデータセットに関する理論的洞察を検証し、モデルが文脈関連情報にどのように対応できるかを示す実験も提供する。
論文 参考訳(メタデータ) (2023-06-06T06:23:38Z) - Progressive Visual Prompt Learning with Contrastive Feature Re-formation [14.87078588549903]
本稿では,異なるレイヤのプロンプト間の相互作用を強化するために,プログレッシブ・ビジュアル・プロンプト(ProVP)構造を提案する。
我々のProVPは、画像の埋め込みを深い層に効果的に伝播させ、インスタンス適応的なプロンプトメソッドと部分的に似た振る舞いをすることができる。
我々の知る限り、我々はV-Lモデルにおける視覚的プロンプトの、下流タスクにおける従来のプロンプトベースの手法よりも優れた性能を示す最初の人物である。
論文 参考訳(メタデータ) (2023-04-17T15:54:10Z) - Exploring Effective Factors for Improving Visual In-Context Learning [56.14208975380607]
In-Context Learning(ICL)は、いくつかのデモ(別名プロンプト)を通じて新しいタスクを理解し、モデルをチューニングせずに新しい入力を予測することである。
本稿では,視覚的文脈学習の推論性能に直接的な影響を及ぼす要因として,迅速な選択と迅速な融合があげられる。
視覚的インコンテキスト学習のためのシンプルなフレームワークプロンプトSelFを提案する。
論文 参考訳(メタデータ) (2023-04-10T17:59:04Z) - Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image
Diffusion Models [103.61066310897928]
最近のテキスト・ツー・イメージ生成モデルは、ターゲットのテキスト・プロンプトによって導かれる多様な創造的な画像を生成する非例外的な能力を実証している。
革命的ではあるが、現在の最先端拡散モデルは、与えられたテキストプロンプトのセマンティクスを完全に伝達するイメージの生成に失敗する可能性がある。
本研究では, 一般に公開されている安定拡散モデルを分析し, 破滅的無視の有無を評価し, そのモデルが入力プロンプトから1つ以上の被写体を生成するのに失敗した場合について検討する。
提案するジェネレーティブ・セマンティック・ナーシング(GSN)の概念は、推論時間中にハエの生殖過程に介入し、忠実性を改善するものである。
論文 参考訳(メタデータ) (2023-01-31T18:10:38Z) - Learning to Prompt for Vision-Language Models [82.25005817904027]
視覚言語による事前学習が表現学習の有望な代替手段として登場した。
画像と離散ラベルを使って、視覚的な概念と見なされる一連の重みを学習する伝統から、2つの異なるエンコーダのための画像と生のテキストの整列へと移行する。
このようなパラダイムは、より広範な監視源の恩恵を受け、下流タスクへのゼロショット転送を可能にします。
論文 参考訳(メタデータ) (2021-09-02T17:57:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。