論文の概要: Visual Attention-Prompted Prediction and Learning
- arxiv url: http://arxiv.org/abs/2310.08420v2
- Date: Tue, 21 Nov 2023 23:40:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 18:14:17.523308
- Title: Visual Attention-Prompted Prediction and Learning
- Title(参考訳): 視覚的注意喚起予測と学習
- Authors: Yifei Zhang, Siyi Gu, Bo Pan, Guangji Bai, Xiaofeng Yang, Liang Zhao
- Abstract要約: 説明(意図)誘導学習(英: Explanation(attention)-guided learning)は、トレーニングフェーズ中に人間の理解を取り入れることで、モデルの予測力を向上する手法である。
本稿では,モデル再訓練を必要とせずに,アテンションプロンプトによって誘導される直接予測を可能にするアテンションプロンプト・プロンプト予測手法を提案する。
本稿では,視覚的注意喚起をモデル決定プロセスにシームレスに統合する,視覚的注意喚起予測学習という新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 16.855088150305612
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Explanation(attention)-guided learning is a method that enhances a model's
predictive power by incorporating human understanding during the training
phase. While attention-guided learning has shown promising results, it often
involves time-consuming and computationally expensive model retraining. To
address this issue, we introduce the attention-prompted prediction technique,
which enables direct prediction guided by the attention prompt without the need
for model retraining. However, this approach presents several challenges,
including: 1) How to incorporate the visual attention prompt into the model's
decision-making process and leverage it for future predictions even in the
absence of a prompt? and 2) How to handle the incomplete information from the
visual attention prompt? To tackle these challenges, we propose a novel
framework called Visual Attention-Prompted Prediction and Learning, which
seamlessly integrates visual attention prompts into the model's decision-making
process and adapts to images both with and without attention prompts for
prediction. To address the incomplete information of the visual attention
prompt, we introduce a perturbation-based attention map modification method.
Additionally, we propose an optimization-based mask aggregation method with a
new weight learning function for adaptive perturbed annotation aggregation in
the attention map modification process. Our overall framework is designed to
learn in an attention-prompt guided multi-task manner to enhance future
predictions even for samples without attention prompts and trained in an
alternating manner for better convergence. Extensive experiments conducted on
two datasets demonstrate the effectiveness of our proposed framework in
enhancing predictions for samples, both with and without provided prompts.
- Abstract(参考訳): explanation(attention)-guided learningは、トレーニングフェーズ中に人間の理解を取り入れることで、モデルの予測能力を高める手法である。
注意誘導学習は有望な結果を示しているが、しばしば時間と計算コストのかかるモデル再訓練を伴う。
そこで本研究では,モデルの再トレーニングを必要とせず,注意プロンプトによる直接予測を可能にする注意喚起予測手法を提案する。
しかし、このアプローチにはいくつかの課題がある。
1) モデルの意思決定プロセスに視覚注意プロンプトを組み込んで,プロンプトがなくても将来の予測に活用するにはどうすればよいか?
そして
2)不完全な情報を視覚注意プロンプトからどのように扱うか?
これらの課題に対処するために,視覚的注意喚起をモデル決定プロセスにシームレスに統合し,注意喚起を伴わずに画像に適応する,視覚的注意喚起予測学習という新しいフレームワークを提案する。
視覚注意プロンプトの不完全な情報に対処するために,摂動に基づく注意マップ修正法を提案する。
さらに,アテンションマップ修正過程における適応的摂動アノテーションアグリゲーションのための新しい重み学習機能を備えた,最適化に基づくマスクアグリゲーション手法を提案する。
我々のフレームワークは、注意喚起のないサンプルであっても将来予測を高めるために、注意喚起ガイド付きマルチタスク方式で学習し、より良い収束のために交互に訓練するように設計されている。
2つのデータセットで実施した大規模な実験により,提案手法の有効性が示された。
関連論文リスト
- Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Interpretable Visual Question Answering via Reasoning Supervision [4.76359068115052]
トランスフォーマーベースのアーキテクチャは、最近Visual Question Answering (VQA)タスクで顕著なパフォーマンスを示している。
本稿では,視覚的質問応答のための新しいアーキテクチャを提案する。
提案手法がモデルの視覚知覚能力を向上し,性能向上につながることを定量的かつ定性的に示す。
論文 参考訳(メタデータ) (2023-09-07T14:12:31Z) - Knowledge-Aware Prompt Tuning for Generalizable Vision-Language Models [64.24227572048075]
本稿では,視覚言語モデルのためのKnowledge-Aware Prompt Tuning(KAPT)フレームワークを提案する。
我々のアプローチは、人間の知性からインスピレーションを得ており、外部知識は、通常、オブジェクトの新たなカテゴリを認識するために組み込まれています。
論文 参考訳(メタデータ) (2023-08-22T04:24:45Z) - On the Role of Attention in Prompt-tuning [90.97555030446563]
本研究では,一層アテンションアーキテクチャのプロンプトチューニングについて検討し,文脈混合モデルについて検討する。
ソフトマックス・プロンプト・アテンションは, ソフトマックス・自己アテンションやリニア・プロンプト・アテンションよりも明らかに表現力が高いことを示す。
また、実際のデータセットに関する理論的洞察を検証し、モデルが文脈関連情報にどのように対応できるかを示す実験も提供する。
論文 参考訳(メタデータ) (2023-06-06T06:23:38Z) - Progressive Visual Prompt Learning with Contrastive Feature Re-formation [15.385630262368661]
本稿では,異なるレイヤのプロンプト間の相互作用を強化するために,プログレッシブ・ビジュアル・プロンプト(ProVP)構造を提案する。
我々のProVPは、画像の埋め込みを深い層に効果的に伝播させ、インスタンス適応的なプロンプトメソッドと部分的に似た振る舞いをすることができる。
我々の知る限り、我々はV-Lモデルにおける視覚的プロンプトの、下流タスクにおける従来のプロンプトベースの手法よりも優れた性能を示す最初の人物である。
論文 参考訳(メタデータ) (2023-04-17T15:54:10Z) - Exploring Effective Factors for Improving Visual In-Context Learning [56.14208975380607]
In-Context Learning(ICL)は、いくつかのデモ(別名プロンプト)を通じて新しいタスクを理解し、モデルをチューニングせずに新しい入力を予測することである。
本稿では,視覚的文脈学習の推論性能に直接的な影響を及ぼす要因として,迅速な選択と迅速な融合があげられる。
視覚的インコンテキスト学習のためのシンプルなフレームワークプロンプトSelFを提案する。
論文 参考訳(メタデータ) (2023-04-10T17:59:04Z) - Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image
Diffusion Models [103.61066310897928]
最近のテキスト・ツー・イメージ生成モデルは、ターゲットのテキスト・プロンプトによって導かれる多様な創造的な画像を生成する非例外的な能力を実証している。
革命的ではあるが、現在の最先端拡散モデルは、与えられたテキストプロンプトのセマンティクスを完全に伝達するイメージの生成に失敗する可能性がある。
本研究では, 一般に公開されている安定拡散モデルを分析し, 破滅的無視の有無を評価し, そのモデルが入力プロンプトから1つ以上の被写体を生成するのに失敗した場合について検討する。
提案するジェネレーティブ・セマンティック・ナーシング(GSN)の概念は、推論時間中にハエの生殖過程に介入し、忠実性を改善するものである。
論文 参考訳(メタデータ) (2023-01-31T18:10:38Z) - Learning to Prompt for Vision-Language Models [82.25005817904027]
視覚言語による事前学習が表現学習の有望な代替手段として登場した。
画像と離散ラベルを使って、視覚的な概念と見なされる一連の重みを学習する伝統から、2つの異なるエンコーダのための画像と生のテキストの整列へと移行する。
このようなパラダイムは、より広範な監視源の恩恵を受け、下流タスクへのゼロショット転送を可能にします。
論文 参考訳(メタデータ) (2021-09-02T17:57:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。