論文の概要: Visual Attention Prompted Prediction and Learning
- arxiv url: http://arxiv.org/abs/2310.08420v3
- Date: Wed, 24 Apr 2024 03:35:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 23:47:37.515795
- Title: Visual Attention Prompted Prediction and Learning
- Title(参考訳): 視覚的注意刺激による予測と学習
- Authors: Yifei Zhang, Siyi Gu, Bo Pan, Guangji Bai, Meikang Qiu, Xiaofeng Yang, Liang Zhao,
- Abstract要約: 本稿では,視覚的プロンプトを利用してモデルの推論過程を制御し,注意喚起による予測と学習のための新しい枠組みを提案する。
4つのデータセットを用いた実験により,提案手法の有効性が示唆された。
- 参考スコア(独自算出の注目度): 18.29952735827087
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual explanation (attention)-guided learning uses not only labels but also explanations to guide model reasoning process. While visual attention-guided learning has shown promising results, it requires a large number of explanation annotations that are time-consuming to prepare. However, in many real-world situations, it is usually desired to prompt the model with visual attention without model retraining. For example, when doing AI-assisted cancer classification on a medical image, users (e.g., clinicians) can provide the AI model with visual attention prompt on which areas are indispensable and which are precluded. Despite its promising objectives, achieving visual attention-prompted prediction presents several major challenges: 1) How can the visual prompt be effectively integrated into the model's reasoning process? 2) How should the model handle samples that lack visual prompts? 3) What is the impact on the model's performance when a visual prompt is imperfect? This paper introduces a novel framework for attention-prompted prediction and learning, utilizing visual prompts to steer the model's reasoning process. To improve performance in non-prompted situations and align it with prompted scenarios, we propose a co-training approach for both non-prompted and prompted models, ensuring they share similar parameters and activations. Additionally, for instances where the visual prompt does not encompass the entire input image, we have developed innovative attention prompt refinement methods. These methods interpolate the incomplete prompts while maintaining alignment with the model's explanations. Extensive experiments on four datasets demonstrate the effectiveness of our proposed framework in enhancing predictions for samples both with and without prompt.
- Abstract(参考訳): 視覚的説明(注意)誘導学習はラベルだけでなく、モデル推論プロセスのガイドにも用いられる。
視覚的注意誘導学習は有望な結果を示しているが、準備に時間を要する多くの説明アノテーションが必要である。
しかし、現実の多くの状況では、モデルの再訓練なしに視覚的注意を喚起することが望まれる。
例えば、医療画像上でAI支援がん分類を行う場合、利用者(例えば臨床医)は、どの領域が必須で、どの領域が除外されているかという視覚的な注意喚起をAIモデルに提供することができる。
その有望な目標にもかかわらず、視覚的な注意を喚起する予測を達成することは、いくつかの大きな課題を提示する。
1) モデル推論プロセスに視覚的プロンプトを効果的に組み込むには,どうすればよいのか?
2) 視覚的なプロンプトを欠いたサンプルをどう扱うべきか?
3)視覚的プロンプトが不完全である場合,モデルのパフォーマンスにどのような影響があるのか?
本稿では,視覚的プロンプトを利用してモデルの推論過程を制御し,注意喚起による予測と学習のための新しい枠組みを提案する。
非プロンプト状況における性能向上と、それに伴うシナリオの調整を目的として、非プロンプトモデルとプロンプトモデルの両方に対する協調学習手法を提案し、同様のパラメータとアクティベーションの共有を保証した。
さらに、視覚的プロンプトが入力画像全体を包含していない場合、革新的な注意喚起プロンプト改善法が開発されている。
これらの手法は、モデルの説明と整合性を維持しながら不完全なプロンプトを補間する。
4つのデータセットに対する大規模な実験により,提案手法の有効性が実証された。
関連論文リスト
- Unveiling the Magic: Investigating Attention Distillation in
Retrieval-augmented Generation [8.363702038073814]
Retrieval-augmented generation frameworkは、より正確な回答のためにリアルタイムの知識更新を可能にすることで、大規模言語モデルの限界に対処することができる。
検索強化モデルの学習段階における効率的な方法は、注意点を手動で注釈付けされたクエリ文書ペアの代わりに監督信号として利用する注意蒸留である。
論文 参考訳(メタデータ) (2024-02-19T02:48:44Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Free-ATM: Exploring Unsupervised Learning on Diffusion-Generated Images
with Free Attention Masks [64.67735676127208]
テキストと画像の拡散モデルは、画像認識の恩恵を受ける大きな可能性を示している。
有望ではあるが、拡散生成画像の教師なし学習に特化した調査は不十分である。
上記フリーアテンションマスクをフル活用することで、カスタマイズされたソリューションを導入する。
論文 参考訳(メタデータ) (2023-08-13T10:07:46Z) - Rethinking Visual Prompt Learning as Masked Visual Token Modeling [106.71983630652323]
マスク付き視覚トークンモデリング(VPTM)として視覚プロンプト学習を提案し、下流の視覚分類を事前訓練されたマスク付き視覚トークン予測に変換する。
VPTMは、生成前訓練された視覚モデルにおける最初の視覚的プロンプト法であり、タスク修正による事前学習と下流視覚分類の整合性を実現する。
論文 参考訳(メタデータ) (2023-03-09T02:43:10Z) - Understanding Self-Predictive Learning for Reinforcement Learning [61.62067048348786]
強化学習のための自己予測学習の学習ダイナミクスについて検討する。
本稿では,2つの表現を同時に学習する新しい自己予測アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-06T20:43:37Z) - Hybrid Predictive Coding: Inferring, Fast and Slow [62.997667081978825]
本稿では,反復型と償却型の両方を原則的に組み合わせたハイブリッド予測符号化ネットワークを提案する。
我々は,本モデルが本質的に不確実性に敏感であり,最小計算費用を用いて正確な信念を得るためにバランスを適応的にバランスさせることを実証した。
論文 参考訳(メタデータ) (2022-04-05T12:52:45Z) - Recent Advancements in Self-Supervised Paradigms for Visual Feature
Representation [0.41436032949434404]
教師付き学習は、最先端のパフォーマンスに到達するために大量のラベル付きデータを必要とする。
ラベル付けのコストを回避するため,ラベル付けされていないデータを利用する自己管理手法が提案された。
本研究は,特徴表現のための自己監督パラダイムにおける近年の展開に関する包括的で洞察に富んだ調査と分析を行う。
論文 参考訳(メタデータ) (2021-11-03T07:02:34Z) - Explain and Predict, and then Predict Again [6.865156063241553]
説明生成フェーズにおけるマルチタスク学習を用いたExPredを、効果的なトレードオフ説明と予測損失として提案します。
3つの多様な言語データセットに対するアプローチを幅広く評価しています。
論文 参考訳(メタデータ) (2021-01-11T19:36:52Z) - Cost-effective Interactive Attention Learning with Neural Attention
Processes [79.8115563067513]
対話型注意学習(Interactive Attention Learning, IAL)と呼ばれる対話型学習フレームワークを提案する。
IALは、人間のアノテーションが不足しているため、過度に適合する傾向がある。
我々は,サンプル効率のよい注意機構と,コスト効率のよいインスタンスと機能の再ランクアルゴリズムを提案することで,これらの課題に対処する。
論文 参考訳(メタデータ) (2020-06-09T17:36:41Z) - Action Localization through Continual Predictive Learning [14.582013761620738]
本稿では,自己監督のための特徴レベルの予測を用いた連続学習に基づく新しいアプローチを提案する。
我々は、CNNエンコーダと組み合わされたLSTMのスタックと、新しいアテンション機構を用いて、ビデオ内のイベントをモデル化し、このモデルを使用して将来のフレームの高レベル機能を予測する。
この自己教師型フレームワークは他のアプローチほど複雑ではないが、ラベリングとローカライゼーションの両方で堅牢な視覚表現を学ぶのに非常に効果的である。
論文 参考訳(メタデータ) (2020-03-26T23:32:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。