論文の概要: Where to Look: A Unified Attention Model for Visual Recognition with
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2111.07169v1
- Date: Sat, 13 Nov 2021 18:44:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-16 16:20:59.988335
- Title: Where to Look: A Unified Attention Model for Visual Recognition with
Reinforcement Learning
- Title(参考訳): where to look:強化学習を用いた視覚認識のための統一注意モデル
- Authors: Gang Chen
- Abstract要約: 視覚的注意を繰り返すために,トップダウンとボトムアップを一体化することを提案する。
我々のモデルは、画像ピラミッドとQラーニングを利用して、トップダウンアテンションメカニズムにおける関心領域を選択する。
我々は、エンドツーエンドの強化学習フレームワークでモデルをトレーニングし、視覚的分類タスクにおける手法の評価を行う。
- 参考スコア(独自算出の注目度): 5.247711598719703
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The idea of using the recurrent neural network for visual attention has
gained popularity in computer vision community. Although the recurrent
attention model (RAM) leverages the glimpses with more large patch size to
increasing its scope, it may result in high variance and instability. For
example, we need the Gaussian policy with high variance to explore object of
interests in a large image, which may cause randomized search and unstable
learning. In this paper, we propose to unify the top-down and bottom-up
attention together for recurrent visual attention. Our model exploits the image
pyramids and Q-learning to select regions of interests in the top-down
attention mechanism, which in turn to guide the policy search in the bottom-up
approach. In addition, we add another two constraints over the bottom-up
recurrent neural networks for better exploration. We train our model in an
end-to-end reinforcement learning framework, and evaluate our method on visual
classification tasks. The experimental results outperform convolutional neural
networks (CNNs) baseline and the bottom-up recurrent attention models on visual
classification tasks.
- Abstract(参考訳): リカレントニューラルネットワークを視覚注意に利用するという考えは、コンピュータビジョンコミュニティで人気を集めている。
リカレントアテンションモデル(ram)は、スコープを拡大するために、より大きなパッチサイズを持つスピープを活用するが、高いばらつきと不安定性をもたらす可能性がある。
例えば、大きな画像の興味の対象を探索するために高分散のガウス的ポリシーが必要であり、ランダムな探索や不安定な学習を引き起こす可能性がある。
本稿では,トップダウンとボトムアップを一体化して視覚的注意を繰り返すことを提案する。
本モデルでは,画像ピラミッドとQラーニングを利用して,トップダウンアテンションメカニズムにおける関心領域を抽出し,ボトムアップアプローチのポリシー探索を指導する。
さらに、ボトムアップのリカレントニューラルネットワークにさらに2つの制約を加えて、よりよい探索を可能にします。
我々は、エンドツーエンドの強化学習フレームワークでモデルを訓練し、視覚的分類タスクにおける手法を評価する。
実験結果は、視覚分類タスクにおける畳み込みニューラルネットワーク(CNN)ベースラインとボトムアップ繰り返し注意モデルより優れている。
関連論文リスト
- Vision Eagle Attention: A New Lens for Advancing Image Classification [0.8158530638728501]
コンボリューショナルな空間的注意力を用いた視覚的特徴抽出を促進する新しい注意機構であるビジョンイーグル注意(Vision Eagle Attention)を導入する。
このモデルは、局所的な空間的特徴を捉えるために畳み込みを適用し、画像の最も情報性の高い領域を選択的に強調するアテンションマップを生成する。
Vision Eagle Attentionを軽量なResNet-18アーキテクチャに統合しました。
論文 参考訳(メタデータ) (2024-11-15T20:21:59Z) - Entity-Conditioned Question Generation for Robust Attention Distribution
in Neural Information Retrieval [51.53892300802014]
教師付きニューラル情報検索モデルでは,通過トークンよりも疎注意パターンを学習することが困難であることを示す。
目的とする新しい合成データ生成手法を用いて、与えられた通路内の全てのエンティティに対して、より均一で堅牢な参加をニューラルIRに教える。
論文 参考訳(メタデータ) (2022-04-24T22:36:48Z) - Visual Attention Network [90.0753726786985]
本稿では,自己アテンションにおける自己適応性および長距離相関を実現するために,新しいカーネルアテンション(LKA)モジュールを提案する。
また、LKAに基づく新しいニューラルネットワーク、すなわちVisual Attention Network (VAN)を導入する。
VANは、最先端のビジョントランスフォーマーと畳み込みニューラルネットワークを、広範な実験において大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-02-20T06:35:18Z) - Learning to ignore: rethinking attention in CNNs [87.01305532842878]
我々は,CNNの注意機構を再構築し,出席する学習ではなく無視することを学ぶことを提案する。
具体的には、シーン内で無関係な情報を明示的に学習し、生成した表現でそれを抑えることを提案する。
論文 参考訳(メタデータ) (2021-11-10T13:47:37Z) - An Attention Module for Convolutional Neural Networks [5.333582981327498]
本稿では,AW-畳み込みを開発することで,畳み込みニューラルネットワークのためのアテンションモジュールを提案する。
画像分類とオブジェクト検出タスクのための複数のデータセットの実験により,提案した注目モジュールの有効性が示された。
論文 参考訳(メタデータ) (2021-08-18T15:36:18Z) - Deep Reinforcement Learning Models Predict Visual Responses in the
Brain: A Preliminary Result [1.0323063834827415]
強化学習を用いてニューラルネットワークモデルをトレーニングし、3Dコンピュータゲームをプレイします。
これらの強化学習モデルは、初期視覚領域において、神経応答予測精度のスコアを得る。
対照的に、教師付きニューラルネットワークモデルでは、より高い視覚領域において、より優れた神経応答予測が得られる。
論文 参考訳(メタデータ) (2021-06-18T13:10:06Z) - Variational Structured Attention Networks for Deep Visual Representation
Learning [49.80498066480928]
空間的注意マップとチャネル的注意の両方を原則的に共同学習するための統合的深層フレームワークを提案する。
具体的には,確率的表現学習フレームワークに注目度の推定と相互作用を統合する。
ニューラルネットワーク内で推論ルールを実装し,確率パラメータとcnnフロントエンドパラメータのエンドツーエンド学習を可能にする。
論文 参考訳(メタデータ) (2021-03-05T07:37:24Z) - Unlocking Pixels for Reinforcement Learning via Implicit Attention [61.666538764049854]
我々は最近,トランスフォーマーに非常に有効であることが示されている,新しい効率的なアテンションアルゴリズムを利用している。
これにより、注意に基づくコントローラは、より大きな視覚入力にスケールでき、より小さなパッチの使用が容易になります。
さらに,ソフトマックスの注目度をハイブリッドランダム特徴量で近似するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-08T17:00:26Z) - Playing to distraction: towards a robust training of CNN classifiers
through visual explanation techniques [1.2321022105220707]
本研究では,視覚的説明手法を学習プロセスに組み込んだ,斬新かつ堅牢なトレーニング手法を提案する。
特に、EgoFoodPlacesデータセットに挑戦し、より低いレベルの複雑さで最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-12-28T10:24:32Z) - Deep Reinforced Attention Learning for Quality-Aware Visual Recognition [73.15276998621582]
我々は,任意の畳み込みニューラルネットワークにおける中間注意マップの弱教師付き生成機構を構築した。
メタ批評家ネットワークを導入し、メインネットワークにおける注目マップの質を評価する。
論文 参考訳(メタデータ) (2020-07-13T02:44:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。