論文の概要: Multimodal Continuous Visual Attention Mechanisms
- arxiv url: http://arxiv.org/abs/2104.03046v1
- Date: Wed, 7 Apr 2021 10:47:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-08 13:00:50.971744
- Title: Multimodal Continuous Visual Attention Mechanisms
- Title(参考訳): マルチモーダル型連続視覚注意機構
- Authors: Ant\'onio Farinhas, Andr\'e F. T. Martins, Pedro M. Q. Aguiar
- Abstract要約: ガウスの混合物の形で多様密度を生成する新しい連続的注意機構を提案する。
我々の密度は一様注意機構の線形結合として分解し、バックプロパゲーションステップに対して閉形式ジャコビアンを可能にする。
- 参考スコア(独自算出の注目度): 3.222802562733787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual attention mechanisms are a key component of neural network models for
computer vision. By focusing on a discrete set of objects or image regions,
these mechanisms identify the most relevant features and use them to build more
powerful representations. Recently, continuous-domain alternatives to discrete
attention models have been proposed, which exploit the continuity of images.
These approaches model attention as simple unimodal densities (e.g. a
Gaussian), making them less suitable to deal with images whose region of
interest has a complex shape or is composed of multiple non-contiguous patches.
In this paper, we introduce a new continuous attention mechanism that produces
multimodal densities, in the form of mixtures of Gaussians. We use the EM
algorithm to obtain a clustering of relevant regions in the image, and a
description length penalty to select the number of components in the mixture.
Our densities decompose as a linear combination of unimodal attention
mechanisms, enabling closed-form Jacobians for the backpropagation step.
Experiments on visual question answering in the VQA-v2 dataset show competitive
accuracies and a selection of regions that mimics human attention more closely
in VQA-HAT. We present several examples that suggest how multimodal attention
maps are naturally more interpretable than their unimodal counterparts, showing
the ability of our model to automatically segregate objects from ground in
complex scenes.
- Abstract(参考訳): 視覚注意機構は、コンピュータビジョンのためのニューラルネットワークモデルの重要なコンポーネントである。
個々のオブジェクトや画像領域に焦点を合わせることで、これらのメカニズムは最も関連性の高い特徴を特定し、より強力な表現を構築するためにそれらを使用する。
近年,画像の連続性を利用した離散的注意モデルに対する連続領域代替法が提案されている。
これらのアプローチは、注意を単純なユニモーダル密度(例えば)としてモデル化する。
ガウス語では、興味のある領域が複雑な形状または複数の非連続的なパッチからなる画像を扱うのに適さないようにしている。
本稿では,ガウスの混合物の形で多様密度を生成する新しい連続的注意機構を提案する。
EMアルゴリズムを用いて画像中の関連領域のクラスタリングと記述長ペナルティを取得し,混合成分数を選択する。
我々の密度は一様注意機構の線形結合として分解し、バックプロパゲーションステップに対して閉形式ジャコビアンを可能にする。
VQA-v2データセットにおける視覚的質問応答の実験は、競争力のある精度を示し、VQA-HATにおいてより人間の注意を模倣する領域の選択を示す。
マルチモーダル・アテンション・マップは, 複雑な場面において, 対象物を自動的に分離する能力を示すとともに, 対象物が自然に解釈可能であることを示すいくつかの例を示す。
関連論文リスト
- Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。
既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。
これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。
一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文 参考訳(メタデータ) (2024-04-11T03:00:00Z) - Fusion of Infrared and Visible Images based on Spatial-Channel
Attentional Mechanism [3.388001684915793]
Infrared and visible image fusion (IVIF) の革新的アプローチであるAMFusionNetを提案する。
可視光源からのテクスチャ特徴と赤外線画像からの熱的詳細を同化することにより,包括的情報に富んだ画像を生成する。
提案手法は, 品質と量の観点から, 最先端のアルゴリズムより優れている。
論文 参考訳(メタデータ) (2023-08-25T21:05:11Z) - Multi-Spectral Image Stitching via Spatial Graph Reasoning [52.27796682972484]
空間グラフ推論に基づくマルチスペクトル画像縫合法を提案する。
同一のビュー位置から複数スケールの補完機能をノードに埋め込む。
空間的・チャネル的次元に沿った長距離コヒーレンスを導入することにより、画素関係の相補性とチャネル相互依存性は、整列したマルチビュー特徴の再構築に寄与する。
論文 参考訳(メタデータ) (2023-07-31T15:04:52Z) - Learning to Fuse Monocular and Multi-view Cues for Multi-frame Depth
Estimation in Dynamic Scenes [51.20150148066458]
一般化されたマスクを必要とせず,ボリュームとして符号化された多視点と単眼のキューを融合させる新しい手法を提案する。
実世界のデータセットを用いた実験は,提案手法の有効性と性能を実証する。
論文 参考訳(メタデータ) (2023-04-18T13:55:24Z) - Exploring Global Diversity and Local Context for Video Summarization [4.452227592307381]
ビデオ要約は,大規模ビデオ処理に有用な多種多様な簡潔な要約を自動的に生成することを目的としている。
ほとんどの手法では、ビデオフレーム間の自己注意機構を採用する傾向があり、ビデオフレームの多様性をモデル化できない。
そこで我々は,2乗ユークリッド距離を用いてアフィニティを求める。
論文 参考訳(メタデータ) (2022-01-27T06:56:01Z) - An attention-driven hierarchical multi-scale representation for visual
recognition [3.3302293148249125]
畳み込みニューラルネットワーク(CNN)は、視覚内容の理解に革命をもたらした。
グラフ畳み込みネットワーク(GCN)を探索することにより,高レベルの長距離依存関係を捕捉する手法を提案する。
本手法は,細粒度と総称的な視覚的分類の両問題を解くのに極めて効果的である。
論文 参考訳(メタデータ) (2021-10-23T09:22:22Z) - Bayesian Attention Belief Networks [59.183311769616466]
注意に基づくニューラルネットワークは、幅広いタスクにおいて最先端の結果を得た。
本稿では,非正規化注意重みをモデル化してデコーダネットワークを構築するベイズ的注意信念ネットワークについて紹介する。
提案手法は, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃において, 決定論的注意と最先端の注意よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-09T17:46:22Z) - Improve the Interpretability of Attention: A Fast, Accurate, and
Interpretable High-Resolution Attention Model [6.906621279967867]
そこで本稿では,タスク関連情報を取り込むための,非線形代表非パラメトリックアテンション(BR-NPA)戦略を提案する。
提案したモデルは、分類が関与する様々な近代的な深層モデルに容易に適応できる。
また、通常のニューラルアテンションモジュールよりも正確で高速で、メモリフットプリントも小さい。
論文 参考訳(メタデータ) (2021-06-04T15:57:37Z) - Multimodal Face Synthesis from Visual Attributes [85.87796260802223]
本稿では,マルチモーダル顔画像を保存するIDを同時に合成する新たな生成対向ネットワークを提案する。
実画像と偽画像の区別を行う識別装置にマルチモーダルストレッチインモジュールを導入。
論文 参考訳(メタデータ) (2021-04-09T13:47:23Z) - Spatial-spectral Hyperspectral Image Classification via Multiple Random
Anchor Graphs Ensemble Learning [88.60285937702304]
本稿では,複数のランダムアンカーグラフアンサンブル学習(RAGE)を用いた空間スペクトルHSI分類手法を提案する。
まず、各選択されたバンドのより記述的な特徴を抽出し、局所的な構造と領域の微妙な変化を保存するローカルバイナリパターンを採用する。
次に,アンカーグラフの構成に適応隣接代入を導入し,計算複雑性を低減した。
論文 参考訳(メタデータ) (2021-03-25T09:31:41Z) - Attention-based Image Upsampling [14.676228848773157]
我々は、注意メカニズムを使用して別の正統的な操作を置き換える方法を示しています。
注意に基づくアップサンプリングが従来のアップサンプリング手法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2020-12-17T19:58:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。