論文の概要: TDAF: Top-Down Attention Framework for Vision Tasks
- arxiv url: http://arxiv.org/abs/2012.07248v1
- Date: Mon, 14 Dec 2020 04:19:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-09 09:14:52.598867
- Title: TDAF: Top-Down Attention Framework for Vision Tasks
- Title(参考訳): TDAF:ビジョンタスクのためのトップダウン注意フレームワーク
- Authors: Bo Pang, Yizhuo Li, Jiefeng Li, Muchen Li, Hanwen Cao, Cewu Lu
- Abstract要約: トップダウンの注目を捉えるためのトップダウンアテンションフレームワーク(TDAF)を提案します。
実験的な証拠は、我々のTDFが効果的な階層化された注意情報を捕捉し、性能を向上できることを示している。
- 参考スコア(独自算出の注目度): 46.14128665926765
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Human attention mechanisms often work in a top-down manner, yet it is not
well explored in vision research. Here, we propose the Top-Down Attention
Framework (TDAF) to capture top-down attentions, which can be easily adopted in
most existing models. The designed Recursive Dual-Directional Nested Structure
in it forms two sets of orthogonal paths, recursive and structural ones, where
bottom-up spatial features and top-down attention features are extracted
respectively. Such spatial and attention features are nested deeply, therefore,
the proposed framework works in a mixed top-down and bottom-up manner.
Empirical evidence shows that our TDAF can capture effective stratified
attention information and boost performance. ResNet with TDAF achieves 2.0%
improvements on ImageNet. For object detection, the performance is improved by
2.7% AP over FCOS. For pose estimation, TDAF improves the baseline by 1.6%. And
for action recognition, the 3D-ResNet adopting TDAF achieves improvements of
1.7% accuracy.
- Abstract(参考訳): 人間の注意機構は、しばしばトップダウンで機能するが、視覚研究では十分に研究されていない。
本稿では,既存のほとんどのモデルで容易に採用可能なトップダウンアテンションを捉えるためのトップダウンアテンションフレームワーク(TDAF)を提案する。
設計した再帰的二方向ネスト構造は、それぞれボトムアップ空間的特徴とトップダウン注意特徴を抽出した再帰的および構造的経路の2組の直交経路を形成する。
このような空間的・注意的特徴は深くネストされており、提案フレームワークはトップダウンとボトムアップの混合方式で動作する。
実証的な証拠は、我々のTDAFが効果的な階層化された注意情報を捕捉し、性能を向上できることを示している。
tdafによるresnetはimagenetで2.0%改善されている。
物体検出では、性能はFCOSよりも2.7%向上した。
ポーズ推定では、TDAFはベースラインを1.6%改善する。
また、3D-ResNetによるTDAFの精度は1.7%向上した。
関連論文リスト
- Learning 1D Causal Visual Representation with De-focus Attention Networks [108.72931590504406]
本稿では,1次元因果モデルを用いた画像表現の実現可能性について検討する。
本稿では,学習可能な帯域通過フィルタを用いて様々な注意パターンを生成するDe-focus Attention Networksを提案する。
論文 参考訳(メタデータ) (2024-06-06T17:59:56Z) - VeCAF: Vision-language Collaborative Active Finetuning with Training Objective Awareness [56.87603097348203]
VeCAFはラベルと自然言語アノテーションを使用して、PVMの微調整のためのパラメトリックデータ選択を行う。
VeCAFは微調整の目的を取り入れて重要なデータポイントを選択し、PVMをより高速な収束に向けて効果的に導く。
ImageNetでは、VeCAFは最大3.3倍のトレーニングバッチを使用して、完全な微調整に比べて目標のパフォーマンスに到達する。
論文 参考訳(メタデータ) (2024-01-15T17:28:37Z) - VISTA: Boosting 3D Object Detection via Dual Cross-VIew SpaTial
Attention [32.44687996180621]
VISTA(Dual Cross-VIew Spatial Attention)を用いて,グローバル空間コンテキストにおける多視点特徴を適応的に融合する手法を提案する。
The proposed VISTA is a novel plug-and-play fusion module, where in the multi-layer perceptron widely adopted in standard attention module is replaced to a convolutional。
提案手法は,全mAPの63.0%,NDSの69.8%をnuScenesベンチマークで達成し,自転車などの安全基準カテゴリーの最大24%を達成している。
論文 参考訳(メタデータ) (2022-03-18T02:34:59Z) - On Evolving Attention Towards Domain Adaptation [110.57454902557767]
本稿では、人間の介入なしに特定のUDAタスクの注意構成を進化させる新しいフレームワークであるEvoADAを提案する。
Office-31、Office-Home、CUB-Paintings、Duke-Market-1510といったクロスドメインベンチマークの実験は、提案されたEvoADAが一貫して複数の最先端ドメイン適応アプローチを向上していることを示している。
論文 参考訳(メタデータ) (2021-03-25T01:50:28Z) - Should I Look at the Head or the Tail? Dual-awareness Attention for
Few-Shot Object Detection [20.439719842851744]
両方向の空間的関係が支持とクエリーのイメージを横断して捉える,Dual-Awareness-Attention (DAnA) を提案する。
我々のDAnAコンポーネントは、既存の様々なオブジェクト検出ネットワークに適用可能であり、特定のセマンティクスに注意を払ってFSOD性能を向上させる。
実験結果は、DAnAがCOCOベンチマークで(48%および125%比較的)オブジェクト検出性能を大幅に向上させることを示しています。
論文 参考訳(メタデータ) (2021-02-24T09:17:27Z) - PC-RGNN: Point Cloud Completion and Graph Neural Network for 3D Object
Detection [57.49788100647103]
LiDARベースの3Dオブジェクト検出は、自動運転にとって重要なタスクです。
現在のアプローチでは、遠方および閉ざされた物体の偏りと部分的な点雲に苦しむ。
本稿では,この課題を2つの解決法で解決する新しい二段階アプローチ,pc-rgnnを提案する。
論文 参考訳(メタデータ) (2020-12-18T18:06:43Z) - On estimating gaze by self-attention augmented convolutions [6.015556590955813]
本稿では,学習した特徴の質を向上させるために,自己注意型拡張畳み込みに基づく新しいネットワークアーキテクチャを提案する。
私たちは、Attention-augmented ResNet(ARes-14)を2つの畳み込みバックボーンとして探求するフレームワークをARes-gazeと呼びました。
その結果,MPIIFaceGazeデータセットの最先端手法と比較して平均角誤差が2.38%減少し,EyeDiapデータセットの2位となった。
論文 参考訳(メタデータ) (2020-08-25T14:29:05Z) - Cyclic Differentiable Architecture Search [99.12381460261841]
微分可能なArchiTecture Search(DARTS)は、ニューラルアーキテクチャサーチにおいて大きな注目を集めている。
我々はCDARTSと呼ばれる新しい共同目標と新しい周期微分可能なArchiTecture Searchフレームワークを提案する。
DARTS検索の分野では、CIFAR10で97.52%、ImageNetで76.3%、トップ1で76.3%の精度を達成した。
論文 参考訳(メタデータ) (2020-06-18T17:55:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。