論文の概要: Addressing a fundamental limitation in deep vision models: lack of spatial attention
- arxiv url: http://arxiv.org/abs/2407.01782v2
- Date: Wed, 21 Aug 2024 02:39:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 22:05:55.944488
- Title: Addressing a fundamental limitation in deep vision models: lack of spatial attention
- Title(参考訳): 深部視覚モデルの基本的限界に対処する-空間的注意の欠如
- Authors: Ali Borji,
- Abstract要約: この写本の目的は、現在の深層学習モデル、特に視覚モデルにおいて重要な限界を強調することである。
我々は、次世代のより効率的な視覚モデルに道を開くことのできるソリューションを提案する。
- 参考スコア(独自算出の注目度): 43.37813040320147
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The primary aim of this manuscript is to underscore a significant limitation in current deep learning models, particularly vision models. Unlike human vision, which efficiently selects only the essential visual areas for further processing, leading to high speed and low energy consumption, deep vision models process the entire image. In this work, we examine this issue from a broader perspective and propose a solution that could pave the way for the next generation of more efficient vision models. Basically, convolution and pooling operations are selectively applied to altered regions, with a change map sent to subsequent layers. This map indicates which computations need to be repeated. The code is available at https://github.com/aliborji/spatial_attention.
- Abstract(参考訳): この写本の主な目的は、現在の深層学習モデル、特に視覚モデルにおいて重要な限界を強調することである。
人間の視覚は、さらなる処理に必要な視覚領域のみを効率的に選択するので、高速かつ低エネルギー消費につながるが、ディープビジョンモデルは画像全体を処理している。
本研究では,この問題をより広い視点から検討し,次世代のより効率的な視覚モデルを実現するための解決策を提案する。
基本的に、畳み込みとプーリング操作は、変更されたリージョンに選択的に適用され、変更マップは後続のレイヤに送信される。
このマップは、どの計算を繰り返す必要があるかを示す。
コードはhttps://github.com/aliborji/spatial_attention.comで公開されている。
関連論文リスト
- Learning 1D Causal Visual Representation with De-focus Attention Networks [108.72931590504406]
本稿では,1次元因果モデルを用いた画像表現の実現可能性について検討する。
本稿では,学習可能な帯域通過フィルタを用いて様々な注意パターンを生成するDe-focus Attention Networksを提案する。
論文 参考訳(メタデータ) (2024-06-06T17:59:56Z) - Vision Transformers Need Registers [26.63912173005165]
教師付きと自己監督型の両方のViTネットワークの特徴マップのアーティファクトを特定し,特徴付けする。
このソリューションは、教師付きモデルと自己教師型モデルの両方で完全にその問題を解決する。
論文 参考訳(メタデータ) (2023-09-28T16:45:46Z) - Unlocking Feature Visualization for Deeper Networks with MAgnitude
Constrained Optimization [17.93878159391899]
解釈可能な画像を生成するためのシンプルなアプローチであるMACOについて述べる。
我々のアプローチは、質的にも定量的にも、はるかに優れた結果をもたらし、大きな最先端のニューラルネットワークのための効率的かつ解釈可能な特徴視覚化を解き放つ。
特徴可視化手法の比較のための新しいベンチマークで本手法を検証し,画像Netデータセットの全クラスを対象とした可視化結果をリリースする。
論文 参考訳(メタデータ) (2023-06-11T23:33:59Z) - Rethinking Range View Representation for LiDAR Segmentation [66.73116059734788]
「多対一」マッピング、意味的不整合、形状変形は、射程射影からの効果的な学習に対する障害となる可能性がある。
RangeFormerは、ネットワークアーキテクチャ、データ拡張、後処理を含む新しい設計を含む、フルサイクルのフレームワークである。
比較対象のLiDARセマンティックスとパノプティックスセグメンテーションのベンチマークにおいて,初めてレンジビュー法が点,ボクセル,マルチビューフュージョンを越えられることを示す。
論文 参考訳(メタデータ) (2023-03-09T16:13:27Z) - Effective End-to-End Vision Language Pretraining with Semantic Visual
Loss [58.642954383282216]
現在の視覚言語事前学習モデルは、物体検出器から抽出された領域視覚特徴を用いた手法によって支配されている。
3種類の視覚的損失を導入し、より高速な収束と微調整精度の向上を実現した。
リージョン機能モデルと比較して、私たちのエンドツーエンドモデルは、下流タスクで同様のあるいはより良いパフォーマンスを実現し、推論中に10倍以上高速に動作します。
論文 参考訳(メタデータ) (2023-01-18T00:22:49Z) - Unsupervised Deep Learning Meets Chan-Vese Model [77.24463525356566]
本稿では,Chan-Vese(CV)モデルとディープニューラルネットワークを統合した教師なしのイメージセグメンテーション手法を提案する。
私たちの基本的な考え方は、イメージを潜伏空間にマッピングするディープニューラルネットワークを適用して、画像空間における断片的な定数仮定の違反を軽減することです。
論文 参考訳(メタデータ) (2022-04-14T13:23:57Z) - Where to Look: A Unified Attention Model for Visual Recognition with
Reinforcement Learning [5.247711598719703]
視覚的注意を繰り返すために,トップダウンとボトムアップを一体化することを提案する。
我々のモデルは、画像ピラミッドとQラーニングを利用して、トップダウンアテンションメカニズムにおける関心領域を選択する。
我々は、エンドツーエンドの強化学習フレームワークでモデルをトレーニングし、視覚的分類タスクにおける手法の評価を行う。
論文 参考訳(メタデータ) (2021-11-13T18:44:50Z) - CAMERAS: Enhanced Resolution And Sanity preserving Class Activation
Mapping for image saliency [61.40511574314069]
バックプロパゲーション画像のサリエンシは、入力中の個々のピクセルのモデル中心の重要性を推定することにより、モデル予測を説明することを目的としている。
CAMERASは、外部の事前処理を必要とせずに、高忠実度バックプロパゲーション・サリエンシ・マップを計算できる手法である。
論文 参考訳(メタデータ) (2021-06-20T08:20:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。