論文の概要: Addressing a fundamental limitation in deep vision models: lack of spatial attention
- arxiv url: http://arxiv.org/abs/2407.01782v3
- Date: Sat, 26 Oct 2024 06:54:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:17:21.242683
- Title: Addressing a fundamental limitation in deep vision models: lack of spatial attention
- Title(参考訳): 深部視覚モデルの基本的限界に対処する-空間的注意の欠如
- Authors: Ali Borji,
- Abstract要約: この写本の目的は、現在の深層学習モデル、特に視覚モデルにおいて重要な限界を強調することである。
人間の視覚とは異なり、深層視覚モデルは画像全体を処理する。
我々は、次世代のより効率的な視覚モデルに道を開く2つのソリューションを提案する。
- 参考スコア(独自算出の注目度): 43.37813040320147
- License:
- Abstract: The primary aim of this manuscript is to underscore a significant limitation in current deep learning models, particularly vision models. Unlike human vision, which efficiently selects only the essential visual areas for further processing, leading to high speed and low energy consumption, deep vision models process the entire image. In this work, we examine this issue from a broader perspective and propose two solutions that could pave the way for the next generation of more efficient vision models. In the first solution, convolution and pooling operations are selectively applied to altered regions, with a change map sent to subsequent layers. This map indicates which computations need to be repeated. In the second solution, only the modified regions are processed by a semantic segmentation model, and the resulting segments are inserted into the corresponding areas of the previous output map. The code is available at https://github.com/aliborji/spatial_attention.
- Abstract(参考訳): この写本の主な目的は、現在の深層学習モデル、特に視覚モデルにおいて重要な限界を強調することである。
人間の視覚は、さらなる処理に必要な視覚領域のみを効率的に選択するので、高速かつ低エネルギー消費につながるが、ディープビジョンモデルは画像全体を処理している。
本研究では,この問題をより広い視点から検討し,次世代のより効率的な視覚モデルを実現するための2つの解決策を提案する。
第1のソリューションでは、畳み込みとプーリング操作を変更領域に選択的に適用し、変更マップを後続のレイヤに送信する。
このマップは、どの計算を繰り返す必要があるかを示す。
第2の解では、修正された領域のみを意味的セグメンテーションモデルで処理し、その結果のセグメンテーションを前の出力マップの対応する領域に挿入する。
コードはhttps://github.com/aliborji/spatial_attention.comで公開されている。
関連論文リスト
- SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Learning 1D Causal Visual Representation with De-focus Attention Networks [108.72931590504406]
本稿では,1次元因果モデルを用いた画像表現の実現可能性について検討する。
本稿では,学習可能な帯域通過フィルタを用いて様々な注意パターンを生成するDe-focus Attention Networksを提案する。
論文 参考訳(メタデータ) (2024-06-06T17:59:56Z) - Rethinking Range View Representation for LiDAR Segmentation [66.73116059734788]
「多対一」マッピング、意味的不整合、形状変形は、射程射影からの効果的な学習に対する障害となる可能性がある。
RangeFormerは、ネットワークアーキテクチャ、データ拡張、後処理を含む新しい設計を含む、フルサイクルのフレームワークである。
比較対象のLiDARセマンティックスとパノプティックスセグメンテーションのベンチマークにおいて,初めてレンジビュー法が点,ボクセル,マルチビューフュージョンを越えられることを示す。
論文 参考訳(メタデータ) (2023-03-09T16:13:27Z) - Estimating Appearance Models for Image Segmentation via Tensor
Factorization [0.0]
本稿では,画像からの外観モデルを直接推定する手法を提案する。
本手法は,潜時変モデルに対するテンソル分解に基づく推定器への入力として,画像からの局所的な高次色統計値を用いる。
このアプローチは、マルチリージョン画像のモデルを推定し、事前のユーザインタラクションなしで自動的にリージョン比を出力することができる。
論文 参考訳(メタデータ) (2022-08-16T17:21:00Z) - Unsupervised Deep Learning Meets Chan-Vese Model [77.24463525356566]
本稿では,Chan-Vese(CV)モデルとディープニューラルネットワークを統合した教師なしのイメージセグメンテーション手法を提案する。
私たちの基本的な考え方は、イメージを潜伏空間にマッピングするディープニューラルネットワークを適用して、画像空間における断片的な定数仮定の違反を軽減することです。
論文 参考訳(メタデータ) (2022-04-14T13:23:57Z) - CAMERAS: Enhanced Resolution And Sanity preserving Class Activation
Mapping for image saliency [61.40511574314069]
バックプロパゲーション画像のサリエンシは、入力中の個々のピクセルのモデル中心の重要性を推定することにより、モデル予測を説明することを目的としている。
CAMERASは、外部の事前処理を必要とせずに、高忠実度バックプロパゲーション・サリエンシ・マップを計算できる手法である。
論文 参考訳(メタデータ) (2021-06-20T08:20:56Z) - iGOS++: Integrated Gradient Optimized Saliency by Bilateral
Perturbations [31.72311989250957]
サージェンシーマップは、広く使用されているローカル説明ツールです。
ブラックボックスシステムの出力変更に最適化されたサリエンシマップを生成するためのフレームワークであるiGOS++を提案する。
論文 参考訳(メタデータ) (2020-12-31T18:04:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。