Fugu-MT 論文翻訳(概要): Addressing a fundamental limitation in deep vision models: lack of spatial attention

論文の概要: Addressing a fundamental limitation in deep vision models: lack of spatial attention

arxiv url: http://arxiv.org/abs/2407.01782v2
Date: Wed, 21 Aug 2024 02:39:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-22 22:05:55.944488
Title: Addressing a fundamental limitation in deep vision models: lack of spatial attention
Title（参考訳）: 深部視覚モデルの基本的限界に対処する-空間的注意の欠如
Authors: Ali Borji,
Abstract要約: この写本の目的は、現在の深層学習モデル、特に視覚モデルにおいて重要な限界を強調することである。我々は、次世代のより効率的な視覚モデルに道を開くことのできるソリューションを提案する。
参考スコア（独自算出の注目度）: 43.37813040320147
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The primary aim of this manuscript is to underscore a significant limitation in current deep learning models, particularly vision models. Unlike human vision, which efficiently selects only the essential visual areas for further processing, leading to high speed and low energy consumption, deep vision models process the entire image. In this work, we examine this issue from a broader perspective and propose a solution that could pave the way for the next generation of more efficient vision models. Basically, convolution and pooling operations are selectively applied to altered regions, with a change map sent to subsequent layers. This map indicates which computations need to be repeated. The code is available at https://github.com/aliborji/spatial_attention.
Abstract（参考訳）: この写本の主な目的は、現在の深層学習モデル、特に視覚モデルにおいて重要な限界を強調することである。人間の視覚は、さらなる処理に必要な視覚領域のみを効率的に選択するので、高速かつ低エネルギー消費につながるが、ディープビジョンモデルは画像全体を処理している。本研究では,この問題をより広い視点から検討し,次世代のより効率的な視覚モデルを実現するための解決策を提案する。基本的に、畳み込みとプーリング操作は、変更されたリージョンに選択的に適用され、変更マップは後続のレイヤに送信される。このマップは、どの計算を繰り返す必要があるかを示す。コードはhttps://github.com/aliborji/spatial_attention.comで公開されている。

関連論文リスト

FOVI: A biologically-inspired foveated interface for deep vision models [5.6075902312642745]
本研究では,ヒト網膜と一次視覚野をベースとした視覚インタフェースを提案する。受容場は、センサ多様体上のk-アネレスト近傍(kNN)として定義される。本稿では,(1)エンドツーエンドのkNN-畳み込みアーキテクチャ,(2)基礎となるDINOv3 ViTモデルのファベレーテッド適応の2つのユースケースを示す。
論文参考訳（メタデータ） (2026-02-03T17:26:54Z)
ERGO: Efficient High-Resolution Visual Understanding for Vision-Language Models [11.263321053154364]
ERGOは推論駆動の知覚平均化マルチモーダルコンテキストで、どこにフォーカスするかを決定する。我々は、粗大な知覚のための強化学習フレームワークにおいて、単純で効果的な報酬成分を開発する。提案手法は,従来のモデルや競合手法よりも精度が高く,効率が向上する。
論文参考訳（メタデータ） (2025-09-26T07:15:19Z)
Towards Scalable and Deep Graph Neural Networks via Noise Masking [59.058558158296265]
グラフニューラルネットワーク(GNN)は多くのグラフマイニングタスクで顕著に成功している。計算とストレージのコストが高いため、大きなグラフにスケールすることは困難です。既存のモデル単純化作業と互換性のあるプラグアンドプレイモジュールであるノイズマスキング(RMask)を用いたランダムウォークを提案する。
論文参考訳（メタデータ） (2024-12-19T07:48:14Z)
Vision Eagle Attention: A New Lens for Advancing Image Classification [0.8158530638728501]
コンボリューショナルな空間的注意力を用いた視覚的特徴抽出を促進する新しい注意機構であるビジョンイーグル注意(Vision Eagle Attention)を導入する。このモデルは、局所的な空間的特徴を捉えるために畳み込みを適用し、画像の最も情報性の高い領域を選択的に強調するアテンションマップを生成する。 Vision Eagle Attentionを軽量なResNet-18アーキテクチャに統合しました。
論文参考訳（メタデータ） (2024-11-15T20:21:59Z)
SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。 10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文参考訳（メタデータ） (2024-07-22T08:04:09Z)
Learning 1D Causal Visual Representation with De-focus Attention Networks [108.72931590504406]
本稿では,1次元因果モデルを用いた画像表現の実現可能性について検討する。本稿では,学習可能な帯域通過フィルタを用いて様々な注意パターンを生成するDe-focus Attention Networksを提案する。
論文参考訳（メタデータ） (2024-06-06T17:59:56Z)
Rethinking Range View Representation for LiDAR Segmentation [66.73116059734788]
「多対一」マッピング、意味的不整合、形状変形は、射程射影からの効果的な学習に対する障害となる可能性がある。 RangeFormerは、ネットワークアーキテクチャ、データ拡張、後処理を含む新しい設計を含む、フルサイクルのフレームワークである。比較対象のLiDARセマンティックスとパノプティックスセグメンテーションのベンチマークにおいて,初めてレンジビュー法が点,ボクセル,マルチビューフュージョンを越えられることを示す。
論文参考訳（メタデータ） (2023-03-09T16:13:27Z)
Estimating Appearance Models for Image Segmentation via Tensor Factorization [0.0]
本稿では,画像からの外観モデルを直接推定する手法を提案する。本手法は,潜時変モデルに対するテンソル分解に基づく推定器への入力として,画像からの局所的な高次色統計値を用いる。このアプローチは、マルチリージョン画像のモデルを推定し、事前のユーザインタラクションなしで自動的にリージョン比を出力することができる。
論文参考訳（メタデータ） (2022-08-16T17:21:00Z)
Unsupervised Deep Learning Meets Chan-Vese Model [77.24463525356566]
本稿では,Chan-Vese(CV)モデルとディープニューラルネットワークを統合した教師なしのイメージセグメンテーション手法を提案する。私たちの基本的な考え方は、イメージを潜伏空間にマッピングするディープニューラルネットワークを適用して、画像空間における断片的な定数仮定の違反を軽減することです。
論文参考訳（メタデータ） (2022-04-14T13:23:57Z)
CAMERAS: Enhanced Resolution And Sanity preserving Class Activation Mapping for image saliency [61.40511574314069]
バックプロパゲーション画像のサリエンシは、入力中の個々のピクセルのモデル中心の重要性を推定することにより、モデル予測を説明することを目的としている。 CAMERASは、外部の事前処理を必要とせずに、高忠実度バックプロパゲーション・サリエンシ・マップを計算できる手法である。
論文参考訳（メタデータ） (2021-06-20T08:20:56Z)
iGOS++: Integrated Gradient Optimized Saliency by Bilateral Perturbations [31.72311989250957]
サージェンシーマップは、広く使用されているローカル説明ツールです。ブラックボックスシステムの出力変更に最適化されたサリエンシマップを生成するためのフレームワークであるiGOS++を提案する。
論文参考訳（メタデータ） (2020-12-31T18:04:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。