論文の概要: Reconstruction-guided attention improves the robustness and shape
processing of neural networks
- arxiv url: http://arxiv.org/abs/2209.13620v1
- Date: Tue, 27 Sep 2022 18:32:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 15:53:27.872645
- Title: Reconstruction-guided attention improves the robustness and shape
processing of neural networks
- Title(参考訳): リコンストラクション誘導によるニューラルネットワークの堅牢性と形状処理の改善
- Authors: Seoyoung Ahn, Hossein Adeli, Gregory J. Zelinsky
- Abstract要約: オブジェクト再構成を生成する反復エンコーダデコーダネットワークを構築し,トップダウンの注目フィードバックとして利用する。
本モデルでは,様々な画像摂動に対して強い一般化性能を示す。
本研究は、再構成に基づくフィードバックのモデリングが、強力な注意機構を持つAIシステムを実現することを示す。
- 参考スコア(独自算出の注目度): 5.156484100374057
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Many visual phenomena suggest that humans use top-down generative or
reconstructive processes to create visual percepts (e.g., imagery, object
completion, pareidolia), but little is known about the role reconstruction
plays in robust object recognition. We built an iterative encoder-decoder
network that generates an object reconstruction and used it as top-down
attentional feedback to route the most relevant spatial and feature information
to feed-forward object recognition processes. We tested this model using the
challenging out-of-distribution digit recognition dataset, MNIST-C, where 15
different types of transformation and corruption are applied to handwritten
digit images. Our model showed strong generalization performance against
various image perturbations, on average outperforming all other models
including feedforward CNNs and adversarially trained networks. Our model is
particularly robust to blur, noise, and occlusion corruptions, where shape
perception plays an important role. Ablation studies further reveal two
complementary roles of spatial and feature-based attention in robust object
recognition, with the former largely consistent with spatial masking benefits
in the attention literature (the reconstruction serves as a mask) and the
latter mainly contributing to the model's inference speed (i.e., number of time
steps to reach a certain confidence threshold) by reducing the space of
possible object hypotheses. We also observed that the model sometimes
hallucinates a non-existing pattern out of noise, leading to highly
interpretable human-like errors. Our study shows that modeling
reconstruction-based feedback endows AI systems with a powerful attention
mechanism, which can help us understand the role of generating perception in
human visual processing.
- Abstract(参考訳): 多くの視覚現象は、人間が視覚的知覚(画像、オブジェクトの完了、パリドリアなど)を作るためにトップダウンの生成過程または再構成過程を使っていることを示唆している。
我々は,オブジェクト再構成を生成する反復エンコーダ・デコーダネットワークを構築し,それをトップダウンの注意フィードバックとして,最も関連する空間的・特徴的情報をフィードフォワードオブジェクト認識プロセスにルーティングする。
このモデルを,15種類の変換と破損を手書き文字画像に適用した,難解な分散桁認識データセットmnist-cを用いてテストした。
提案モデルでは, フィードフォワードCNNや対向訓練ネットワークなど, 各種画像摂動に対して高い一般化性能を示した。
私たちのモデルは特に、形知覚が重要な役割を担うぼやけやノイズ、咬合破壊に頑健です。
アブレーション研究により、ロバストな物体認識における空間的および特徴的注意の2つの相補的役割が明らかにされ、前者は注意文学における空間的マスキングの利点(再構築はマスクとして機能する)と、後者は、主にモデルの推論速度(ある信頼しきい値に達するための時間ステップの数)に寄与し、可能な対象仮説の空間を減少させる。
また、このモデルが時としてノイズから既存のパターンを幻覚させ、高い解釈可能な人間的な誤りを引き起こすことも観察した。
本研究は,人間の視覚処理における知覚生成の役割を理解するのに役立つ強力な注意機構を持つ,再構成に基づくフィードバックのモデリングがaiシステムを内在させることを示す。
関連論文リスト
- The Dynamic Net Architecture: Learning Robust and Holistic Visual Representations Through Self-Organizing Networks [3.9848584845601014]
動的ネットアーキテクチャ(DNA)と呼ばれる新しいインテリジェントシステムアーキテクチャを提案する。
DNAは繰り返し安定化されたネットワークに依存し、それを視覚に応用するために議論する。
論文 参考訳(メタデータ) (2024-07-08T06:22:10Z) - Towards Evaluating the Robustness of Visual State Space Models [63.14954591606638]
視覚状態空間モデル(VSSM)は視覚知覚タスクにおいて顕著な性能を示した。
しかし、自然と敵対的な摂動の下での頑丈さは依然として重要な懸念事項である。
様々な摂動シナリオ下でのVSSMの頑健さを総合的に評価する。
論文 参考訳(メタデータ) (2024-06-13T17:59:44Z) - Attention-Guided Masked Autoencoders For Learning Image Representations [16.257915216763692]
Masked Autoencoders (MAE) はコンピュータビジョンタスクの教師なし事前訓練のための強力な方法として確立されている。
本稿では,注意誘導損失関数を用いて再建過程を通知する。
評価の結果,事前学習したモデルでは,バニラMAEよりも遅延表現が優れていることがわかった。
論文 参考訳(メタデータ) (2024-02-23T08:11:25Z) - Graphical Object-Centric Actor-Critic [55.2480439325792]
本稿では,アクター批判とモデルに基づくアプローチを組み合わせたオブジェクト中心強化学習アルゴリズムを提案する。
変換器エンコーダを用いてオブジェクト表現とグラフニューラルネットワークを抽出し、環境のダイナミクスを近似する。
本アルゴリズムは,現状のモデルフリーアクター批判アルゴリズムよりも複雑な3次元ロボット環境と構成構造をもつ2次元環境において,より優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-10-26T06:05:12Z) - RestoreFormer++: Towards Real-World Blind Face Restoration from
Undegraded Key-Value Pairs [63.991802204929485]
ブラインド顔復元は、未知の劣化のあるものから高品質な顔画像の復元を目的としている。
現在のアルゴリズムは、主に、高品質な詳細を補完し、驚くべき進歩を達成するために、事前を導入する。
RestoreFormer++を提案する。これは、コンテキスト情報と事前との相互作用をモデル化するための、完全な空間的アテンション機構を導入します。
RestoreFormer++は、合成と実世界の両方のデータセットで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-08-14T16:04:53Z) - Human Eyes Inspired Recurrent Neural Networks are More Robust Against Adversarial Noises [7.689542442882423]
我々は人間の脳にインスパイアされたデュアルストリーム視覚モデルを設計した。
このモデルは網膜のような入力層を特徴とし、次の焦点(固定点)を決定する2つのストリームと、固定点を取り巻く視覚を解釈する2つのストリームを含む。
このモデルを,物体認識,視線行動,対向強靭性の観点から評価した。
論文 参考訳(メタデータ) (2022-06-15T03:44:42Z) - Recurrent Attention Models with Object-centric Capsule Representation
for Multi-object Recognition [4.143091738981101]
反復的な注目を伴うエンコーダ・デコーダモデルにおけるオブジェクト中心の隠れ表現は、注意と認識の効果的な統合をもたらすことを示す。
我々の研究は、再帰的なオブジェクト中心表現を注意を向ける計画に組み込むための一般的なアーキテクチャへの一歩を踏み出した。
論文 参考訳(メタデータ) (2021-10-11T01:41:21Z) - Understanding invariance via feedforward inversion of discriminatively
trained classifiers [30.23199531528357]
過去の研究では、出力ログに余計な視覚的詳細が残っていることが判明した。
極めて高い忠実度を再現するフィードフォワードインバージョンモデルを開発する。
私たちのアプローチはBigGANをベースにしており、1ホットクラスのラベルの代わりにロジットのコンディショニングを行います。
論文 参考訳(メタデータ) (2021-03-15T17:56:06Z) - Secrets of 3D Implicit Object Shape Reconstruction in the Wild [92.5554695397653]
コンピュータビジョン、ロボティクス、グラフィックスの様々な用途において、高精細な3Dオブジェクトをスパースから再構築することは重要です。
最近の神経暗黙的モデリング法は、合成データセットまたは高密度データセットで有望な結果を示す。
しかし、粗末でノイズの多い実世界のデータではパフォーマンスが悪い。
本論文では, 一般的な神経暗黙モデルの性能低下の根本原因を解析する。
論文 参考訳(メタデータ) (2021-01-18T03:24:48Z) - Progressive Self-Guided Loss for Salient Object Detection [102.35488902433896]
画像中の深層学習に基づくサラエント物体検出を容易にするプログレッシブ自己誘導損失関数を提案する。
我々のフレームワークは適応的に集約されたマルチスケール機能を利用して、健全な物体の探索と検出を効果的に行う。
論文 参考訳(メタデータ) (2021-01-07T07:33:38Z) - Limited-angle tomographic reconstruction of dense layered objects by
dynamical machine learning [68.9515120904028]
強い散乱準透明物体の有限角トモグラフィーは困難で、非常に不適切な問題である。
このような問題の状況を改善することにより、アーティファクトの削減には、事前の定期化が必要である。
我々は,新しい分割畳み込みゲート再帰ユニット(SC-GRU)をビルディングブロックとして,リカレントニューラルネットワーク(RNN)アーキテクチャを考案した。
論文 参考訳(メタデータ) (2020-07-21T11:48:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。