論文の概要: Perception Over Time: Temporal Dynamics for Robust Image Understanding
- arxiv url: http://arxiv.org/abs/2203.06254v1
- Date: Fri, 11 Mar 2022 21:11:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-20 04:01:00.198415
- Title: Perception Over Time: Temporal Dynamics for Robust Image Understanding
- Title(参考訳): 時間の知覚:ロバスト画像理解のための時間ダイナミクス
- Authors: Maryam Daniali, Edward Kim
- Abstract要約: ディープラーニングは、狭く特定の視覚タスクにおいて、人間レベルのパフォーマンスを上回る。
人間の視覚知覚は入力刺激の変化に対して、桁違いに頑丈である。
静的画像理解に時間力学を取り入れた新しい手法を提案する。
- 参考スコア(独自算出の注目度): 5.584060970507506
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While deep learning surpasses human-level performance in narrow and specific
vision tasks, it is fragile and over-confident in classification. For example,
minor transformations in perspective, illumination, or object deformation in
the image space can result in drastically different labeling, which is
especially transparent via adversarial perturbations. On the other hand, human
visual perception is orders of magnitude more robust to changes in the input
stimulus. But unfortunately, we are far from fully understanding and
integrating the underlying mechanisms that result in such robust perception. In
this work, we introduce a novel method of incorporating temporal dynamics into
static image understanding. We describe a neuro-inspired method that decomposes
a single image into a series of coarse-to-fine images that simulates how
biological vision integrates information over time. Next, we demonstrate how
our novel visual perception framework can utilize this information "over time"
using a biologically plausible algorithm with recurrent units, and as a result,
significantly improving its accuracy and robustness over standard CNNs. We also
compare our proposed approach with state-of-the-art models and explicitly
quantify our adversarial robustness properties through multiple ablation
studies. Our quantitative and qualitative results convincingly demonstrate
exciting and transformative improvements over the standard computer vision and
deep learning architectures used today.
- Abstract(参考訳): ディープラーニングは、狭く特定の視覚タスクにおいて人間レベルのパフォーマンスを上回るが、分類において脆弱で過信である。
例えば、画像空間における視線、照明、または物体の変形の小さな変換は、非常に異なるラベリングをもたらし、特に逆方向の摂動によって透明になる。
一方、人間の視覚知覚は入力刺激の変化に対して、桁違いに頑健である。
しかし残念なことに、そのような堅牢な認識をもたらす基盤となるメカニズムを完全に理解し統合するには程遠い。
本研究では,静的画像理解に時間的ダイナミクスを取り入れた新しい手法を提案する。
本稿では,生物学的視覚が情報を時間とともにどのように統合するかをシミュレートする,単一の画像を一連の粗い画像に分解する神経刺激的手法について述べる。
次に,本研究で提案する視覚知覚フレームワークが,生物学的に実現可能な再帰単位を持つアルゴリズムを用いて,この情報を「時間とともに」活用できることを示し,その結果,標準cnnよりも精度と頑健性が著しく向上することを示す。
また,提案手法を最先端モデルと比較し,複数のアブレーション実験により敵のロバスト性を明示的に定量化する。
私たちの量的および質的な結果は、今日の標準的なコンピュータビジョンとディープラーニングアーキテクチャよりもエキサイティングで革新的な改善を確実に示しています。
関連論文リスト
- Connectivity-Inspired Network for Context-Aware Recognition [1.049712834719005]
視覚認知に対処するために,生体脳の回路モチーフを取り入れることの効果に焦点をあてる。
私たちの畳み込みアーキテクチャは、人間の皮質と皮質下の流れの接続にインスパイアされています。
我々はコンテキスト認識をモデル化するための新しいプラグイン・アンド・プレイ・モジュールを提案する。
論文 参考訳(メタデータ) (2024-09-06T15:42:10Z) - Degraded Polygons Raise Fundamental Questions of Neural Network Perception [5.423100066629618]
我々は、30年以上前に人間の視覚の認識・コンポーネント理論で導入された、劣化中の画像の復元作業を再考する。
周辺劣化した正多角形の大規模データセットを高速に生成するための自動形状復元テストを実装した。
この単純なタスクにおけるニューラルネットワークの振舞いは、人間の振舞いと矛盾する。
論文 参考訳(メタデータ) (2023-06-08T06:02:39Z) - Understanding Self-Predictive Learning for Reinforcement Learning [61.62067048348786]
強化学習のための自己予測学習の学習ダイナミクスについて検討する。
本稿では,2つの表現を同時に学習する新しい自己予測アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-06T20:43:37Z) - Reconstruction-guided attention improves the robustness and shape
processing of neural networks [5.156484100374057]
オブジェクト再構成を生成する反復エンコーダデコーダネットワークを構築し,トップダウンの注目フィードバックとして利用する。
本モデルでは,様々な画像摂動に対して強い一般化性能を示す。
本研究は、再構成に基づくフィードバックのモデリングが、強力な注意機構を持つAIシステムを実現することを示す。
論文 参考訳(メタデータ) (2022-09-27T18:32:22Z) - A domain adaptive deep learning solution for scanpath prediction of
paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。
我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。
提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文 参考訳(メタデータ) (2022-09-22T22:27:08Z) - Human Eyes Inspired Recurrent Neural Networks are More Robust Against Adversarial Noises [7.689542442882423]
我々は人間の脳にインスパイアされたデュアルストリーム視覚モデルを設計した。
このモデルは網膜のような入力層を特徴とし、次の焦点(固定点)を決定する2つのストリームと、固定点を取り巻く視覚を解釈する2つのストリームを含む。
このモデルを,物体認識,視線行動,対向強靭性の観点から評価した。
論文 参考訳(メタデータ) (2022-06-15T03:44:42Z) - Multimodal perception for dexterous manipulation [14.314776558032166]
視覚と触覚の変換のためのクロスモーダルな知覚データ生成フレームワークを提案する。
本稿では,空間的特徴と時間次元を考慮した触覚テクスチャ認識のための時間的アテンションモデルを提案する。
論文 参考訳(メタデータ) (2021-12-28T21:20:26Z) - Fast Training of Neural Lumigraph Representations using Meta Learning [109.92233234681319]
我々は、リアルタイムにレンダリングできる高品質な表現を素早く学習することを目的として、新しいニューラルレンダリングアプローチを開発した。
われわれのアプローチであるMetaNLR++は、ニューラル形状表現と2次元CNNに基づく画像特徴抽出、集約、再投影のユニークな組み合わせを用いてこれを実現する。
そこで本研究では,MetaNLR++が類似あるいはより優れたフォトリアリスティックなノベルビュー合成を実現し,競合する手法が要求される時間のほんの少しの時間で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-28T18:55:50Z) - Causal Navigation by Continuous-time Neural Networks [108.84958284162857]
本研究では,連続時間ニューラルネットワークを用いた因果表現学習のための理論的,実験的枠組みを提案する。
本手法は,ドローンの視覚制御学習の文脈において,一連の複雑なタスクにおいて評価する。
論文 参考訳(メタデータ) (2021-06-15T17:45:32Z) - Learning Temporal Dynamics from Cycles in Narrated Video [85.89096034281694]
時が経つにつれて世界がどのように変化するかをモデル化する学習問題に対する自己監督型ソリューションを提案します。
私たちのモデルは、前方および後方の時間を予測するためにモダリティに依存しない関数を学習します。
将来的な動作の予測や画像の時間的順序付けなど,様々なタスクに対して,学習されたダイナミクスモデルを適用する。
論文 参考訳(メタデータ) (2021-01-07T02:41:32Z) - Limited-angle tomographic reconstruction of dense layered objects by
dynamical machine learning [68.9515120904028]
強い散乱準透明物体の有限角トモグラフィーは困難で、非常に不適切な問題である。
このような問題の状況を改善することにより、アーティファクトの削減には、事前の定期化が必要である。
我々は,新しい分割畳み込みゲート再帰ユニット(SC-GRU)をビルディングブロックとして,リカレントニューラルネットワーク(RNN)アーキテクチャを考案した。
論文 参考訳(メタデータ) (2020-07-21T11:48:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。