論文の概要: Towards Two-Stream Foveation-based Active Vision Learning
- arxiv url: http://arxiv.org/abs/2403.15977v2
- Date: Mon, 15 Apr 2024 21:08:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 22:26:44.298717
- Title: Towards Two-Stream Foveation-based Active Vision Learning
- Title(参考訳): 2ストリームFoveation-based Active Vision Learningに向けて
- Authors: Timur Ibrayev, Amitangshu Mukherjee, Sai Aparna Aketi, Kaushik Roy,
- Abstract要約: 神経科学の「二流仮説」では、人間の視覚野の神経処理を視覚系として説明している。
我々は、"二流仮説"にインスパイアされた機械学習フレームワークを提案し、それがもたらす潜在的なメリットを探求する。
弱教師付きオブジェクトローカライゼーションの課題に対して,2ストリームフォベーションに基づく学習が適用可能であることを示す。
- 参考スコア(独自算出の注目度): 7.14325008286629
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural network (DNN) based machine perception frameworks process the entire input in a one-shot manner to provide answers to both "what object is being observed" and "where it is located". In contrast, the "two-stream hypothesis" from neuroscience explains the neural processing in the human visual cortex as an active vision system that utilizes two separate regions of the brain to answer the what and the where questions. In this work, we propose a machine learning framework inspired by the "two-stream hypothesis" and explore the potential benefits that it offers. Specifically, the proposed framework models the following mechanisms: 1) ventral (what) stream focusing on the input regions perceived by the fovea part of an eye (foveation), 2) dorsal (where) stream providing visual guidance, and 3) iterative processing of the two streams to calibrate visual focus and process the sequence of focused image patches. The training of the proposed framework is accomplished by label-based DNN training for the ventral stream model and reinforcement learning for the dorsal stream model. We show that the two-stream foveation-based learning is applicable to the challenging task of weakly-supervised object localization (WSOL), where the training data is limited to the object class or its attributes. The framework is capable of both predicting the properties of an object and successfully localizing it by predicting its bounding box. We also show that, due to the independent nature of the two streams, the dorsal model can be applied on its own to unseen images to localize objects from different datasets.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)ベースのマシン認識フレームワークは、入力全体をワンショットで処理し、"何が観察されているか"と"どこにあるか"の両方に対する回答を提供する。
対照的に、神経科学の「二流仮説」は、人間の視覚野における神経処理を、脳の2つの別々の領域を利用して、何とどこにあるのかを答える能動的視覚システムとして説明している。
本研究では,「二流仮説」にインスパイアされた機械学習フレームワークを提案する。
具体的には、提案するフレームワークが以下のメカニズムをモデル化する。
1)眼底部が知覚する入力領域に着目した腹側流(何)
2 視覚的指導を提供する背後(場所)流路及び
3)2つのストリームの反復処理により、視覚的焦点を調整し、フォーカスされた画像パッチのシーケンスを処理する。
提案するフレームワークのトレーニングは,腹側ストリームモデルのためのラベルベースのDNNトレーニングと背側ストリームモデルのための強化学習によって達成される。
本稿では,2ストリームのファベーションに基づく学習が,訓練データをオブジェクトクラスや属性に限定した弱教師付きオブジェクトローカライゼーション(WSOL)の課題に対して適用可能であることを示す。
このフレームワークは、オブジェクトのプロパティを予測し、バウンディングボックスを予測してそれをローカライズすることができる。
また、この2つのストリームの独立性から、背側モデルを適用することで、異なるデータセットからオブジェクトをローカライズできることを示す。
関連論文リスト
- A Dual-Stream Neural Network Explains the Functional Segregation of
Dorsal and Ventral Visual Pathways in Human Brains [8.24969449883056]
我々は人間の目と脳にインスパイアされたデュアルストリーム視覚モデルを開発する。
入力レベルでは、モデルは2つの相補的な視覚パターンをサンプリングする。
バックエンドでは、モデルが分離された入力パターンを畳み込みニューラルネットワークの2つのブランチを通して処理する。
論文 参考訳(メタデータ) (2023-10-20T22:47:40Z) - Active Semantic Localization with Graph Neural Embedding [1.3499500088995464]
本研究では,グラフニューラルローカライザと呼ばれる,軽量で完全にCPUベースのドメイン適応型セマンティックローカライゼーションフレームワークについて検討する。
本手法は,(1)局地的特徴と外見的特徴の相違を組み合わせたシーングラフ,(2)グラフデータの直接学習/認識を可能にするグラフニューラルネットワークの2つの新しい技術に着想を得たものである。
フォトリアリスティック・ハビタットシミュレータを用いて、自己教師あり学習と教師なしドメイン適応の2つのシナリオの実験を行い、提案手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-05-10T13:45:42Z) - Self-supervised Amodal Video Object Segmentation [57.929357732733926]
アモーダル知覚は、部分的に隠されている物体の完全な形状を推測する必要がある。
本稿では、アモーダルビデオオブジェクトセグメンテーション(SaVos)の新しいフレームワークを開発する。
論文 参考訳(メタデータ) (2022-10-23T14:09:35Z) - Human Eyes Inspired Recurrent Neural Networks are More Robust Against Adversarial Noises [7.689542442882423]
我々は人間の脳にインスパイアされたデュアルストリーム視覚モデルを設計した。
このモデルは網膜のような入力層を特徴とし、次の焦点(固定点)を決定する2つのストリームと、固定点を取り巻く視覚を解釈する2つのストリームを含む。
このモデルを,物体認識,視線行動,対向強靭性の観点から評価した。
論文 参考訳(メタデータ) (2022-06-15T03:44:42Z) - Prune and distill: similar reformatting of image information along rat
visual cortex and deep neural networks [61.60177890353585]
深部畳み込み神経ネットワーク(CNN)は、脳の機能的類似、視覚野の腹側流の優れたモデルを提供することが示されている。
ここでは、CNNまたは視覚野の内部表現で知られているいくつかの顕著な統計的パターンについて考察する。
我々は、CNNと視覚野が、オブジェクト表現の次元展開/縮小と画像情報の再構成と、同様の密接な関係を持っていることを示す。
論文 参考訳(メタデータ) (2022-05-27T08:06:40Z) - Neural Maximum A Posteriori Estimation on Unpaired Data for Motion
Deblurring [87.97330195531029]
本稿では、ニューラルネットワークをトレーニングし、失明したデータから視覚情報や鋭いコンテンツを復元するためのニューラルネットワークの最大Aポストエリオリ(NeurMAP)推定フレームワークを提案する。
提案されたNeurMAPは、既存のデブロアリングニューラルネットワークに対するアプローチであり、未使用データセット上のイメージデブロアリングネットワークのトレーニングを可能にする最初のフレームワークである。
論文 参考訳(メタデータ) (2022-04-26T08:09:47Z) - Joint-bone Fusion Graph Convolutional Network for Semi-supervised
Skeleton Action Recognition [65.78703941973183]
本稿では,CD-JBF-GCNをエンコーダとし,ポーズ予測ヘッドをデコーダとして使用する新しい相関駆動型ジョイントボーン・フュージョングラフ畳み込みネットワークを提案する。
具体的には、CD-JBF-GCは、関節ストリームと骨ストリームの間の運動伝達を探索することができる。
自己教師型トレーニング段階におけるポーズ予測に基づくオートエンコーダにより、未ラベルデータから動作表現を学習することができる。
論文 参考訳(メタデータ) (2022-02-08T16:03:15Z) - Variational Structured Attention Networks for Deep Visual Representation
Learning [49.80498066480928]
空間的注意マップとチャネル的注意の両方を原則的に共同学習するための統合的深層フレームワークを提案する。
具体的には,確率的表現学習フレームワークに注目度の推定と相互作用を統合する。
ニューラルネットワーク内で推論ルールを実装し,確率パラメータとcnnフロントエンドパラメータのエンドツーエンド学習を可能にする。
論文 参考訳(メタデータ) (2021-03-05T07:37:24Z) - Ventral-Dorsal Neural Networks: Object Detection via Selective Attention [51.79577908317031]
我々はVDNet(Ventral-Dorsal Networks)と呼ばれる新しいフレームワークを提案する。
人間の視覚システムの構造にインスパイアされた我々は「Ventral Network」と「Dorsal Network」の統合を提案する。
実験の結果,提案手法は最先端の物体検出手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-05-15T23:57:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。