論文の概要: Improving action classification with brain-inspired deep networks
- arxiv url: http://arxiv.org/abs/2512.07729v1
- Date: Mon, 08 Dec 2025 17:19:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.976019
- Title: Improving action classification with brain-inspired deep networks
- Title(参考訳): 脳にインスパイアされたディープネットワークによる行動分類の改善
- Authors: Aidas Aglinskas, Stefano Anzellotti,
- Abstract要約: アクション情報は、身体のポーズや動き、背景シーンから抽出することができる。
ディープニューラルネットワーク(DNN)が,身体に関する情報と背景情報を利用することを示す。
我々は、脳内のドメイン特異性に従ってパターン化された新しいアーキテクチャの実装とテストを行い、身体情報と背景情報を個別に処理する。
- 参考スコア(独自算出の注目度): 0.8594140167290097
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Action recognition is also key for applications ranging from robotics to healthcare monitoring. Action information can be extracted from the body pose and movements, as well as from the background scene. However, the extent to which deep neural networks (DNNs) make use of information about the body and information about the background remains unclear. Since these two sources of information may be correlated within a training dataset, DNNs might learn to rely predominantly on one of them, without taking full advantage of the other. Unlike DNNs, humans have domain-specific brain regions selective for perceiving bodies, and regions selective for perceiving scenes. The present work tests whether humans are thus more effective at extracting information from both body and background, and whether building brain-inspired deep network architectures with separate domain-specific streams for body and scene perception endows them with more human-like performance. We first demonstrate that DNNs trained using the HAA500 dataset perform almost as accurately on versions of the stimuli that show both body and background and on versions of the stimuli from which the body was removed, but are at chance-level for versions of the stimuli from which the background was removed. Conversely, human participants (N=28) can recognize the same set of actions accurately with all three versions of the stimuli, and perform significantly better on stimuli that show only the body than on stimuli that show only the background. Finally, we implement and test a novel architecture patterned after domain specificity in the brain with separate streams to process body and background information. We show that 1) this architecture improves action recognition performance, and 2) its accuracy across different versions of the stimuli follows a pattern that matches more closely the pattern of accuracy observed in human participants.
- Abstract(参考訳): アクション認識は、ロボティクスから医療監視まで、アプリケーションにとって鍵となる。
アクション情報は、身体のポーズや動き、背景シーンから抽出することができる。
しかし、ディープニューラルネットワーク(DNN)が身体に関する情報と背景に関する情報を利用する範囲は、まだ不明である。
これら2つの情報源はトレーニングデータセット内で相関する可能性があるため、DNNは他方を十分に活用することなく、その一方に大きく依存することを学ぶことができる。
DNNとは異なり、ヒトは身体を知覚する領域に特異的な脳領域を持ち、シーンを知覚する領域は選択的である。
本研究は、人体と背景の両方から情報を取り出すのがより効果的か、脳にインスパイアされたディープ・ネットワーク・アーキテクチャの構築が、身体とシーンの知覚のための別々のドメイン固有のストリームによって、より人間的なパフォーマンスを付与するかどうかを検証する。
まず,HAA500データセットを用いてトレーニングしたDNNが,身体と背景の両方を示す刺激のバージョンと,身体を除去した刺激バージョンとをほぼ正確に比較した。
逆に、人間の被験者(N=28)は、刺激の3つのバージョンすべてで、同じ行動のセットを正確に認識することができ、背景のみを示す刺激よりも、身体のみを示す刺激に対して顕著に優れた効果を発揮する。
最後に,脳内ドメイン特異性に起因した新しいアーキテクチャの実装とテストを行い,身体情報と背景情報を個別に処理する手法を提案する。
私たちはそれを示します
1)このアーキテクチャは行動認識性能を向上し、
2) 刺激の異なるバージョンにまたがる精度は, 被験者の観察した精度のパターンとより密に一致したパターンに従う。
関連論文リスト
- Reconstructing Close Human Interaction with Appearance and Proxemics Reasoning [50.76723760768117]
既存の人間のポーズ推定手法では、既存の映像からもっともらしい密接な相互作用を回復できない。
人間の外見は、これらの障害に対処するための簡単な手がかりとなる。
本研究では,人間の外見,社会的プロキシ,物理法則に制約された身体接触により,正確な対話動作を再構築するための2分岐最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-03T12:19:26Z) - Towards Two-Stream Foveation-based Active Vision Learning [7.14325008286629]
神経科学の「二流仮説」では、人間の視覚野の神経処理を視覚系として説明している。
我々は、"二流仮説"にインスパイアされた機械学習フレームワークを提案し、それがもたらす潜在的なメリットを探求する。
弱教師付きオブジェクトローカライゼーションの課題に対して,2ストリームフォベーションに基づく学習が適用可能であることを示す。
論文 参考訳(メタデータ) (2024-03-24T01:20:08Z) - A Dual-Stream Neural Network Explains the Functional Segregation of
Dorsal and Ventral Visual Pathways in Human Brains [8.24969449883056]
我々は人間の目と脳にインスパイアされたデュアルストリーム視覚モデルを開発する。
入力レベルでは、モデルは2つの相補的な視覚パターンをサンプリングする。
バックエンドでは、モデルが分離された入力パターンを畳み込みニューラルネットワークの2つのブランチを通して処理する。
論文 参考訳(メタデータ) (2023-10-20T22:47:40Z) - BI AVAN: Brain inspired Adversarial Visual Attention Network [67.05560966998559]
機能的脳活動から直接人間の視覚的注意を特徴付ける脳誘発対人視覚注意ネットワーク(BI-AVAN)を提案する。
本モデルは,人間の脳が監督されていない方法で焦点を絞った映画フレーム内の視覚的物体を識別・発見するために,注意関連・無視対象間の偏りのある競合過程を模倣する。
論文 参考訳(メタデータ) (2022-10-27T22:20:36Z) - Guiding Visual Attention in Deep Convolutional Neural Networks Based on
Human Eye Movements [0.0]
ディープ畳み込みニューラルネットワーク(DCNN)は、当初は生物学的ビジョンの原理にインスパイアされていた。
近年のディープラーニングの進歩は、この類似性を減らしているようだ。
有用なモデルを得るための純粋にデータ駆動型アプローチについて検討する。
論文 参考訳(メタデータ) (2022-06-21T17:59:23Z) - Prune and distill: similar reformatting of image information along rat
visual cortex and deep neural networks [61.60177890353585]
深部畳み込み神経ネットワーク(CNN)は、脳の機能的類似、視覚野の腹側流の優れたモデルを提供することが示されている。
ここでは、CNNまたは視覚野の内部表現で知られているいくつかの顕著な統計的パターンについて考察する。
我々は、CNNと視覚野が、オブジェクト表現の次元展開/縮小と画像情報の再構成と、同様の密接な関係を持っていることを示す。
論文 参考訳(メタデータ) (2022-05-27T08:06:40Z) - Overcoming the Domain Gap in Neural Action Representations [60.47807856873544]
3Dポーズデータは、手動で介入することなく、マルチビュービデオシーケンスから確実に抽出できる。
本稿では,ニューラルアクション表現の符号化を,ニューラルアクションと行動拡張のセットと共に導くために使用することを提案する。
ドメインギャップを減らすために、トレーニングの間、同様の行動をしているように見える動物間で神経と行動のデータを取り替える。
論文 参考訳(メタデータ) (2021-12-02T12:45:46Z) - Continuous Emotion Recognition with Spatiotemporal Convolutional Neural
Networks [82.54695985117783]
In-theld でキャプチャした長いビデオシーケンスを用いて,持続的な感情認識のための最先端のディープラーニングアーキテクチャの適合性を検討する。
我々は,2D-CNNと長期記憶ユニットを組み合わせた畳み込みリカレントニューラルネットワークと,2D-CNNモデルの微調整時の重みを膨らませて構築した膨らませた3D-CNNモデルを開発した。
論文 参考訳(メタデータ) (2020-11-18T13:42:05Z) - Ventral-Dorsal Neural Networks: Object Detection via Selective Attention [51.79577908317031]
我々はVDNet(Ventral-Dorsal Networks)と呼ばれる新しいフレームワークを提案する。
人間の視覚システムの構造にインスパイアされた我々は「Ventral Network」と「Dorsal Network」の統合を提案する。
実験の結果,提案手法は最先端の物体検出手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-05-15T23:57:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。