論文の概要: A Neuromorphic Proto-Object Based Dynamic Visual Saliency Model with an
FPGA Implementation
- arxiv url: http://arxiv.org/abs/2002.11898v3
- Date: Sun, 12 Apr 2020 02:04:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 07:30:09.527721
- Title: A Neuromorphic Proto-Object Based Dynamic Visual Saliency Model with an
FPGA Implementation
- Title(参考訳): fpga実装によるニューロモルフィックなproto-objectベース動的視覚塩分モデル
- Authors: Jamal Lottier Molin, Chetan Singh Thakur, Ralph Etienne-Cummings,
Ernst Niebur
- Abstract要約: 本稿では, プロトオブジェクトの概念に基づくニューロモルフィック, ボトムアップ, ダイナミックビジュアル・サリエンシ・モデルを提案する。
このモデルは、一般的に使用されるビデオデータセット上で人間の目の固定を予測する際に、最先端のダイナミック・ビジュアル・サリエンシ・モデルより優れている。
我々は、Opal Kelly 7350 Kintex-7ボード上で、フィールドプログラマブルゲートアレイによるモデルの実装を紹介する。
- 参考スコア(独自算出の注目度): 1.2387676601792899
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to attend to salient regions of a visual scene is an innate and
necessary preprocessing step for both biological and engineered systems
performing high-level visual tasks (e.g. object detection, tracking, and
classification). Computational efficiency, in regard to processing bandwidth
and speed, is improved by only devoting computational resources to salient
regions of the visual stimuli. In this paper, we first present a neuromorphic,
bottom-up, dynamic visual saliency model based on the notion of proto-objects.
This is achieved by incorporating the temporal characteristics of the visual
stimulus into the model, similarly to the manner in which early stages of the
human visual system extracts temporal information. This neuromorphic model
outperforms state-of-the-art dynamic visual saliency models in predicting human
eye fixations on a commonly used video dataset with associated eye tracking
data. Secondly, for this model to have practical applications, it must be
capable of performing its computations in real-time under low-power,
small-size, and lightweight constraints. To address this, we introduce a
Field-Programmable Gate Array implementation of the model on an Opal Kelly 7350
Kintex-7 board. This novel hardware implementation allows for processing of up
to 23.35 frames per second running on a 100 MHz clock - better than 26x speedup
from the software implementation.
- Abstract(参考訳): 視覚シーンの健全な領域に出席する能力は、ハイレベルな視覚タスク(オブジェクトの検出、追跡、分類など)を実行する生物学的および工学的なシステムにおいて、生まれつきかつ必要な前処理ステップである。
計算効率は、処理帯域幅と速度に関して、視覚刺激の正常な領域に計算資源を割り当てることによって改善される。
本稿では,まず,プロトオブジェクトの概念に基づく神経形態的ボトムアップ動的視覚塩分モデルを提案する。
これは視覚刺激の時間的特性をモデルに組み込むことによって実現され、人間の視覚系の初期段階が時間的情報を抽出する方法と同様である。
このニューロモルフィックモデルは、眼球追跡データを含む一般的なビデオデータセット上での人間の眼の固定を予測する際に、最先端の動的視覚塩分モデルを上回る。
第二に、このモデルが実用的な応用を行うためには、低消費電力、小型、軽量の制約下でリアルタイムに計算を行う能力が必要である。
そこで我々は,Opal Kelly 7350 Kintex-7ボード上で,フィールドプログラマブルゲートアレイによるモデル実装を提案する。
この新しいハードウェア実装により、100MHzのクロックで動作する毎秒最大23.35フレームの処理が可能となり、ソフトウェア実装の26倍の高速化を実現した。
関連論文リスト
- PerSival: Neural-network-based visualisation for pervasive
continuum-mechanical simulations in musculoskeletal biomechanics [1.4272256806865107]
本稿では,3次元ヒト上肢骨格系モデルの広汎化のためのニューラルネットワークアーキテクチャを提案する。
我々はスパルスグリッドサロゲートを用いて,同じ筋肉をリアルタイムに可視化する深層学習モデルのトレーニングを行う。
論文 参考訳(メタデータ) (2023-12-07T00:07:35Z) - Modelling Human Visual Motion Processing with Trainable Motion Energy
Sensing and a Self-attention Network [1.9458156037869137]
本稿では,生体とコンピュータの視覚モデルとのギャップを埋めることで,人間の動作知覚のイメージ計算可能なモデルを提案する。
このモデルアーキテクチャは、生体視覚システムにおける運動知覚のコア構造であるV1-MTの計算を捉えることを目的としている。
サイリコ神経生理学では、我々のモデルの単位応答は、運動プーリングやスピードチューニングに関する哺乳類の神経記録に類似していることが明らかになっている。
論文 参考訳(メタデータ) (2023-05-16T04:16:07Z) - Real-time volumetric rendering of dynamic humans [83.08068677139822]
本研究では,モノクラービデオから動的人間の高速3次元再構成とリアルタイムレンダリングを行う手法を提案する。
提案手法は, 72時間を要する最近の最先端の代替技術と比較して, 3時間未満で動的人間を1つのGPUで再構築することができる。
新たなローカル光線マーチングレンダリングにより、モバイルVRデバイス上で、視覚的品質の損失を最小限に抑えて、ニューラルヒューマンを毎秒40フレームで可視化することができる。
論文 参考訳(メタデータ) (2023-03-21T14:41:25Z) - Fast Non-Rigid Radiance Fields from Monocularized Data [66.74229489512683]
本稿では,不規則に変形するシーンを360度内向きに合成する新しい手法を提案する。
提案手法のコアとなるのは, 空間情報と時間情報の処理を分離し, 訓練と推論を高速化する効率的な変形モジュール, 2) 高速ハッシュ符号化ニューラルラジオアンスフィールドとしての標準シーンを表す静的モジュールである。
どちらの場合も,本手法は従来の手法よりもはるかに高速で,7分未満で収束し,1K解像度でリアルタイムのフレームレートを実現するとともに,生成した新規なビューに対して高い視覚的精度が得られる。
論文 参考訳(メタデータ) (2022-12-02T18:51:10Z) - Differentiable Frequency-based Disentanglement for Aerial Video Action
Recognition [56.91538445510214]
ビデオにおける人間の行動認識のための学習アルゴリズムを提案する。
我々のアプローチは、主に斜めに配置されたダイナミックカメラから取得されるUAVビデオのために設計されている。
我々はUAV HumanデータセットとNEC Droneデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-09-15T22:16:52Z) - Fast Dynamic Radiance Fields with Time-Aware Neural Voxels [106.69049089979433]
タイムアウェアなボクセル特徴を持つシーンを表現し,TiNeuVoxという名前のラジアンスフィールドフレームワークを提案する。
我々のフレームワークは、高いレンダリング品質を維持しながら、動的ラディアンスフィールドの最適化を加速する。
TiNeuVoxは8分と8MBのストレージでトレーニングを完了しています。
論文 参考訳(メタデータ) (2022-05-30T17:47:31Z) - Activity Detection in Long Surgical Videos using Spatio-Temporal Models [1.2400116527089995]
本稿では,最先端のアクティビティ認識と時間モデルの両方について検討する。
手術室の大規模活動認識データセットに,800本以上のフル長の手術ビデオを用いて,これらのモデルをベンチマークした。
ラベル付きデータに制限がある場合であっても、他のタスクで事前トレーニングされたモデルから恩恵を受ければ、既存の作業よりも優れることを示す。
論文 参考訳(メタデータ) (2022-05-05T17:34:33Z) - Real-time Neural-MPC: Deep Learning Model Predictive Control for
Quadrotors and Agile Robotic Platforms [59.03426963238452]
モデル予測制御パイプライン内の動的モデルとして,大規模で複雑なニューラルネットワークアーキテクチャを効率的に統合するフレームワークであるReal-time Neural MPCを提案する。
ニューラルネットワークを使わずに、最先端のMPCアプローチと比較して、位置追跡誤差を最大82%削減することで、実世界の問題に対する我々のフレームワークの実現可能性を示す。
論文 参考訳(メタデータ) (2022-03-15T09:38:15Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - Emergent Properties of Foveated Perceptual Systems [3.3504365823045044]
この研究は、周囲の視線とテクスチャのようなエンコーディングの中心において、より高い明度を持つ、織り成された人間の視覚システムにインスパイアされている。
本稿では,第1段のテクティット固定画像変換と第2段のテクティット学習可能な畳み込みニューラルネットワークを用いたモデルを提案する。
周辺テクスチャベースの計算によるファベーションにより、シーン情報の効率的で明瞭でロバストな表現形式が得られます。
論文 参考訳(メタデータ) (2020-06-14T19:34:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。