Fugu-MT 論文翻訳(概要): A Neuromorphic Proto-Object Based Dynamic Visual Saliency Model with an FPGA Implementation

論文の概要: A Neuromorphic Proto-Object Based Dynamic Visual Saliency Model with an FPGA Implementation

arxiv url: http://arxiv.org/abs/2002.11898v3
Date: Sun, 12 Apr 2020 02:04:47 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-28 07:30:09.527721
Title: A Neuromorphic Proto-Object Based Dynamic Visual Saliency Model with an FPGA Implementation
Title（参考訳）: fpga実装によるニューロモルフィックなproto-objectベース動的視覚塩分モデル
Authors: Jamal Lottier Molin, Chetan Singh Thakur, Ralph Etienne-Cummings, Ernst Niebur
Abstract要約: 本稿では, プロトオブジェクトの概念に基づくニューロモルフィック, ボトムアップ, ダイナミックビジュアル・サリエンシ・モデルを提案する。このモデルは、一般的に使用されるビデオデータセット上で人間の目の固定を予測する際に、最先端のダイナミック・ビジュアル・サリエンシ・モデルより優れている。我々は、Opal Kelly 7350 Kintex-7ボード上で、フィールドプログラマブルゲートアレイによるモデルの実装を紹介する。
参考スコア（独自算出の注目度）: 1.2387676601792899
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The ability to attend to salient regions of a visual scene is an innate and necessary preprocessing step for both biological and engineered systems performing high-level visual tasks (e.g. object detection, tracking, and classification). Computational efficiency, in regard to processing bandwidth and speed, is improved by only devoting computational resources to salient regions of the visual stimuli. In this paper, we first present a neuromorphic, bottom-up, dynamic visual saliency model based on the notion of proto-objects. This is achieved by incorporating the temporal characteristics of the visual stimulus into the model, similarly to the manner in which early stages of the human visual system extracts temporal information. This neuromorphic model outperforms state-of-the-art dynamic visual saliency models in predicting human eye fixations on a commonly used video dataset with associated eye tracking data. Secondly, for this model to have practical applications, it must be capable of performing its computations in real-time under low-power, small-size, and lightweight constraints. To address this, we introduce a Field-Programmable Gate Array implementation of the model on an Opal Kelly 7350 Kintex-7 board. This novel hardware implementation allows for processing of up to 23.35 frames per second running on a 100 MHz clock - better than 26x speedup from the software implementation.
Abstract（参考訳）: 視覚シーンの健全な領域に出席する能力は、ハイレベルな視覚タスク(オブジェクトの検出、追跡、分類など)を実行する生物学的および工学的なシステムにおいて、生まれつきかつ必要な前処理ステップである。計算効率は、処理帯域幅と速度に関して、視覚刺激の正常な領域に計算資源を割り当てることによって改善される。本稿では,まず,プロトオブジェクトの概念に基づく神経形態的ボトムアップ動的視覚塩分モデルを提案する。これは視覚刺激の時間的特性をモデルに組み込むことによって実現され、人間の視覚系の初期段階が時間的情報を抽出する方法と同様である。このニューロモルフィックモデルは、眼球追跡データを含む一般的なビデオデータセット上での人間の眼の固定を予測する際に、最先端の動的視覚塩分モデルを上回る。第二に、このモデルが実用的な応用を行うためには、低消費電力、小型、軽量の制約下でリアルタイムに計算を行う能力が必要である。そこで我々は,Opal Kelly 7350 Kintex-7ボード上で,フィールドプログラマブルゲートアレイによるモデル実装を提案する。この新しいハードウェア実装により、100MHzのクロックで動作する毎秒最大23.35フレームの処理が可能となり、ソフトウェア実装の26倍の高速化を実現した。

関連論文リスト

DAMamba: Vision State Space Model with Dynamic Adaptive Scan [51.81060691414399]
状態空間モデル(SSM)は近年、コンピュータビジョンにおいて大きな注目を集めている。スキャン順序と領域を適応的に割り当てるデータ駆動型動的適応スキャン(DAS)を提案する。 DASをベースとしたビジョンバックボーンDAMambaの提案は,現在のビジョンタスクにおけるMambaモデルよりもはるかに優れている。
論文参考訳（メタデータ） (2025-02-18T08:12:47Z)
Scaling Laws for Task-Optimized Models of the Primate Visual Ventral Stream [3.4526439922541705]
霊長類視覚腹側流(VVS)のモデリングにおけるスケーリング法則の評価を行った。行動アライメントはより大きなモデルでスケールし続けるが、ニューラルアライメントは飽和する。スケーリングの増加は、少数のサンプルでトレーニングされた小さなモデルでは、アライメントが不十分である、高レベルの視覚領域において特に有益である。
論文参考訳（メタデータ） (2024-11-08T17:13:53Z)
MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文参考訳（メタデータ） (2024-10-04T18:00:07Z)
pAE: An Efficient Autoencoder Architecture for Modeling the Lateral Geniculate Nucleus by Integrating Feedforward and Feedback Streams in Human Visual System [0.716879432974126]
本稿では,人間の視覚情報処理を近似した深部畳み込みモデルを提案する。本研究の目的は、訓練された浅部畳み込みモデルを用いて、外側原核(LGN)領域の機能を近似することである。 pAEモデルは最終99.26%の予測性能を達成し、時間モードでの人間の結果よりも約28%向上したことを示す。
論文参考訳（メタデータ） (2024-09-20T16:33:01Z)
D-NPC: Dynamic Neural Point Clouds for Non-Rigid View Synthesis from Monocular Video [53.83936023443193]
本稿では,スマートフォンのキャプチャなどのモノクロ映像から動的に新しいビューを合成する手法を導入することにより,この分野に貢献する。我々のアプローチは、局所的な幾何学と外観を別個のハッシュエンコードされたニューラル特徴グリッドにエンコードする暗黙の時間条件のポイントクラウドである、$textitdynamic Neural point cloudとして表現されている。
論文参考訳（メタデータ） (2024-06-14T14:35:44Z)
PerSival: Neural-network-based visualisation for pervasive continuum-mechanical simulations in musculoskeletal biomechanics [1.4272256806865107]
本稿では,3次元ヒト上肢骨格系モデルの広汎化のためのニューラルネットワークアーキテクチャを提案する。我々はスパルスグリッドサロゲートを用いて,同じ筋肉をリアルタイムに可視化する深層学習モデルのトレーニングを行う。
論文参考訳（メタデータ） (2023-12-07T00:07:35Z)
Real-time volumetric rendering of dynamic humans [83.08068677139822]
本研究では,モノクラービデオから動的人間の高速3次元再構成とリアルタイムレンダリングを行う手法を提案する。提案手法は, 72時間を要する最近の最先端の代替技術と比較して, 3時間未満で動的人間を1つのGPUで再構築することができる。新たなローカル光線マーチングレンダリングにより、モバイルVRデバイス上で、視覚的品質の損失を最小限に抑えて、ニューラルヒューマンを毎秒40フレームで可視化することができる。
論文参考訳（メタデータ） (2023-03-21T14:41:25Z)
Differentiable Frequency-based Disentanglement for Aerial Video Action Recognition [56.91538445510214]
ビデオにおける人間の行動認識のための学習アルゴリズムを提案する。我々のアプローチは、主に斜めに配置されたダイナミックカメラから取得されるUAVビデオのために設計されている。我々はUAV HumanデータセットとNEC Droneデータセットについて広範な実験を行った。
論文参考訳（メタデータ） (2022-09-15T22:16:52Z)
Activity Detection in Long Surgical Videos using Spatio-Temporal Models [1.2400116527089995]
本稿では,最先端のアクティビティ認識と時間モデルの両方について検討する。手術室の大規模活動認識データセットに,800本以上のフル長の手術ビデオを用いて,これらのモデルをベンチマークした。ラベル付きデータに制限がある場合であっても、他のタスクで事前トレーニングされたモデルから恩恵を受ければ、既存の作業よりも優れることを示す。
論文参考訳（メタデータ） (2022-05-05T17:34:33Z)
Real-time Neural-MPC: Deep Learning Model Predictive Control for Quadrotors and Agile Robotic Platforms [59.03426963238452]
モデル予測制御パイプライン内の動的モデルとして,大規模で複雑なニューラルネットワークアーキテクチャを効率的に統合するフレームワークであるReal-time Neural MPCを提案する。ニューラルネットワークを使わずに、最先端のMPCアプローチと比較して、位置追跡誤差を最大82%削減することで、実世界の問題に対する我々のフレームワークの実現可能性を示す。
論文参考訳（メタデータ） (2022-03-15T09:38:15Z)
STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文参考訳（メタデータ） (2021-07-15T02:53:11Z)
Emergent Properties of Foveated Perceptual Systems [3.3504365823045044]
この研究は、周囲の視線とテクスチャのようなエンコーディングの中心において、より高い明度を持つ、織り成された人間の視覚システムにインスパイアされている。本稿では,第1段のテクティット固定画像変換と第2段のテクティット学習可能な畳み込みニューラルネットワークを用いたモデルを提案する。周辺テクスチャベースの計算によるファベーションにより、シーン情報の効率的で明瞭でロバストな表現形式が得られます。
論文参考訳（メタデータ） (2020-06-14T19:34:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。