Fugu-MT 論文翻訳(概要): Neuromorphic spatiotemporal optical flow: Enabling ultrafast visual perception beyond human capabilities

論文の概要: Neuromorphic spatiotemporal optical flow: Enabling ultrafast visual perception beyond human capabilities

arxiv url: http://arxiv.org/abs/2409.15345v2
Date: Thu, 30 Jan 2025 12:20:12 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-31 22:50:03.864367
Title: Neuromorphic spatiotemporal optical flow: Enabling ultrafast visual perception beyond human capabilities
Title（参考訳）: ニューロモルフィック時空間光流 : 人間の能力を超えた超高速視知覚の実現
Authors: Shengbo Wang, Jingwen Zhao, Tongming Pu, Liangbing Zhao, Xiaoyu Guo, Yue Cheng, Cong Li, Weihao Ma, Chenyu Tang, Zhenyu Xu, Ningli Wang, Luigi Occhipinti, Arokia Nathan, Ravinder Dahiya, Huaqiang Wu, Li Tao, Shuo Gao,
Abstract要約: シナプストランジスタアレイに時間情報を直接符号化することで遅延ボトルネックに対処するニューロモルフィック光フロー手法を提案する。従来の空間限定光流法と比較して,動作情報の時空間整合性を提供する。ソフトウェアベンチマークでは、我々のシステムは400%のスピードアップで最先端のアルゴリズムより優れています。
参考スコア（独自算出の注目度）: 12.409087198219693
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Optical flow, inspired by the mechanisms of biological visual systems, calculates spatial motion vectors within visual scenes that are necessary for enabling robotics to excel in complex and dynamic working environments. However, current optical flow algorithms, despite human-competitive task performance on benchmark datasets, remain constrained by unacceptable time delays (~0.6 seconds per inference, 4X human processing speed) in practical deployment. Here, we introduce a neuromorphic optical flow approach that addresses delay bottlenecks by encoding temporal information directly in a synaptic transistor array to assist spatial motion analysis. Compared to conventional spatial-only optical flow methods, our spatiotemporal neuromorphic optical flow offers the spatial-temporal consistency of motion information, rapidly identifying regions of interest in as little as 1-2 ms using the temporal motion cues derived from the embedded temporal information in the two-dimensional floating gate synaptic transistors. Thus, the visual input can be selectively filtered to achieve faster velocity calculations and various task execution. At the hardware level, due to the atomically sharp interfaces between distinct functional layers in two-dimensional van der Waals heterostructures, the synaptic transistor offers high-frequency response (~100 {\mu}s), robust non-volatility (>10000 s), and excellent endurance (>8000 cycles), enabling robust visual processing. In software benchmarks, our system outperforms state-of-the-art algorithms with a 400% speedup, frequently surpassing human-level performance while maintaining or enhancing accuracy by utilizing the temporal priors provided by the embedded temporal information.
Abstract（参考訳）: 生物学的視覚システムのメカニズムにインスパイアされた光の流れは、ロボット工学が複雑でダイナミックな作業環境での運動を可能にするために必要な視覚シーン内の空間運動ベクトルを計算する。しかしながら、現在の光学フローアルゴリズムは、ベンチマークデータセット上でのヒューマンコンペティティブなタスク性能にもかかわらず、実用的な展開において許容できない時間遅延(推論あたり約0.6秒、人間の処理速度4倍)に制約されている。本稿では,時間的情報をシナプストランジスタアレイに直接符号化することで遅延ボトルネックに対処し,空間運動解析を支援するニューロモルフィック光フロー手法を提案する。従来の空間のみの光フロー法と比較して,我々の時空間ニューロモルフィック光フローは,2次元フローティングゲートシナプストランジスタの埋め込み時空間情報から得られた時間的動きキューを用いて,わずか1-2msの関心領域を迅速に同定し,運動情報の時空間整合性を提供する。これにより、視覚入力を選択的にフィルタリングして高速な速度計算と様々なタスク実行を実現することができる。ハードウェアレベルでは、2次元ファンデルワールスヘテロ構造における異なる機能層間の原子的に鋭い界面のため、シナプストランジスタは高周波応答(~100 {\mu}s)、頑丈な非揮発性(〜10000 s)、耐久性(〜8000 サイクル)を提供し、堅牢なビジュアル処理を実現する。ソフトウェアベンチマークでは, 組込み時間情報による時間的事前情報を利用して, 精度を維持し, 精度を向上しながら, 400%のスピードアップで最先端のアルゴリズムの性能を向上する。

関連論文リスト

Electromyography-Based Gesture Recognition: Hierarchical Feature Extraction for Enhanced Spatial-Temporal Dynamics [0.7083699704958353]
本稿では, 時間的時間的特徴抽出手法として, 軽量な圧縮励起深層学習手法を提案する。提案したモデルは、Ninapro DB2、DB4、DB5データセットでそれぞれ96.41%、92.40%、93.34%の精度でテストされた。
論文参考訳（メタデータ） (2025-04-04T07:11:12Z)
Motion-Aware Video Frame Interpolation [49.49668436390514]
我々は、連続するフレームから中間光の流れを直接推定する動き対応ビデオフレーム補間(MA-VFI)ネットワークを導入する。受容場が異なる入力フレームからグローバルな意味関係と空間的詳細を抽出するだけでなく、必要な計算コストと複雑さを効果的に削減する。
論文参考訳（メタデータ） (2024-02-05T11:00:14Z)
Neuromorphic Optical Flow and Real-time Implementation with Event Cameras [47.11134388304464]
イベントベースのビジョンとスパイクニューラルネットワークの最新の開発の上に構築しています。我々は、最先端の自己監督型光フロー精度を向上させる新しいネットワークアーキテクチャを提案する。約2桁の複雑さで高速な光流予測を行う。
論文参考訳（メタデータ） (2023-04-14T14:03:35Z)
GotFlow3D: Recurrent Graph Optimal Transport for Learning 3D Flow Motion in Particle Tracking [11.579751282152841]
粒子追跡速度計(PTV)のような流れの可視化技術は、自然と産業のプロセスから発生する3次元乱流の全広さを理解するために広く用いられている。 3D取得技術の進歩にもかかわらず、粒子追跡における動き推定アルゴリズムは、大きな粒子変位、高密度粒子分布、高い計算コストにおいて大きな課題である。グラフ最適輸送に基づく新しいディープニューラルネットワークを導入することにより、両フレーム粒子集合から3次元流体の流れを学習するためのエンドツーエンドのソリューションを提案する。
論文参考訳（メタデータ） (2022-10-31T02:05:58Z)
Correlating sparse sensing for large-scale traffic speed estimation: A Laplacian-enhanced low-rank tensor kriging approach [76.45949280328838]
本稿では,Laplacian enhanced Low-rank tensor (LETC) フレームワークを提案する。次に,提案したモデルをネットワークワイド・クリグにスケールアップするために,複数の有効な数値手法を用いて効率的な解アルゴリズムを設計する。
論文参考訳（メタデータ） (2022-10-21T07:25:57Z)
Motion-inductive Self-supervised Object Discovery in Videos [99.35664705038728]
本稿では,連続的なRGBフレームの処理モデルを提案し,層状表現を用いて任意のフレーム間の光の流れを推定する。 3つの公開ビデオセグメンテーションデータセットにおいて,従来の最先端手法よりも優れた性能を示す。
論文参考訳（メタデータ） (2022-10-01T08:38:28Z)
Time-lapse image classification using a diffractive neural network [0.0]
回折ネットワークを用いたタイムラプス画像分類方式を初めて示す。 CIFAR-10データセットからの物体の光学的分類におけるブラインドテスト精度は62.03%である。これは、これまで1つの回折ネットワークを用いて達成された最も高い推測精度を構成する。
論文参考訳（メタデータ） (2022-08-23T08:16:30Z)
Motion-aware Memory Network for Fast Video Salient Object Detection [15.967509480432266]
我々は、隣接するフレームから現在のフレームの有用な時間情報をVSODの時間枝として抽出する時空間メモリ(STM)ベースのネットワークを設計する。符号化段階では、電流とその隣接するフレームから高次特徴を用いて高次時間特徴を生成する。復号化段階では,空間的および時間的分岐に対する効果的な融合戦略を提案する。提案モデルでは,光学フローなどの前処理を必要とせず,推定時に100FPS近い速度に達することができる。
論文参考訳（メタデータ） (2022-08-01T15:56:19Z)
Ultra-low Latency Spiking Neural Networks with Spatio-Temporal Compression and Synaptic Convolutional Block [4.081968050250324]
スパイキングニューラルネットワーク(SNN)は、神経時間情報能力、低処理機能、高い生物学的妥当性を有する。 Neuro-MNIST、CIFAR10-S、DVS128ジェスチャデータセットは、個々のイベントをフレームに集約し、イベントストリーム分類の時間分解能を高める必要がある。本研究では,NIST電流の時間ステップに個々のイベントを集約し,トレーニングや推論の遅延を低減する処理時間圧縮手法を提案する。
論文参考訳（メタデータ） (2022-03-18T15:14:13Z)
EM-driven unsupervised learning for efficient motion segmentation [3.5232234532568376]
本稿では,光学的流れからの動作分割のためのCNNに基づく完全教師なし手法を提案する。本研究では,移動分割ニューラルネットワークの損失関数とトレーニング手順を活用するために,期待最大化(EM)フレームワークを利用する。提案手法は, 教師なし手法よりも優れ, 効率的である。
論文参考訳（メタデータ） (2022-01-06T14:35:45Z)
Motion-from-Blur: 3D Shape and Motion Estimation of Motion-blurred Objects in Videos [115.71874459429381]
本研究では,映像から3次元の運動,3次元の形状,および高度に動きやすい物体の外観を同時推定する手法を提案する。提案手法は, 高速移動物体の劣化と3次元再構成において, 従来の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2021-11-29T11:25:14Z)
Adaptive Latent Space Tuning for Non-Stationary Distributions [62.997667081978825]
本稿では,ディープエンコーダ・デコーダ方式cnnの低次元潜在空間の適応チューニング法を提案する。粒子加速器における時間変動荷電粒子ビームの特性を予測するためのアプローチを実証する。
論文参考訳（メタデータ） (2021-05-08T03:50:45Z)
Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。 2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文参考訳（メタデータ） (2021-01-11T04:20:30Z)
Reinforcement Learning with Latent Flow [78.74671595139613]
Flow of Latents for Reinforcement Learning (Flare)はRLのためのネットワークアーキテクチャであり、潜時ベクトル差分を通じて時間情報を明示的に符号化する。本研究では,Frareが状態速度に明示的にアクセスすることなく,状態ベースRLの最適性能を回復することを示す。我々はまた、FlareがDeepMindコントロールベンチマークスイート内のピクセルベースの挑戦的な連続制御タスクで最先端のパフォーマンスを達成することも示しています。
論文参考訳（メタデータ） (2021-01-06T03:50:50Z)
FLAVR: Flow-Agnostic Video Representations for Fast Frame Interpolation [97.99012124785177]
FLAVRは、3D空間時間の畳み込みを使用して、ビデオフレームのエンドツーエンドの学習と推論を可能にする柔軟で効率的なアーキテクチャです。 FLAVRは、アクション認識、光フロー推定、モーション拡大のための有用な自己解釈タスクとして役立つことを実証します。
論文参考訳（メタデータ） (2020-12-15T18:59:30Z)
DS-Net: Dynamic Spatiotemporal Network for Video Salient Object Detection [78.04869214450963]
時間情報と空間情報のより効果的な融合のための新しい動的時空間ネットワーク(DSNet)を提案する。提案手法は最先端アルゴリズムよりも優れた性能が得られることを示す。
論文参考訳（メタデータ） (2020-12-09T06:42:30Z)
PAN: Towards Fast Action Recognition via Learning Persistence of Appearance [60.75488333935592]
最先端のほとんどの手法は、動きの表現として密度の高い光の流れに大きく依存している。本稿では,光学的フローに依存することで,高速な動作認識に光を当てる。我々はPersistence of Outearance(PA)と呼ばれる新しい動きキューを設計する。光学的流れとは対照的に,我々のPAは境界における運動情報の蒸留に重点を置いている。
論文参考訳（メタデータ） (2020-08-08T07:09:54Z)
Residual Frames with Efficient Pseudo-3D CNN for Human Action Recognition [10.185425416255294]
そこで我々は,残余フレームを代替の「軽量」運動表現として用いることを提案する。また、3D畳み込みを2Dと1D畳み込みに分離する新しい擬似3D畳み込みモジュールを開発した。
論文参考訳（メタデータ） (2020-08-03T17:40:17Z)
End-to-end Learning for Inter-Vehicle Distance and Relative Velocity Estimation in ADAS with a Monocular Camera [81.66569124029313]
本稿では,ディープニューラルネットワークのエンドツーエンドトレーニングに基づくカメラによる車間距離と相対速度推定手法を提案する。提案手法の重要な特徴は,2つの時間的単眼フレームによって提供される複数の視覚的手がかりの統合である。また,移動場における視線歪みの影響を緩和する車両中心サンプリング機構を提案する。
論文参考訳（メタデータ） (2020-06-07T08:18:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。