論文の概要: Fast Neural Scene Flow
- arxiv url: http://arxiv.org/abs/2304.09121v3
- Date: Tue, 29 Aug 2023 12:32:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 18:26:08.749608
- Title: Fast Neural Scene Flow
- Title(参考訳): 高速なニューラルシーンフロー
- Authors: Xueqian Li, Jianqiao Zheng, Francesco Ferroni, Jhony Kaesemodel
Pontes, Simon Lucey
- Abstract要約: 座標ニューラルネットワークは、トレーニングなしで実行時のシーンフローを推定する。
本稿では,損失関数自体から生じる支配的な計算ボトルネックを伴って,シーンフローが異なることを実証する。
我々の高速ニューラルネットワークシーンフロー(FNSF)アプローチは、学習手法に匹敵するリアルタイムパフォーマンスを初めて報告します。
- 参考スコア(独自算出の注目度): 36.29234109363439
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural Scene Flow Prior (NSFP) is of significant interest to the vision
community due to its inherent robustness to out-of-distribution (OOD) effects
and its ability to deal with dense lidar points. The approach utilizes a
coordinate neural network to estimate scene flow at runtime, without any
training. However, it is up to 100 times slower than current state-of-the-art
learning methods. In other applications such as image, video, and radiance
function reconstruction innovations in speeding up the runtime performance of
coordinate networks have centered upon architectural changes. In this paper, we
demonstrate that scene flow is different -- with the dominant computational
bottleneck stemming from the loss function itself (i.e., Chamfer distance).
Further, we rediscover the distance transform (DT) as an efficient,
correspondence-free loss function that dramatically speeds up the runtime
optimization. Our fast neural scene flow (FNSF) approach reports for the first
time real-time performance comparable to learning methods, without any training
or OOD bias on two of the largest open autonomous driving (AV) lidar datasets
Waymo Open and Argoverse.
- Abstract(参考訳): ニューラル・シーン・フロー・プライオリ(NSFP)は、オフ・オブ・ディストリビューション(OOD)効果に固有の頑健さと、密度の高いライダーポイントに対処する能力から、ビジョン・コミュニティにとって重要な関心事である。
このアプローチはコーディネートニューラルネットワークを使用して、トレーニングなしで実行時にシーンフローを見積もる。
しかし、現在の最先端の学習方法よりも100倍も遅い。
画像、ビデオ、放射関数再構成などの他のアプリケーションでは、コーディネートネットワークのランタイム性能を高速化する革新はアーキテクチャ上の変化を中心にしている。
本稿では,損失関数自体(すなわちシャンファー距離)から生じる主要な計算ボトルネックを用いて,シーンフローが異なることを実証する。
さらに,距離変換(DT)を効率よく対応のない損失関数として再発見し,実行時の最適化を劇的に高速化する。
私たちの高速ニューラルネットワークシーンフロー(FNSF)アプローチは、Waymo OpenとArgoverseの2つの大きなオープン自動運転(AV)データセットに対して、トレーニングやOODバイアスなしで、学習方法に匹敵するリアルタイムパフォーマンスを初めて報告します。
関連論文リスト
- LeRF: Learning Resampling Function for Adaptive and Efficient Image Interpolation [64.34935748707673]
最近のディープニューラルネットワーク(DNN)は、学習データ前処理を導入することで、パフォーマンスを著しく向上させた。
本稿では,DNNが学習した構造的前提と局所的連続仮定の両方を活かした学習再サンプリング(Learning Resampling, LeRF)を提案する。
LeRFは空間的に異なる再サンプリング関数を入力画像ピクセルに割り当て、ニューラルネットワークを用いてこれらの再サンプリング関数の形状を予測する。
論文 参考訳(メタデータ) (2024-07-13T16:09:45Z) - StreamFlow: Streamlined Multi-Frame Optical Flow Estimation for Video
Sequences [31.210626775505407]
連続するフレーム間のオクルージョンは、長い間、光学的フロー推定において重要な課題を提起してきた。
本稿では,ビデオ入力に適したストリーム・イン・バッチ・マルチフレーム(SIM)パイプラインを提案する。
StreamFlowは、挑戦的なKITTIとSintelデータセットのパフォーマンスだけでなく、排他的領域でも特に改善されている。
論文 参考訳(メタデータ) (2023-11-28T07:53:51Z) - Deep Multi-Threshold Spiking-UNet for Image Processing [51.88730892920031]
本稿では,SNN(Spike Neural Networks)とU-Netアーキテクチャを組み合わせた,画像処理のためのスパイキング-UNetの概念を紹介する。
効率的なスパイキング-UNetを実現するためには,スパイクによる高忠実度情報伝播の確保と,効果的なトレーニング戦略の策定という2つの課題に直面する。
実験の結果,画像のセグメンテーションとデノイングにおいて,スパイキングUNetは非スパイキングと同等の性能を発揮することがわかった。
論文 参考訳(メタデータ) (2023-07-20T16:00:19Z) - LOGO-Former: Local-Global Spatio-Temporal Transformer for Dynamic Facial
Expression Recognition [19.5702895176141]
野生の表情認識(DFER)の従来の方法は、主にCNN(Convolutional Neural Networks)に基づいており、ローカル操作はビデオの長距離依存性を無視している。
DFERのトランスフォーマーを用いた性能向上手法を提案するが,高いFLOPと計算コストが生じる。
DFEW と FERV39K の2つの動的表情データセットの実験結果から,DFER の空間的および時間的依存関係を効果的に活用する方法が示唆された。
論文 参考訳(メタデータ) (2023-05-05T07:53:13Z) - EM-driven unsupervised learning for efficient motion segmentation [3.5232234532568376]
本稿では,光学的流れからの動作分割のためのCNNに基づく完全教師なし手法を提案する。
本研究では,移動分割ニューラルネットワークの損失関数とトレーニング手順を活用するために,期待最大化(EM)フレームワークを利用する。
提案手法は, 教師なし手法よりも優れ, 効率的である。
論文 参考訳(メタデータ) (2022-01-06T14:35:45Z) - Wasserstein Flow Meets Replicator Dynamics: A Mean-Field Analysis of Representation Learning in Actor-Critic [137.04558017227583]
ニューラルネットワークによって強化されたアクター・クリティカル(AC)アルゴリズムは、近年、かなりの成功を収めている。
我々は,特徴量に基づくニューラルACの進化と収束について,平均場の観点から考察する。
神経性交流は,大域的最適政策をサブ線形速度で求める。
論文 参考訳(メタデータ) (2021-12-27T06:09:50Z) - KORSAL: Key-point Detection based Online Real-Time Spatio-Temporal
Action Localization [0.9507070656654633]
ビデオにおけるリアルタイムおよびオンラインのアクションローカライゼーションは、非常に難しい問題である。
近年の試みでは、計算集約的な3D CNNアーキテクチャや、光流を伴う高冗長な2ストリームアーキテクチャを用いて実現されている。
本稿では,高速かつ効率的なキーポイントベースバウンディングボックス予測を用いて行動の空間的ローカライズを提案する。
我々のモデルは41.8FPSのフレームレートを実現しており、これは現代のリアルタイム手法よりも10.7%改善されている。
論文 参考訳(メタデータ) (2021-11-05T08:39:36Z) - Neural Scene Flow Prior [30.878829330230797]
ディープラーニング革命以前、多くの知覚アルゴリズムは実行時最適化と強力な事前/正規化ペナルティに基づいていた。
本稿では,実行時最適化と強い正規化に大きく依存するシーンフロー問題を再考する。
ここでの中心的なイノベーションは、ニューラルネットワークのアーキテクチャを新しいタイプの暗黙正則化器として使用する、前もってニューラルネットワークのシーンフローを含めることである。
論文 参考訳(メタデータ) (2021-11-01T20:44:12Z) - Optical-Flow-Reuse-Based Bidirectional Recurrent Network for Space-Time
Video Super-Resolution [52.899234731501075]
時空間ビデオ超解像(ST-VSR)は、与えられたビデオの空間解像度とフレームレートを同時に増加させる。
既存の手法は通常、近隣の幅広いフレームからの情報を効率的に活用する方法の難しさに悩まされる。
本稿では,隣接するフレーム間の知識を活用するために,ConvLSTMの代わりに粗大な双方向リカレントニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T15:21:30Z) - End-to-end Learning for Inter-Vehicle Distance and Relative Velocity
Estimation in ADAS with a Monocular Camera [81.66569124029313]
本稿では,ディープニューラルネットワークのエンドツーエンドトレーニングに基づくカメラによる車間距離と相対速度推定手法を提案する。
提案手法の重要な特徴は,2つの時間的単眼フレームによって提供される複数の視覚的手がかりの統合である。
また,移動場における視線歪みの影響を緩和する車両中心サンプリング機構を提案する。
論文 参考訳(メタデータ) (2020-06-07T08:18:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。