論文の概要: CompactFlowNet: Efficient Real-time Optical Flow Estimation on Mobile Devices
- arxiv url: http://arxiv.org/abs/2412.13273v1
- Date: Tue, 17 Dec 2024 19:06:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:46:12.012020
- Title: CompactFlowNet: Efficient Real-time Optical Flow Estimation on Mobile Devices
- Title(参考訳): CompactFlowNet: モバイルデバイス上での効率的なリアルタイム光フロー推定
- Authors: Andrei Znobishchev, Valerii Filev, Oleg Kudashev, Nikita Orlov, Humphrey Shi,
- Abstract要約: 我々は,光フロー予測のための最初のリアルタイム移動ニューラルネットワークであるCompactFlowNetを提案する。
光フローは、ビデオ復元、モーション推定、ビデオ安定化、オブジェクト追跡、アクション認識、ビデオ生成など、様々なビデオ関連タスクの基本的なビルディングブロックとして機能する。
- 参考スコア(独自算出の注目度): 19.80162591240214
- License:
- Abstract: We present CompactFlowNet, the first real-time mobile neural network for optical flow prediction, which involves determining the displacement of each pixel in an initial frame relative to the corresponding pixel in a subsequent frame. Optical flow serves as a fundamental building block for various video-related tasks, such as video restoration, motion estimation, video stabilization, object tracking, action recognition, and video generation. While current state-of-the-art methods prioritize accuracy, they often overlook constraints regarding speed and memory usage. Existing light models typically focus on reducing size but still exhibit high latency, compromise significantly on quality, or are optimized for high-performance GPUs, resulting in sub-optimal performance on mobile devices. This study aims to develop a mobile-optimized optical flow model by proposing a novel mobile device-compatible architecture, as well as enhancements to the training pipeline, which optimize the model for reduced weight, low memory utilization, and increased speed while maintaining minimal error. Our approach demonstrates superior or comparable performance to the state-of-the-art lightweight models on the challenging KITTI and Sintel benchmarks. Furthermore, it attains a significantly accelerated inference speed, thereby yielding real-time operational efficiency on the iPhone 8, while surpassing real-time performance levels on more advanced mobile devices.
- Abstract(参考訳): 本稿では,光フロー予測のための最初のリアルタイム移動ニューラルネットワークであるCompactFlowNetについて述べる。
光フローは、ビデオ復元、モーション推定、ビデオ安定化、オブジェクト追跡、アクション認識、ビデオ生成など、様々なビデオ関連タスクの基本的なビルディングブロックとして機能する。
現在の最先端の手法は精度を優先するが、スピードやメモリ使用量に関する制約を無視することが多い。
既存のライトモデルは、サイズ削減に重点を置いているが、依然としてレイテンシが高く、品質を著しく損なうか、高性能GPUに最適化されているため、モバイルデバイス上でのサブ最適化のパフォーマンスが向上する。
本研究の目的は,新しいモバイルデバイス互換アーキテクチャを提案するとともに,軽量化,低メモリ利用,高速化を目標としたトレーニングパイプラインの強化により,最小限の誤差を維持しながら,モバイル最適化された光フローモデルを開発することである。
我々の手法は、挑戦的なKITTIとSintelベンチマークにおいて、最先端の軽量モデルよりも優れた、あるいは同等の性能を示す。
さらに、予測速度が大幅に向上し、iPhone 8上でのリアルタイム運用効率が向上し、より先進的なモバイルデバイス上でのリアルタイムパフォーマンスレベルを上回っている。
関連論文リスト
- Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Disentangled Motion Modeling for Video Frame Interpolation [40.83962594702387]
ビデオフレーム補間(VFI)は、既存のフレーム間の中間フレームを合成し、視覚的滑らかさと品質を高めることを目的としている。
中間動作モデリングに着目して視覚的品質を高めるVFIの拡散に基づく手法であるDistangled Motion Modeling (MoMo)を導入する。
論文 参考訳(メタデータ) (2024-06-25T03:50:20Z) - Track Everything Everywhere Fast and Robustly [46.362962852140015]
ビデオ中の任意のピクセルを効率的に追跡するための新しいテスト時間最適化手法を提案する。
本稿では,関数表現を局所的な時空間特徴グリッドに分解する,新しい非可逆変形ネットワークCaDeX++を提案する。
本実験は,SoTA最適化手法であるOmniMotion上でのトレーニング速度( textbf10 倍の速度),堅牢性,精度を著しく向上したことを示す。
論文 参考訳(メタデータ) (2024-03-26T17:58:22Z) - Motion Flow Matching for Human Motion Synthesis and Editing [75.13665467944314]
本研究では,効率的なサンプリングと効率性を備えた人体運動生成のための新しい生成モデルであるemphMotion Flow Matchingを提案する。
提案手法は, 従来の拡散モデルにおいて, サンプリングの複雑さを1000ステップから10ステップに減らし, テキスト・ツー・モーション・ジェネレーション・ベンチマークやアクション・ツー・モーション・ジェネレーション・ベンチマークで同等の性能を実現する。
論文 参考訳(メタデータ) (2023-12-14T12:57:35Z) - Neuromorphic Optical Flow and Real-time Implementation with Event
Cameras [47.11134388304464]
イベントベースのビジョンとスパイクニューラルネットワークの最新の開発の上に構築しています。
我々は、最先端の自己監督型光フロー精度を向上させる新しいネットワークアーキテクチャを提案する。
約2桁の複雑さで高速な光流予測を行う。
論文 参考訳(メタデータ) (2023-04-14T14:03:35Z) - Lightweight network towards real-time image denoising on mobile devices [26.130379174715742]
深層畳み込みニューラルネットワークは、画像復調タスクにおいて大きな進歩を遂げている。
複雑なアーキテクチャと計算コストにより、モバイルデバイスへのデプロイが妨げられる。
モバイルフレンドリーなデノベーションネットワークであるMFDNetを提案する。
論文 参考訳(メタデータ) (2022-11-09T05:19:26Z) - StreamYOLO: Real-time Object Detection for Streaming Perception [84.2559631820007]
将来を予測する能力を備えたモデルを提供し、ストリーミング知覚の結果を大幅に改善する。
本稿では,複数の速度を駆動するシーンについて考察し,VasAP(Velocity-Awared streaming AP)を提案する。
本手法は,Argoverse-HDデータセットの最先端性能を実現し,SAPとVsAPをそれぞれ4.7%,VsAPを8.2%改善する。
論文 参考訳(メタデータ) (2022-07-21T12:03:02Z) - hARMS: A Hardware Acceleration Architecture for Real-Time Event-Based
Optical Flow [0.0]
イベントベースの視覚センサは、視覚シーンの変化に基づいて、時間分解能の高い非同期イベントストリームを生成する。
イベントデータから光の流れを計算するための既存の解は、開口問題により運動の真の方向を捉えることができない。
本稿では,低消費電力な組込みプラットフォーム上での真の流れのリアルタイム計算を可能にするfARMSアルゴリズムのハードウェア実現について述べる。
論文 参考訳(メタデータ) (2021-12-13T16:27:17Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - Optical Flow Estimation from a Single Motion-blurred Image [66.2061278123057]
画像内の動きのぼかしは、基本的なコンピュータビジョンの問題に実用的な関心を持つ可能性があります。
本研究では,単一動画像からの光流れをエンドツーエンドで推定する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T12:45:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。