論文の概要: DIFT: Dynamic Iterative Field Transforms for Memory Efficient Optical
Flow
- arxiv url: http://arxiv.org/abs/2306.05691v1
- Date: Fri, 9 Jun 2023 06:10:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-12 14:39:38.200383
- Title: DIFT: Dynamic Iterative Field Transforms for Memory Efficient Optical
Flow
- Title(参考訳): DIFT: メモリ効率の良い光流のための動的反復場変換
- Authors: Risheek Garrepalli, Jisoo Jeong, Rajeswaran C Ravindran, Jamie Menjay
Lin and Fatih Porikli
- Abstract要約: 光フロー推定のための軽量低レイテンシ・メモリ効率モデルを提案する。
DIFTは、モバイル、XR、マイクロUAV、ロボティクス、カメラなどのエッジアプリケーションで実現可能である。
Snapdragon 8 Gen 1 HTPの効率的なモバイルAIアクセラレータ上で,最初のリアルタイムコストボリュームベースの光フローDLアーキテクチャを実演する。
- 参考スコア(独自算出の注目度): 44.57023882737517
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in neural network-based optical flow estimation often
come with prohibitively high computational and memory requirements, presenting
challenges in their model adaptation for mobile and low-power use cases. In
this paper, we introduce a lightweight low-latency and memory-efficient model,
Dynamic Iterative Field Transforms (DIFT), for optical flow estimation feasible
for edge applications such as mobile, XR, micro UAVs, robotics and cameras.
DIFT follows an iterative refinement framework leveraging variable resolution
of cost volumes for correspondence estimation. We propose a memory efficient
solution for cost volume processing to reduce peak memory. Also, we present a
novel dynamic coarse-to-fine cost volume processing during various stages of
refinement to avoid multiple levels of cost volumes. We demonstrate first
real-time cost-volume based optical flow DL architecture on Snapdragon 8 Gen 1
HTP efficient mobile AI accelerator with 32 inf/sec and 5.89 EPE (endpoint
error) on KITTI with manageable accuracy-performance tradeoffs.
- Abstract(参考訳): ニューラルネットワークに基づく光フロー推定の最近の進歩は、しばしば計算とメモリの要求が著しく高くなり、モバイルおよび低消費電力のユースケースに対するモデル適応の課題が提示される。
本稿では,モバイル,XR,マイクロUAV,ロボット,カメラなどのエッジアプリケーションに適用可能な光フロー推定のための軽量低レイテンシ・メモリ効率モデルである動的反復場変換(DIFT)を提案する。
DIFTは、対応推定にコストボリュームの可変解像度を活用する反復的な改善フレームワークに従う。
ピークメモリを削減するためのコストボリューム処理のためのメモリ効率のよいソリューションを提案する。
また,多段のコストボリュームを回避するため,様々な改良段階における動的粗大なコストボリューム処理を提案する。
Snapdragon 8 Gen 1 HTP の高速移動型AIアクセラレータ上で,32 inf/sec と 5.89 EPE (エンドポイントエラー) を KITTI 上で実現する。
関連論文リスト
- Adaptive Layer Selection for Efficient Vision Transformer Fine-Tuning [18.776903525210933]
我々は、$textbfALaST$(textitAdaptive Layer Selection Fine-Tuning for Vision Transformers$)と呼ばれるViTの効率的な微調整方法を紹介した。
我々のアプローチは、すべての層が微調整中に等しく重要であるわけではなく、その重要性が現在のミニバッチによって異なるという観察に基づいている。
この適応型計算アロケーションは,計算資源の分散に最適に近いスケジュールを実現できることを示す。
論文 参考訳(メタデータ) (2024-08-16T11:27:52Z) - Memory-Efficient Optical Flow via Radius-Distribution Orthogonal Cost
Volume [6.122542233250026]
本稿では,高分解能光フロー推定のためのメモリ効率の高い新しい手法であるMeFlowを提案する。
Sintel と KITTI のベンチマークでは,高解像度入力において高いメモリ効率を維持しながら,競合性能を実現している。
論文 参考訳(メタデータ) (2023-12-06T12:43:11Z) - FlowFormer: A Transformer Architecture and Its Masked Cost Volume
Autoencoding for Optical Flow [49.40637769535569]
本稿では,新しいトランスフォーマーベースのネットワークアーキテクチャであるFlowFormerとMasked Cost Volume AutoVA(MCVA)を導入し,光フロー推定の問題に取り組む。
FlowFormerは、ソースターゲットイメージペアから構築された4Dコストボリュームをトークン化し、コストボリュームエンコーダデコーダアーキテクチャでフロー推定を反復的に洗練する。
Sintelのベンチマークでは、FlowFormerアーキテクチャは、クリーンパスとファイナルパスの平均エンドポイントエラー(AEPE)を1.16と2.09で達成し、エラーを16.5%、エラーを15.5%削減した。
論文 参考訳(メタデータ) (2023-06-08T12:24:04Z) - READ: Recurrent Adaptation of Large Transformers [7.982905666062059]
モデルサイズとタスク数が増加するにつれて、微調整の大規模トランスフォーマーは実用的ではない。
textbfREcurrent textbfADaption (READ) を導入する。
論文 参考訳(メタデータ) (2023-05-24T16:59:41Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Lightweight Event-based Optical Flow Estimation via Iterative Deblurring [22.949700247611695]
相関ボリュームを使わずにイベントトレースからのフローを直接推定する,軽量かつ高性能なイベントベース光フローネットワークIDNetを導入する。
当社のトップパフォーマンスIDモデルは、DSECベンチマークで新たな最先端技術を設定しています。
NVidia Jetson Xavier NXでは,パラメータを80%削減し,メモリフットプリントを20倍削減し,40%高速動作を実現しています。
論文 参考訳(メタデータ) (2022-11-24T17:26:27Z) - FlowFormer: A Transformer Architecture for Optical Flow [40.6027845855481]
Optical Flow TransFormer (FlowFormer) は、オプティカルフローを学習するためのトランスフォーマーベースのニューラルネットワークアーキテクチャである。
FlowFormerはイメージペアから構築された4Dコストボリュームをトークン化し、コストトークンを代替グループトランスフォーマー層でコストメモリにエンコードする。
Sintelベンチマークのクリーンパスでは、FlowFormerが1.178の平均エンドポニートエラー(AEPE)を達成した。
論文 参考訳(メタデータ) (2022-03-30T10:33:09Z) - HRFormer: High-Resolution Transformer for Dense Prediction [99.6060997466614]
本稿では高分解能な予測タスクのための高分解能表現を学習する高分解能変換器(HRFormer)を提案する。
我々は高分解能畳み込みネットワーク(HRNet)で導入された多分解能並列設計を利用する。
人間のポーズ推定とセマンティックセグメンテーションにおける高分解能トランスフォーマの有効性を示す。
論文 参考訳(メタデータ) (2021-10-18T15:37:58Z) - Learning Frequency-aware Dynamic Network for Efficient Super-Resolution [56.98668484450857]
本稿では、離散コサイン変換(dct)領域の係数に応じて入力を複数の部分に分割する新しい周波数認識動的ネットワークについて検討する。
実際、高周波部は高価な操作で処理され、低周波部は計算負荷を軽減するために安価な操作が割り当てられる。
ベンチマークSISRモデルおよびデータセット上での実験は、周波数認識動的ネットワークが様々なSISRニューラルネットワークに使用できることを示している。
論文 参考訳(メタデータ) (2021-03-15T12:54:26Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。