論文の概要: DIFT: Dynamic Iterative Field Transforms for Memory Efficient Optical
Flow
- arxiv url: http://arxiv.org/abs/2306.05691v1
- Date: Fri, 9 Jun 2023 06:10:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-12 14:39:38.200383
- Title: DIFT: Dynamic Iterative Field Transforms for Memory Efficient Optical
Flow
- Title(参考訳): DIFT: メモリ効率の良い光流のための動的反復場変換
- Authors: Risheek Garrepalli, Jisoo Jeong, Rajeswaran C Ravindran, Jamie Menjay
Lin and Fatih Porikli
- Abstract要約: 光フロー推定のための軽量低レイテンシ・メモリ効率モデルを提案する。
DIFTは、モバイル、XR、マイクロUAV、ロボティクス、カメラなどのエッジアプリケーションで実現可能である。
Snapdragon 8 Gen 1 HTPの効率的なモバイルAIアクセラレータ上で,最初のリアルタイムコストボリュームベースの光フローDLアーキテクチャを実演する。
- 参考スコア(独自算出の注目度): 44.57023882737517
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in neural network-based optical flow estimation often
come with prohibitively high computational and memory requirements, presenting
challenges in their model adaptation for mobile and low-power use cases. In
this paper, we introduce a lightweight low-latency and memory-efficient model,
Dynamic Iterative Field Transforms (DIFT), for optical flow estimation feasible
for edge applications such as mobile, XR, micro UAVs, robotics and cameras.
DIFT follows an iterative refinement framework leveraging variable resolution
of cost volumes for correspondence estimation. We propose a memory efficient
solution for cost volume processing to reduce peak memory. Also, we present a
novel dynamic coarse-to-fine cost volume processing during various stages of
refinement to avoid multiple levels of cost volumes. We demonstrate first
real-time cost-volume based optical flow DL architecture on Snapdragon 8 Gen 1
HTP efficient mobile AI accelerator with 32 inf/sec and 5.89 EPE (endpoint
error) on KITTI with manageable accuracy-performance tradeoffs.
- Abstract(参考訳): ニューラルネットワークに基づく光フロー推定の最近の進歩は、しばしば計算とメモリの要求が著しく高くなり、モバイルおよび低消費電力のユースケースに対するモデル適応の課題が提示される。
本稿では,モバイル,XR,マイクロUAV,ロボット,カメラなどのエッジアプリケーションに適用可能な光フロー推定のための軽量低レイテンシ・メモリ効率モデルである動的反復場変換(DIFT)を提案する。
DIFTは、対応推定にコストボリュームの可変解像度を活用する反復的な改善フレームワークに従う。
ピークメモリを削減するためのコストボリューム処理のためのメモリ効率のよいソリューションを提案する。
また,多段のコストボリュームを回避するため,様々な改良段階における動的粗大なコストボリューム処理を提案する。
Snapdragon 8 Gen 1 HTP の高速移動型AIアクセラレータ上で,32 inf/sec と 5.89 EPE (エンドポイントエラー) を KITTI 上で実現する。
関連論文リスト
- Transforming Image Super-Resolution: A ConvFormer-based Efficient
Approach [63.98380888730723]
本稿では, Convolutional Transformer Layer (ConvFormer) と ConvFormer-based Super-Resolution Network (CFSR) を紹介する。
CFSRは、計算コストの少ない長距離依存と広範囲の受容場を効率的にモデル化する。
これは、x2 SRタスクのUrban100データセットで0.39dB、パラメータが26%、FLOPが31%減少している。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - Memory-Efficient Optical Flow via Radius-Distribution Orthogonal Cost
Volume [6.122542233250026]
本稿では,高分解能光フロー推定のためのメモリ効率の高い新しい手法であるMeFlowを提案する。
Sintel と KITTI のベンチマークでは,高解像度入力において高いメモリ効率を維持しながら,競合性能を実現している。
論文 参考訳(メタデータ) (2023-12-06T12:43:11Z) - FlowFormer: A Transformer Architecture and Its Masked Cost Volume
Autoencoding for Optical Flow [49.40637769535569]
本稿では,新しいトランスフォーマーベースのネットワークアーキテクチャであるFlowFormerとMasked Cost Volume AutoVA(MCVA)を導入し,光フロー推定の問題に取り組む。
FlowFormerは、ソースターゲットイメージペアから構築された4Dコストボリュームをトークン化し、コストボリュームエンコーダデコーダアーキテクチャでフロー推定を反復的に洗練する。
Sintelのベンチマークでは、FlowFormerアーキテクチャは、クリーンパスとファイナルパスの平均エンドポイントエラー(AEPE)を1.16と2.09で達成し、エラーを16.5%、エラーを15.5%削減した。
論文 参考訳(メタデータ) (2023-06-08T12:24:04Z) - READ: Recurrent Adaptation of Large Transformers [6.0031415516812725]
モデルサイズとタスク数が増加するにつれて、微調整の大規模トランスフォーマーは実用的ではない。
textbfREcurrent textbfADaption (READ) を導入する。
論文 参考訳(メタデータ) (2023-05-24T16:59:41Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - FlowFormer: A Transformer Architecture for Optical Flow [40.6027845855481]
Optical Flow TransFormer (FlowFormer) は、オプティカルフローを学習するためのトランスフォーマーベースのニューラルネットワークアーキテクチャである。
FlowFormerはイメージペアから構築された4Dコストボリュームをトークン化し、コストトークンを代替グループトランスフォーマー層でコストメモリにエンコードする。
Sintelベンチマークのクリーンパスでは、FlowFormerが1.178の平均エンドポニートエラー(AEPE)を達成した。
論文 参考訳(メタデータ) (2022-03-30T10:33:09Z) - DCVNet: Dilated Cost Volume Networks for Fast Optical Flow [8.332579292354708]
そこで我々は, 連続処理を必要とせず, 光学的フロー推定が可能な, 小型かつ大規模な変位を同時に捉えるための拡張コストボリュームを提案する。
拡張コストボリュームと3D畳み込みを組み合わせることで、提案したモデルDCVNetはリアルタイム推論(1080tiの中間GPUで71fps)を行う。
論文 参考訳(メタデータ) (2021-03-31T17:59:31Z) - Learning Frequency-aware Dynamic Network for Efficient Super-Resolution [56.98668484450857]
本稿では、離散コサイン変換(dct)領域の係数に応じて入力を複数の部分に分割する新しい周波数認識動的ネットワークについて検討する。
実際、高周波部は高価な操作で処理され、低周波部は計算負荷を軽減するために安価な操作が割り当てられる。
ベンチマークSISRモデルおよびデータセット上での実験は、周波数認識動的ネットワークが様々なSISRニューラルネットワークに使用できることを示している。
論文 参考訳(メタデータ) (2021-03-15T12:54:26Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。