論文の概要: FlowFormer: A Transformer Architecture and Its Masked Cost Volume
Autoencoding for Optical Flow
- arxiv url: http://arxiv.org/abs/2306.05442v1
- Date: Thu, 8 Jun 2023 12:24:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-12 16:04:44.695847
- Title: FlowFormer: A Transformer Architecture and Its Masked Cost Volume
Autoencoding for Optical Flow
- Title(参考訳): flowformer:光フローのためのトランスアーキテクチャとそのマスク付きコストボリュームオートエンコーディング
- Authors: Zhaoyang Huang, Xiaoyu Shi, Chao Zhang, Qiang Wang, Yijin Li, Hongwei
Qin, Jifeng Dai, Xiaogang Wang, and Hongsheng Li
- Abstract要約: 本稿では,新しいトランスフォーマーベースのネットワークアーキテクチャであるFlowFormerとMasked Cost Volume AutoVA(MCVA)を導入し,光フロー推定の問題に取り組む。
FlowFormerは、ソースターゲットイメージペアから構築された4Dコストボリュームをトークン化し、コストボリュームエンコーダデコーダアーキテクチャでフロー推定を反復的に洗練する。
Sintelのベンチマークでは、FlowFormerアーキテクチャは、クリーンパスとファイナルパスの平均エンドポイントエラー(AEPE)を1.16と2.09で達成し、エラーを16.5%、エラーを15.5%削減した。
- 参考スコア(独自算出の注目度): 49.40637769535569
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper introduces a novel transformer-based network architecture,
FlowFormer, along with the Masked Cost Volume AutoEncoding (MCVA) for
pretraining it to tackle the problem of optical flow estimation. FlowFormer
tokenizes the 4D cost-volume built from the source-target image pair and
iteratively refines flow estimation with a cost-volume encoder-decoder
architecture. The cost-volume encoder derives a cost memory with
alternate-group transformer~(AGT) layers in a latent space and the decoder
recurrently decodes flow from the cost memory with dynamic positional cost
queries. On the Sintel benchmark, FlowFormer architecture achieves 1.16 and
2.09 average end-point-error~(AEPE) on the clean and final pass, a 16.5\% and
15.5\% error reduction from the GMA~(1.388 and 2.47). MCVA enhances FlowFormer
by pretraining the cost-volume encoder with a masked autoencoding scheme, which
further unleashes the capability of FlowFormer with unlabeled data. This is
especially critical in optical flow estimation because ground truth flows are
more expensive to acquire than labels in other vision tasks. MCVA improves
FlowFormer all-sided and FlowFormer+MCVA ranks 1st among all published methods
on both Sintel and KITTI-2015 benchmarks and achieves the best generalization
performance. Specifically, FlowFormer+MCVA achieves 1.07 and 1.94 AEPE on the
Sintel benchmark, leading to 7.76\% and 7.18\% error reductions from
FlowFormer.
- Abstract(参考訳): 本稿では,新しいトランスフォーマーベースのネットワークアーキテクチャであるFlowFormerとMasked Cost Volume AutoEncoding (MCVA)を導入し,光フロー推定の問題に取り組む。
FlowFormerは、ソースターゲットイメージペアから構築された4Dコストボリュームをトークン化し、コストボリュームエンコーダデコーダアーキテクチャでフロー推定を反復的に洗練する。
コストボリュームエンコーダは、遅延空間内の代替グループ変換器〜(AGT)層でコストメモリを導出し、デコーダは動的位置コストクエリでコストメモリからのフローを繰り返し復号する。
sintelベンチマークでは、flowformerアーキテクチャは、クリーンで最終パスで1.16および2.09のエンドポイントエラー~(aepe)、gma~(1.388および2.47)から16.5\%と15.5\%のエラー低減を達成している。
MCVAは、コストボリュームエンコーダをマスク付きオートエンコードスキームで事前トレーニングすることでFlowFormerを強化し、ラベルのないデータでFlowFormerの能力をさらに解放する。
これは光学的フロー推定において特に重要である。なぜなら、地上の真理流は他の視覚タスクのラベルよりも取得するコストが高いからである。
MCVAはFlowFormerを全面的に改善し、FlowFormer+MCVAはSintelとKITTI-2015ベンチマークで発表されたすべてのメソッドの中で第1位となり、最高の一般化性能を達成する。
具体的には、FlowFormer+MCVAはSintelベンチマークで1.07と1.94のAEPEを達成する。
関連論文リスト
- Memory-Efficient Optical Flow via Radius-Distribution Orthogonal Cost
Volume [6.122542233250026]
本稿では,高分解能光フロー推定のためのメモリ効率の高い新しい手法であるMeFlowを提案する。
Sintel と KITTI のベンチマークでは,高解像度入力において高いメモリ効率を維持しながら,競合性能を実現している。
論文 参考訳(メタデータ) (2023-12-06T12:43:11Z) - DIFT: Dynamic Iterative Field Transforms for Memory Efficient Optical
Flow [44.57023882737517]
光フロー推定のための軽量低レイテンシ・メモリ効率モデルを提案する。
DIFTは、モバイル、XR、マイクロUAV、ロボティクス、カメラなどのエッジアプリケーションで実現可能である。
Snapdragon 8 Gen 1 HTPの効率的なモバイルAIアクセラレータ上で,最初のリアルタイムコストボリュームベースの光フローDLアーキテクチャを実演する。
論文 参考訳(メタデータ) (2023-06-09T06:10:59Z) - FlowFormer++: Masked Cost Volume Autoencoding for Pretraining Optical
Flow Estimation [35.0926239683689]
FlowFormerは、オプティカルフロー推定にトランスフォーマーアーキテクチャを導入し、最先端のパフォーマンスを実現する。
Masked Cost Volume Autoencoding (MCVA) を提案し、新しいMAE方式でコストボリュームエンコーダを事前学習することでFlowFormerを強化する。
FlowFormer++は、SintelとKITTI-2015ベンチマークの両方で公開されたメソッドの中で、第1位である。
論文 参考訳(メタデータ) (2023-03-02T13:28:07Z) - FlowFormer: A Transformer Architecture for Optical Flow [40.6027845855481]
Optical Flow TransFormer (FlowFormer) は、オプティカルフローを学習するためのトランスフォーマーベースのニューラルネットワークアーキテクチャである。
FlowFormerはイメージペアから構築された4Dコストボリュームをトークン化し、コストトークンを代替グループトランスフォーマー層でコストメモリにエンコードする。
Sintelベンチマークのクリーンパスでは、FlowFormerが1.178の平均エンドポニートエラー(AEPE)を達成した。
論文 参考訳(メタデータ) (2022-03-30T10:33:09Z) - GMFlow: Learning Optical Flow via Global Matching [124.57850500778277]
光フロー推定学習のためのGMFlowフレームワークを提案する。
機能拡張のためのカスタマイズトランスフォーマー、グローバル機能マッチングのための相関層とソフトマックス層、フロー伝搬のための自己保持層である。
我々の新しいフレームワークは、挑戦的なSintelベンチマークにおいて、32項目RAFTのパフォーマンスより優れています。
論文 参考訳(メタデータ) (2021-11-26T18:59:56Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - LiteFlowNet3: Resolving Correspondence Ambiguity for More Accurate
Optical Flow Estimation [99.19322851246972]
本稿では,光フロー推定の問題に対処する2つのモジュールからなるディープネットワークである LiteFlowNet3 を紹介する。
LiteFlowNet3は、公開ベンチマークで有望な結果を達成するだけでなく、小さなモデルサイズと高速なランタイムも備えている。
論文 参考訳(メタデータ) (2020-07-18T03:30:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。