論文の概要: FlowFormer: A Transformer Architecture for Optical Flow
- arxiv url: http://arxiv.org/abs/2203.16194v1
- Date: Wed, 30 Mar 2022 10:33:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 22:54:06.751627
- Title: FlowFormer: A Transformer Architecture for Optical Flow
- Title(参考訳): FlowFormer: 光フローのためのトランスフォーマーアーキテクチャ
- Authors: Zhaoyang Huang, Xiaoyu Shi, Chao Zhang, Qiang Wang, Ka Chun Cheung,
Hongwei Qin, Jifeng Dai, and Hongsheng Li
- Abstract要約: Optical Flow TransFormer (FlowFormer) は、オプティカルフローを学習するためのトランスフォーマーベースのニューラルネットワークアーキテクチャである。
FlowFormerはイメージペアから構築された4Dコストボリュームをトークン化し、コストトークンを代替グループトランスフォーマー層でコストメモリにエンコードする。
Sintelベンチマークのクリーンパスでは、FlowFormerが1.178の平均エンドポニートエラー(AEPE)を達成した。
- 参考スコア(独自算出の注目度): 40.6027845855481
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Optical Flow TransFormer (FlowFormer), a transformer-based
neural network architecture for learning optical flow. FlowFormer tokenizes the
4D cost volume built from an image pair, encodes the cost tokens into a cost
memory with alternate-group transformer (AGT) layers in a novel latent space,
and decodes the cost memory via a recurrent transformer decoder with dynamic
positional cost queries. On the Sintel benchmark clean pass, FlowFormer
achieves 1.178 average end-ponit-error (AEPE), a 15.1% error reduction from the
best published result (1.388). Besides, FlowFormer also achieves strong
generalization performance. Without being trained on Sintel, FlowFormer
achieves 1.00 AEPE on the Sintel training set clean pass, outperforming the
best published result (1.29) by 22.4%.
- Abstract(参考訳): 本稿では,光フロー学習のためのトランスフォーマーベースのニューラルネットワークアーキテクチャであるoptical flow transformer (flowformer)を提案する。
flowformerはイメージペアから構築された4dコストボリュームをトークン化し、コストトークンを新しい潜在空間にオルタナティブグループトランスフォーマー(agt)層を持つコストメモリにエンコードし、動的な位置的コストクエリを持つリカレントトランスフォーマデコーダを介してコストメモリをデコードする。
sintelベンチマークのクリーンパスでは、flowformerは1.178平均エンドポニットエラー(1.388)を達成した。
さらにflowformerは、強力な一般化性能を実現している。
Sintelでトレーニングを受けることなく、FlowFormerはSintelトレーニングセットのクリーンパスで1.00 AEPEを達成し、最高の結果(1.29)を22.4%上回った。
関連論文リスト
- Simple ReFlow: Improved Techniques for Fast Flow Models [68.32300636049008]
拡散および流れマッチングモデルは、優れた生成性能を実現するが、多くのサンプリングステップを犠牲にしている。
我々は、力学、学習、推論のトレーニングに7つの改善点を提案する。
我々は、ニューラルネットワークによる高速な生成のために、最先端のFIDスコア(ガイダンスなし/参照なし)を達成している。
論文 参考訳(メタデータ) (2024-10-10T11:00:55Z) - Stretching Each Dollar: Diffusion Training from Scratch on a Micro-Budget [53.311109531586844]
大規模T2I拡散変圧器モデルの低コスト化を実証する。
我々は16億のパラメータスパーストランスをわずか1890ドルの経済的コストで訓練し、ゼロショット世代で12.7 FIDを達成する。
我々は、マイクロ予算での大規模拡散モデルのトレーニングをさらに民主化するために、エンドツーエンドのトレーニングパイプラインをリリースすることを目指している。
論文 参考訳(メタデータ) (2024-07-22T17:23:28Z) - DIFT: Dynamic Iterative Field Transforms for Memory Efficient Optical
Flow [44.57023882737517]
光フロー推定のための軽量低レイテンシ・メモリ効率モデルを提案する。
DIFTは、モバイル、XR、マイクロUAV、ロボティクス、カメラなどのエッジアプリケーションで実現可能である。
Snapdragon 8 Gen 1 HTPの効率的なモバイルAIアクセラレータ上で,最初のリアルタイムコストボリュームベースの光フローDLアーキテクチャを実演する。
論文 参考訳(メタデータ) (2023-06-09T06:10:59Z) - FlowFormer: A Transformer Architecture and Its Masked Cost Volume
Autoencoding for Optical Flow [49.40637769535569]
本稿では,新しいトランスフォーマーベースのネットワークアーキテクチャであるFlowFormerとMasked Cost Volume AutoVA(MCVA)を導入し,光フロー推定の問題に取り組む。
FlowFormerは、ソースターゲットイメージペアから構築された4Dコストボリュームをトークン化し、コストボリュームエンコーダデコーダアーキテクチャでフロー推定を反復的に洗練する。
Sintelのベンチマークでは、FlowFormerアーキテクチャは、クリーンパスとファイナルパスの平均エンドポイントエラー(AEPE)を1.16と2.09で達成し、エラーを16.5%、エラーを15.5%削減した。
論文 参考訳(メタデータ) (2023-06-08T12:24:04Z) - FlowFormer++: Masked Cost Volume Autoencoding for Pretraining Optical
Flow Estimation [35.0926239683689]
FlowFormerは、オプティカルフロー推定にトランスフォーマーアーキテクチャを導入し、最先端のパフォーマンスを実現する。
Masked Cost Volume Autoencoding (MCVA) を提案し、新しいMAE方式でコストボリュームエンコーダを事前学習することでFlowFormerを強化する。
FlowFormer++は、SintelとKITTI-2015ベンチマークの両方で公開されたメソッドの中で、第1位である。
論文 参考訳(メタデータ) (2023-03-02T13:28:07Z) - FQ-ViT: Fully Quantized Vision Transformer without Retraining [13.82845665713633]
本稿では,量子変換器の性能劣化と推論の複雑さを低減するための系統的手法を提案する。
完全に量子化された視覚変換器上で、我々は初めて精度の劣化(1%)を達成した。
論文 参考訳(メタデータ) (2021-11-27T06:20:53Z) - End-to-End Multi-speaker Speech Recognition with Transformer [88.22355110349933]
音声認識モデルにおけるRNNベースのエンコーダデコーダをトランスフォーマーアーキテクチャに置き換える。
また、計算量を削減するために、シーケンス全体ではなくセグメントに制限されるセルフアテンションコンポーネントを変更します。
論文 参考訳(メタデータ) (2020-02-10T16:29:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。