論文の概要: FlowFormer++: Masked Cost Volume Autoencoding for Pretraining Optical
Flow Estimation
- arxiv url: http://arxiv.org/abs/2303.01237v1
- Date: Thu, 2 Mar 2023 13:28:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-03 14:30:34.602869
- Title: FlowFormer++: Masked Cost Volume Autoencoding for Pretraining Optical
Flow Estimation
- Title(参考訳): FlowFormer++: 光フロー推定の事前学習のためのマスク付きコストボリューム自動符号化
- Authors: Xiaoyu Shi, Zhaoyang Huang, Dasong Li, Manyuan Zhang, Ka Chun Cheung,
Simon See, Hongwei Qin, Jifeng Dai, Hongsheng Li
- Abstract要約: FlowFormerは、オプティカルフロー推定にトランスフォーマーアーキテクチャを導入し、最先端のパフォーマンスを実現する。
Masked Cost Volume Autoencoding (MCVA) を提案し、新しいMAE方式でコストボリュームエンコーダを事前学習することでFlowFormerを強化する。
FlowFormer++は、SintelとKITTI-2015ベンチマークの両方で公開されたメソッドの中で、第1位である。
- 参考スコア(独自算出の注目度): 35.0926239683689
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: FlowFormer introduces a transformer architecture into optical flow estimation
and achieves state-of-the-art performance. The core component of FlowFormer is
the transformer-based cost-volume encoder. Inspired by the recent success of
masked autoencoding (MAE) pretraining in unleashing transformers' capacity of
encoding visual representation, we propose Masked Cost Volume Autoencoding
(MCVA) to enhance FlowFormer by pretraining the cost-volume encoder with a
novel MAE scheme. Firstly, we introduce a block-sharing masking strategy to
prevent masked information leakage, as the cost maps of neighboring source
pixels are highly correlated. Secondly, we propose a novel pre-text
reconstruction task, which encourages the cost-volume encoder to aggregate
long-range information and ensures pretraining-finetuning consistency. We also
show how to modify the FlowFormer architecture to accommodate masks during
pretraining. Pretrained with MCVA, FlowFormer++ ranks 1st among published
methods on both Sintel and KITTI-2015 benchmarks. Specifically, FlowFormer++
achieves 1.07 and 1.94 average end-point error (AEPE) on the clean and final
pass of Sintel benchmark, leading to 7.76\% and 7.18\% error reductions from
FlowFormer. FlowFormer++ obtains 4.52 F1-all on the KITTI-2015 test set,
improving FlowFormer by 0.16.
- Abstract(参考訳): FlowFormerは、オプティカルフロー推定にトランスフォーマーアーキテクチャを導入し、最先端のパフォーマンスを実現する。
flowformerの中核コンポーネントは、transformerベースのコストボリュームエンコーダである。
トランスフォーマの符号化能力の解き放つための前置型自動エンコーディング(mae)の最近の成功に触発されて,新しいmae方式でコストボリュームエンコーダをプリトレーニングすることでフローフォーマを強化するためのマスク付きコストボリュームオートエンコード(mcva)を提案する。
まず,隣接する画素のコストマップに高い相関関係があることから,マスク情報漏洩を防止するブロック共有マスキング手法を提案する。
次に,コストボリュームエンコーダが長距離情報を集約し,事前学習と微調整の一貫性を保証する,新しいプリテキスト再構成タスクを提案する。
また,事前トレーニング中にマスクに対応するためにflowformerアーキテクチャを変更する方法を示す。
MCVAで事前訓練されたFlowFormer++は、SintelとKITTI-2015ベンチマークの両方で公開されたメソッドの中で、第1位である。
具体的には、FlowFormer++はSintelベンチマークのクリーンパスと最終パスで1.07と1.94の平均エンドポイントエラー(AEPE)を達成する。
FlowFormer++は、KITTI-2015テストセットで4.52 F1-allを取得し、FlowFormerを0.16改善した。
関連論文リスト
- Improving the Training of Rectified Flows [14.652876697052156]
拡散モデルは画像生成とビデオ生成に大いに期待できるが、最先端モデルからのサンプリングには高コストの数値積分が必要である。
この問題に対処するための1つのアプローチは整流流であり、これは繰り返し、トランケーションエラーの影響を受けにくい滑らかなODEパスを学習する。
本研究は,NFEの低い環境下においても,改質流れを訓練するための改良手法を提案する。
改良された改質流は, 整合蒸留, 進行蒸留といった最先端蒸留法を1段階, 2段階で上回った。
論文 参考訳(メタデータ) (2024-05-30T17:56:04Z) - Guided Flows for Generative Modeling and Decision Making [55.42634941614435]
その結果,ガイドフローは条件付き画像生成やゼロショット音声合成におけるサンプル品質を著しく向上させることがわかった。
特に、我々は、拡散モデルと比較して、オフライン強化学習設定axスピードアップにおいて、まず、計画生成にフローモデルを適用する。
論文 参考訳(メタデータ) (2023-11-22T15:07:59Z) - Regularized Mask Tuning: Uncovering Hidden Knowledge in Pre-trained
Vision-Language Models [89.07925369856139]
我々は,学習可能な選択によってネットワークパラメータをマスクする,正規化マスクチューニングと呼ばれる新しいタイプのチューニング手法を設計する。
神経経路にインスパイアされた我々は、下流タスクに必要な知識は、既にトレーニング済みの重みの中に存在するが、上流のトレーニング済みの段階では隠されていると論じる。
平均2.56%のパラメータをマスキングすることで、ゼロショットのCLIPと比較して18.73%のパフォーマンス改善を実現しています。
論文 参考訳(メタデータ) (2023-07-27T17:56:05Z) - FlowFormer: A Transformer Architecture and Its Masked Cost Volume
Autoencoding for Optical Flow [49.40637769535569]
本稿では,新しいトランスフォーマーベースのネットワークアーキテクチャであるFlowFormerとMasked Cost Volume AutoVA(MCVA)を導入し,光フロー推定の問題に取り組む。
FlowFormerは、ソースターゲットイメージペアから構築された4Dコストボリュームをトークン化し、コストボリュームエンコーダデコーダアーキテクチャでフロー推定を反復的に洗練する。
Sintelのベンチマークでは、FlowFormerアーキテクチャは、クリーンパスとファイナルパスの平均エンドポイントエラー(AEPE)を1.16と2.09で達成し、エラーを16.5%、エラーを15.5%削減した。
論文 参考訳(メタデータ) (2023-06-08T12:24:04Z) - RetroMAE: Pre-training Retrieval-oriented Transformers via Masked
Auto-Encoder [15.24707645921207]
本稿では,RetroMAE として知られる Masked Auto-Encoder に基づく高密度検索のための新しい事前学習フレームワークを提案する。
私たちは、英語のWikipediaやBookCorpusでBERTのようなエンコーダを事前訓練しています。
論文 参考訳(メタデータ) (2022-05-24T12:43:04Z) - FlowFormer: A Transformer Architecture for Optical Flow [40.6027845855481]
Optical Flow TransFormer (FlowFormer) は、オプティカルフローを学習するためのトランスフォーマーベースのニューラルネットワークアーキテクチャである。
FlowFormerはイメージペアから構築された4Dコストボリュームをトークン化し、コストトークンを代替グループトランスフォーマー層でコストメモリにエンコードする。
Sintelベンチマークのクリーンパスでは、FlowFormerが1.178の平均エンドポニートエラー(AEPE)を達成した。
論文 参考訳(メタデータ) (2022-03-30T10:33:09Z) - GMFlow: Learning Optical Flow via Global Matching [124.57850500778277]
光フロー推定学習のためのGMFlowフレームワークを提案する。
機能拡張のためのカスタマイズトランスフォーマー、グローバル機能マッチングのための相関層とソフトマックス層、フロー伝搬のための自己保持層である。
我々の新しいフレームワークは、挑戦的なSintelベンチマークにおいて、32項目RAFTのパフォーマンスより優れています。
論文 参考訳(メタデータ) (2021-11-26T18:59:56Z) - LiteFlowNet3: Resolving Correspondence Ambiguity for More Accurate
Optical Flow Estimation [99.19322851246972]
本稿では,光フロー推定の問題に対処する2つのモジュールからなるディープネットワークである LiteFlowNet3 を紹介する。
LiteFlowNet3は、公開ベンチマークで有望な結果を達成するだけでなく、小さなモデルサイズと高速なランタイムも備えている。
論文 参考訳(メタデータ) (2020-07-18T03:30:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。