論文の概要: CRAFT: Cross-Attentional Flow Transformer for Robust Optical Flow
- arxiv url: http://arxiv.org/abs/2203.16896v1
- Date: Thu, 31 Mar 2022 09:05:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-01 15:50:33.335041
- Title: CRAFT: Cross-Attentional Flow Transformer for Robust Optical Flow
- Title(参考訳): CRAFT:ロバスト光流用クロスアテンショナルフロートランス
- Authors: Xiuchao Sui, Shaohua Li, Xue Geng, Yan Wu, Xinxing Xu, Yong Liu, Rick
Goh, Hongyuan Zhu
- Abstract要約: 光フロー推定は、2つの画像間の対応する画素を識別することで2次元運動場を求めることを目的としている。
深層学習に基づく光学フロー法が著しく進歩しているにもかかわらず、動きのぼやけた大きな変位を正確に推定することは依然として困難である。
これは主に、2つの画像の畳み込み特徴のドット積として画素マッチングの基礎となる相関体積が計算されるためである。
本稿では,CRAFT (CRoss-Attentional Flow Transformer) アーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 23.457898451057275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optical flow estimation aims to find the 2D motion field by identifying
corresponding pixels between two images. Despite the tremendous progress of
deep learning-based optical flow methods, it remains a challenge to accurately
estimate large displacements with motion blur. This is mainly because the
correlation volume, the basis of pixel matching, is computed as the dot product
of the convolutional features of the two images. The locality of convolutional
features makes the computed correlations susceptible to various noises. On
large displacements with motion blur, noisy correlations could cause severe
errors in the estimated flow. To overcome this challenge, we propose a new
architecture "CRoss-Attentional Flow Transformer" (CRAFT), aiming to revitalize
the correlation volume computation. In CRAFT, a Semantic Smoothing Transformer
layer transforms the features of one frame, making them more global and
semantically stable. In addition, the dot-product correlations are replaced
with transformer Cross-Frame Attention. This layer filters out feature noises
through the Query and Key projections, and computes more accurate correlations.
On Sintel (Final) and KITTI (foreground) benchmarks, CRAFT has achieved new
state-of-the-art performance. Moreover, to test the robustness of different
models on large motions, we designed an image shifting attack that shifts input
images to generate large artificial motions. Under this attack, CRAFT performs
much more robustly than two representative methods, RAFT and GMA. The code of
CRAFT is is available at https://github.com/askerlee/craft.
- Abstract(参考訳): 光フロー推定は、2つの画像間の対応する画素を識別することで2次元運動場を見つけることを目的としている。
深層学習に基づく光学フロー法が著しく進歩しているにもかかわらず、動きのぼやけた大きな変位を正確に推定することは依然として困難である。
これは主に、2つの画像の畳み込み特徴のドット積として画素マッチングの基礎となる相関体積が計算されるためである。
畳み込み特徴の局所性は、計算された相関を様々な雑音に影響を受けやすくする。
動きのぼやけのある大きな変位では、ノイズの相関が推定流れに深刻な誤差を引き起こす可能性がある。
この課題を克服するために,相関体積計算の活性化を目的とした新しいアーキテクチャ "CRoss-Attentional Flow Transformer" (CRAFT) を提案する。
CRAFTでは、Semantic Smoothing Transformer層がひとつのフレームの特徴を変換し、よりグローバルでセマンティックに安定する。
さらに、ドット積相関を変圧器クロスフレーム注意に置き換える。
このレイヤはクエリとキープロジェクションを通じて特徴ノイズをフィルタリングし、より正確な相関を計算する。
Sintel (Final) と KITTI (Geoground) のベンチマークでは、CRAFT が新しい最先端のパフォーマンスを達成した。
さらに,大きな動きに対して異なるモデルのロバスト性をテストするために,入力画像から大きな動きを生成する画像シフト攻撃を設計した。
この攻撃下では、CRAFTはRAFTとGMAの2つの代表的手法よりもはるかに堅牢に動作している。
craftのコードはhttps://github.com/askerlee/craftで入手できる。
関連論文リスト
- ML-CrAIST: Multi-scale Low-high Frequency Information-based Cross black Attention with Image Super-resolving Transformer [3.686808512438363]
この研究は、ML-CrAISTと呼ばれるトランスフォーマーベースの超解像アーキテクチャを提案する。
我々は空間的およびチャネル的自己アテンションを運用し、空間的およびチャネル的両方の次元から画素間相互作用を同時にモデル化する。
超解像のためのクロスアテンションブロックを考案し、低周波情報と高周波情報との相関について検討する。
論文 参考訳(メタデータ) (2024-08-19T12:23:15Z) - WiNet: Wavelet-based Incremental Learning for Efficient Medical Image Registration [68.25711405944239]
深部画像登録は異常な精度と高速な推測を示した。
近年の進歩は、粗大から粗大の方法で密度変形場を推定するために、複数のカスケードまたはピラミッドアーキテクチャを採用している。
本稿では,様々なスケールにわたる変位/速度場に対して,スケールワイブレット係数を漸進的に推定するモデル駆動WiNetを提案する。
論文 参考訳(メタデータ) (2024-07-18T11:51:01Z) - Motion-adaptive Separable Collaborative Filters for Blind Motion Deblurring [71.60457491155451]
様々な動きによって生じる画像のぼかしを除去することは、難しい問題である。
本研究では,動き適応型分離型協調フィルタと呼ばれる実世界のデブロアリングフィルタモデルを提案する。
本手法は,実世界の動きのぼかし除去に有効な解法を提供し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-04-19T19:44:24Z) - Look-Around Before You Leap: High-Frequency Injected Transformer for Image Restoration [46.96362010335177]
本稿では,画像復元のための簡易かつ効果的な高周波インジェクト変換器HITを提案する。
具体的には,機能マップに高頻度の詳細を組み込んだウィンドウワイドインジェクションモジュール(WIM)を設計し,高品質な画像の復元のための信頼性の高い参照を提供する。
さらに,BIMにおけるチャネル次元の計算によって失われる可能性のある空間的関係を維持するために,空間拡張ユニット(SEU)を導入する。
論文 参考訳(メタデータ) (2024-03-30T08:05:00Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Dynamic Frame Interpolation in Wavelet Domain [57.25341639095404]
ビデオフレームは、より流動的な視覚体験のためにフレームレートを上げることができる、重要な低レベルな計算ビジョンタスクである。
既存の手法は、高度なモーションモデルと合成ネットワークを利用することで大きな成功を収めた。
WaveletVFIは、同様の精度を維持しながら最大40%の計算を削減できるため、他の最先端技術に対してより効率的に処理できる。
論文 参考訳(メタデータ) (2023-09-07T06:41:15Z) - Alignment-free HDR Deghosting with Semantics Consistent Transformer [76.91669741684173]
高ダイナミックレンジイメージングは、複数の低ダイナミックレンジ入力から情報を取得し、リアルな出力を生成することを目的としている。
既存の手法では、前景やカメラの動きによって引き起こされる入力フレーム間の空間的ずれに焦点を当てることが多い。
本研究では,SCTNet(Semantics Consistent Transformer)を用いたアライメントフリーネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:03:23Z) - CGCV:Context Guided Correlation Volume for Optical Flow Neural Networks [1.9226937205270165]
相関体積は光流計算ニューラルモデルの中心的な構成要素である。
ゲーティングとリフト方式による新しいコンテキストガイド相関ボリューム(CGCV)を提案する。
CGCVはRAFTベースのフロー計算手法と普遍的に統合して性能を向上させることができる。
論文 参考訳(メタデータ) (2022-12-20T11:24:35Z) - TFill: Image Completion via a Transformer-Based Architecture [69.62228639870114]
画像補完を無方向性シーケンス対シーケンス予測タスクとして扱うことを提案する。
トークン表現には,小かつ重複しないRFを持つ制限型CNNを用いる。
第2フェーズでは、可視領域と発生領域の外観整合性を向上させるために、新しい注意認識層(aal)を導入する。
論文 参考訳(メタデータ) (2021-04-02T01:42:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。