論文の概要: Learning to Estimate Hidden Motions with Global Motion Aggregation
- arxiv url: http://arxiv.org/abs/2104.02409v1
- Date: Tue, 6 Apr 2021 10:32:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-07 14:05:48.261277
- Title: Learning to Estimate Hidden Motions with Global Motion Aggregation
- Title(参考訳): グローバルモーションアグリゲーションを用いた隠れ動作推定のための学習
- Authors: Shihao Jiang, Dylan Campbell, Yao Lu, Hongdong Li, Richard Hartley
- Abstract要約: 閉塞は、局所的な証拠に依存する光学フローアルゴリズムに重大な課題をもたらす。
最初の画像でピクセル間の長距離依存性を見つけるために,グローバルモーションアグリゲーションモジュールを導入する。
遮蔽領域における光流量推定が非遮蔽領域における性能を損なうことなく大幅に改善できることを実証した。
- 参考スコア(独自算出の注目度): 71.12650817490318
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Occlusions pose a significant challenge to optical flow algorithms that rely
on local evidences. We consider an occluded point to be one that is imaged in
the first frame but not in the next, a slight overloading of the standard
definition since it also includes points that move out-of-frame. Estimating the
motion of these points is extremely difficult, particularly in the two-frame
setting. Previous work relies on CNNs to learn occlusions, without much
success, or requires multiple frames to reason about occlusions using temporal
smoothness. In this paper, we argue that the occlusion problem can be better
solved in the two-frame case by modelling image self-similarities. We introduce
a global motion aggregation module, a transformer-based approach to find
long-range dependencies between pixels in the first image, and perform global
aggregation on the corresponding motion features. We demonstrate that the
optical flow estimates in the occluded regions can be significantly improved
without damaging the performance in non-occluded regions. This approach obtains
new state-of-the-art results on the challenging Sintel dataset, improving the
average end-point error by 13.6\% on Sintel Final and 13.7\% on Sintel Clean.
At the time of submission, our method ranks first on these benchmarks among all
published and unpublished approaches. Code is available at
https://github.com/zacjiang/GMA .
- Abstract(参考訳): 閉塞は、局所的な証拠に依存する光学フローアルゴリズムに重大な課題をもたらす。
我々は、隠蔽された点を、第1フレームでイメージされているが、第2フレームではイメージされていないものと考え、標準定義を少しオーバーロードする。
これらの点の運動を推定するのは、特に2フレームの設定において非常に難しい。
これまでの作業はCNNに頼ってオクルージョンを学習し、あまり成功しないか、あるいは時間的滑らかさを使ってオクルージョンを推論するために複数のフレームを必要とする。
本稿では,画像の自己相似性をモデル化することにより,2フレームのケースではオクルージョン問題をよりよく解けると論じる。
本稿では,第1画像中の画素間の長距離依存性を探索し,対応する動き特徴に対してグローバルアグリゲーションを行うトランスフォーマティブ・アグリゲーション・モジュールを提案する。
本研究では,非閉塞領域の性能を損なうことなく,閉鎖領域における光学的流れの推定値を大幅に改善できることを実証する。
このアプローチは、挑戦的なSintelデータセットの新たな最先端結果を取得し、Sintel Finalでは13.6\%、Sintel Cleanでは13.7\%の平均終点誤差を改善する。
提出時点では,提案手法はすべての公開および未公開アプローチの中で,これらのベンチマークで第1位である。
コードはhttps://github.com/zacjiang/GMAで入手できる。
関連論文リスト
- Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - Vanishing Point Estimation in Uncalibrated Images with Prior Gravity
Direction [82.72686460985297]
我々はマンハッタンのフレームを推定する問題に取り組む。
2つの新しい2行解法が導出され、そのうちの1つは既存の解法に影響を与える特異点に悩まされない。
また、局所最適化の性能を高めるために、任意の行で実行される新しい最小でないメソッドを設計する。
論文 参考訳(メタデータ) (2023-08-21T13:03:25Z) - Towards Nonlinear-Motion-Aware and Occlusion-Robust Rolling Shutter
Correction [54.00007868515432]
既存の手法では、一様速度仮定による補正の精度を推定する上で、課題に直面している。
本稿では,個々の画素の高次補正場を正確に推定する,幾何的回転シャッター(QRS)運動解法を提案する。
提案手法は,Carla-RS,Fastec-RS,BS-RSCの各データセット上で,PSNRの+4.98,+0.77,+4.33を超える。
論文 参考訳(メタデータ) (2023-03-31T15:09:18Z) - OTPose: Occlusion-Aware Transformer for Pose Estimation in
Sparsely-Labeled Videos [21.893572076171527]
本稿では, コンバータを用いたフレーム間の時間依存性を符号化する手法を提案する。
我々は、PoseTrack 2017とPoseTrack 2018データセットの最先端のポーズ推定結果を達成する。
論文 参考訳(メタデータ) (2022-07-20T08:06:06Z) - Temporal Feature Alignment and Mutual Information Maximization for
Video-Based Human Pose Estimation [38.571715193347366]
マルチフレーム人間のポーズ推定のための新しい階層的アライメントフレームワークを提案する。
ベンチマークデータセットのPoseTrack 2017では、マルチフレームPerson Pose Estimation Challengeの1位にランクインし、ベンチマークのSub-JHMDBとPose-Track 2018では最先端のパフォーマンスを得ています。
論文 参考訳(メタデータ) (2022-03-29T04:29:16Z) - IDEA-Net: Dynamic 3D Point Cloud Interpolation via Deep Embedding
Alignment [58.8330387551499]
我々は、点方向軌跡(すなわち滑らかな曲線)の推定として問題を定式化する。
本稿では,学習した時間的一貫性の助けを借りて問題を解消する,エンドツーエンドのディープラーニングフレームワークであるIDEA-Netを提案する。
各種点群における本手法の有効性を実証し, 定量的かつ視覚的に, 最先端の手法に対する大幅な改善を観察する。
論文 参考訳(メタデータ) (2022-03-22T10:14:08Z) - TimeLens: Event-based Video Frame Interpolation [54.28139783383213]
本稿では,合成法とフロー法の両方の利点を生かした,等価寄与法であるTime Lensを紹介する。
最先端のフレームベースおよびイベントベース手法よりもPSNRが最大5.21dB向上したことを示す。
論文 参考訳(メタデータ) (2021-06-14T10:33:47Z) - Deep Dual Consecutive Network for Human Pose Estimation [44.41818683253614]
キーポイント検出を容易にするために,ビデオフレーム間の時間的キューを豊富に活用した,新しいマルチフレーム人間ポーズ推定フレームワークを提案する。
本手法は、PoseTrack 2017およびPoseTrack 2018の大規模ベンチマークデータセットにおけるマルチフレームパーソンポースチャレンジチャレンジで1位にランクインします。
論文 参考訳(メタデータ) (2021-03-12T13:11:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。