論文の概要: Learning to Estimate Hidden Motions with Global Motion Aggregation
- arxiv url: http://arxiv.org/abs/2104.02409v1
- Date: Tue, 6 Apr 2021 10:32:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-07 14:05:48.261277
- Title: Learning to Estimate Hidden Motions with Global Motion Aggregation
- Title(参考訳): グローバルモーションアグリゲーションを用いた隠れ動作推定のための学習
- Authors: Shihao Jiang, Dylan Campbell, Yao Lu, Hongdong Li, Richard Hartley
- Abstract要約: 閉塞は、局所的な証拠に依存する光学フローアルゴリズムに重大な課題をもたらす。
最初の画像でピクセル間の長距離依存性を見つけるために,グローバルモーションアグリゲーションモジュールを導入する。
遮蔽領域における光流量推定が非遮蔽領域における性能を損なうことなく大幅に改善できることを実証した。
- 参考スコア(独自算出の注目度): 71.12650817490318
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Occlusions pose a significant challenge to optical flow algorithms that rely
on local evidences. We consider an occluded point to be one that is imaged in
the first frame but not in the next, a slight overloading of the standard
definition since it also includes points that move out-of-frame. Estimating the
motion of these points is extremely difficult, particularly in the two-frame
setting. Previous work relies on CNNs to learn occlusions, without much
success, or requires multiple frames to reason about occlusions using temporal
smoothness. In this paper, we argue that the occlusion problem can be better
solved in the two-frame case by modelling image self-similarities. We introduce
a global motion aggregation module, a transformer-based approach to find
long-range dependencies between pixels in the first image, and perform global
aggregation on the corresponding motion features. We demonstrate that the
optical flow estimates in the occluded regions can be significantly improved
without damaging the performance in non-occluded regions. This approach obtains
new state-of-the-art results on the challenging Sintel dataset, improving the
average end-point error by 13.6\% on Sintel Final and 13.7\% on Sintel Clean.
At the time of submission, our method ranks first on these benchmarks among all
published and unpublished approaches. Code is available at
https://github.com/zacjiang/GMA .
- Abstract(参考訳): 閉塞は、局所的な証拠に依存する光学フローアルゴリズムに重大な課題をもたらす。
我々は、隠蔽された点を、第1フレームでイメージされているが、第2フレームではイメージされていないものと考え、標準定義を少しオーバーロードする。
これらの点の運動を推定するのは、特に2フレームの設定において非常に難しい。
これまでの作業はCNNに頼ってオクルージョンを学習し、あまり成功しないか、あるいは時間的滑らかさを使ってオクルージョンを推論するために複数のフレームを必要とする。
本稿では,画像の自己相似性をモデル化することにより,2フレームのケースではオクルージョン問題をよりよく解けると論じる。
本稿では,第1画像中の画素間の長距離依存性を探索し,対応する動き特徴に対してグローバルアグリゲーションを行うトランスフォーマティブ・アグリゲーション・モジュールを提案する。
本研究では,非閉塞領域の性能を損なうことなく,閉鎖領域における光学的流れの推定値を大幅に改善できることを実証する。
このアプローチは、挑戦的なSintelデータセットの新たな最先端結果を取得し、Sintel Finalでは13.6\%、Sintel Cleanでは13.7\%の平均終点誤差を改善する。
提出時点では,提案手法はすべての公開および未公開アプローチの中で,これらのベンチマークで第1位である。
コードはhttps://github.com/zacjiang/GMAで入手できる。
関連論文リスト
- Vanishing Point Estimation in Uncalibrated Images with Prior Gravity
Direction [82.72686460985297]
我々はマンハッタンのフレームを推定する問題に取り組む。
2つの新しい2行解法が導出され、そのうちの1つは既存の解法に影響を与える特異点に悩まされない。
また、局所最適化の性能を高めるために、任意の行で実行される新しい最小でないメソッドを設計する。
論文 参考訳(メタデータ) (2023-08-21T13:03:25Z) - Towards Nonlinear-Motion-Aware and Occlusion-Robust Rolling Shutter
Correction [54.00007868515432]
既存の手法では、一様速度仮定による補正の精度を推定する上で、課題に直面している。
本稿では,個々の画素の高次補正場を正確に推定する,幾何的回転シャッター(QRS)運動解法を提案する。
提案手法は,Carla-RS,Fastec-RS,BS-RSCの各データセット上で,PSNRの+4.98,+0.77,+4.33を超える。
論文 参考訳(メタデータ) (2023-03-31T15:09:18Z) - Revisiting Rotation Averaging: Uncertainties and Robust Losses [51.64986160468128]
現在の手法の主な問題は、推定エピポーラを通して入力データと弱い結合しか持たない最小コスト関数である。
本稿では,点対応から回転平均化への不確実性を直接伝播させることにより,基礎となる雑音分布をモデル化することを提案する。
論文 参考訳(メタデータ) (2023-03-09T11:51:20Z) - OTPose: Occlusion-Aware Transformer for Pose Estimation in
Sparsely-Labeled Videos [21.893572076171527]
本稿では, コンバータを用いたフレーム間の時間依存性を符号化する手法を提案する。
我々は、PoseTrack 2017とPoseTrack 2018データセットの最先端のポーズ推定結果を達成する。
論文 参考訳(メタデータ) (2022-07-20T08:06:06Z) - Temporal Feature Alignment and Mutual Information Maximization for
Video-Based Human Pose Estimation [38.571715193347366]
マルチフレーム人間のポーズ推定のための新しい階層的アライメントフレームワークを提案する。
ベンチマークデータセットのPoseTrack 2017では、マルチフレームPerson Pose Estimation Challengeの1位にランクインし、ベンチマークのSub-JHMDBとPose-Track 2018では最先端のパフォーマンスを得ています。
論文 参考訳(メタデータ) (2022-03-29T04:29:16Z) - Smooth Robust Tensor Completion for Background/Foreground Separation
with Missing Pixels: Novel Algorithm with Convergence Guarantee [4.109073267485578]
本研究の目的は,画素不足による背景・地上分離の問題に対処することである。
これを実現するために、スムーズなテンソルロバスト補完(SRTC)モデルを提案し、データを静的な背景と滑らかな前景に分解する。
実データを用いた実験により, 提案手法は, 背景・地上分離と画素の欠落に対して, 最先端の手法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2022-03-29T01:28:27Z) - IDEA-Net: Dynamic 3D Point Cloud Interpolation via Deep Embedding
Alignment [58.8330387551499]
我々は、点方向軌跡(すなわち滑らかな曲線)の推定として問題を定式化する。
本稿では,学習した時間的一貫性の助けを借りて問題を解消する,エンドツーエンドのディープラーニングフレームワークであるIDEA-Netを提案する。
各種点群における本手法の有効性を実証し, 定量的かつ視覚的に, 最先端の手法に対する大幅な改善を観察する。
論文 参考訳(メタデータ) (2022-03-22T10:14:08Z) - TimeLens: Event-based Video Frame Interpolation [54.28139783383213]
本稿では,合成法とフロー法の両方の利点を生かした,等価寄与法であるTime Lensを紹介する。
最先端のフレームベースおよびイベントベース手法よりもPSNRが最大5.21dB向上したことを示す。
論文 参考訳(メタデータ) (2021-06-14T10:33:47Z) - Deep Dual Consecutive Network for Human Pose Estimation [44.41818683253614]
キーポイント検出を容易にするために,ビデオフレーム間の時間的キューを豊富に活用した,新しいマルチフレーム人間ポーズ推定フレームワークを提案する。
本手法は、PoseTrack 2017およびPoseTrack 2018の大規模ベンチマークデータセットにおけるマルチフレームパーソンポースチャレンジチャレンジで1位にランクインします。
論文 参考訳(メタデータ) (2021-03-12T13:11:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。