Fugu-MT 論文翻訳(概要): Learning to Estimate Hidden Motions with Global Motion Aggregation

論文の概要: Learning to Estimate Hidden Motions with Global Motion Aggregation

arxiv url: http://arxiv.org/abs/2104.02409v1
Date: Tue, 6 Apr 2021 10:32:03 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-07 14:05:48.261277
Title: Learning to Estimate Hidden Motions with Global Motion Aggregation
Title（参考訳）: グローバルモーションアグリゲーションを用いた隠れ動作推定のための学習
Authors: Shihao Jiang, Dylan Campbell, Yao Lu, Hongdong Li, Richard Hartley
Abstract要約: 閉塞は、局所的な証拠に依存する光学フローアルゴリズムに重大な課題をもたらす。最初の画像でピクセル間の長距離依存性を見つけるために,グローバルモーションアグリゲーションモジュールを導入する。遮蔽領域における光流量推定が非遮蔽領域における性能を損なうことなく大幅に改善できることを実証した。
参考スコア（独自算出の注目度）: 71.12650817490318
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Occlusions pose a significant challenge to optical flow algorithms that rely on local evidences. We consider an occluded point to be one that is imaged in the first frame but not in the next, a slight overloading of the standard definition since it also includes points that move out-of-frame. Estimating the motion of these points is extremely difficult, particularly in the two-frame setting. Previous work relies on CNNs to learn occlusions, without much success, or requires multiple frames to reason about occlusions using temporal smoothness. In this paper, we argue that the occlusion problem can be better solved in the two-frame case by modelling image self-similarities. We introduce a global motion aggregation module, a transformer-based approach to find long-range dependencies between pixels in the first image, and perform global aggregation on the corresponding motion features. We demonstrate that the optical flow estimates in the occluded regions can be significantly improved without damaging the performance in non-occluded regions. This approach obtains new state-of-the-art results on the challenging Sintel dataset, improving the average end-point error by 13.6\% on Sintel Final and 13.7\% on Sintel Clean. At the time of submission, our method ranks first on these benchmarks among all published and unpublished approaches. Code is available at https://github.com/zacjiang/GMA .
Abstract（参考訳）: 閉塞は、局所的な証拠に依存する光学フローアルゴリズムに重大な課題をもたらす。我々は、隠蔽された点を、第1フレームでイメージされているが、第2フレームではイメージされていないものと考え、標準定義を少しオーバーロードする。これらの点の運動を推定するのは、特に2フレームの設定において非常に難しい。これまでの作業はCNNに頼ってオクルージョンを学習し、あまり成功しないか、あるいは時間的滑らかさを使ってオクルージョンを推論するために複数のフレームを必要とする。本稿では,画像の自己相似性をモデル化することにより,2フレームのケースではオクルージョン問題をよりよく解けると論じる。本稿では,第1画像中の画素間の長距離依存性を探索し,対応する動き特徴に対してグローバルアグリゲーションを行うトランスフォーマティブ・アグリゲーション・モジュールを提案する。本研究では,非閉塞領域の性能を損なうことなく,閉鎖領域における光学的流れの推定値を大幅に改善できることを実証する。このアプローチは、挑戦的なSintelデータセットの新たな最先端結果を取得し、Sintel Finalでは13.6\%、Sintel Cleanでは13.7\%の平均終点誤差を改善する。提出時点では,提案手法はすべての公開および未公開アプローチの中で,これらのベンチマークで第1位である。コードはhttps://github.com/zacjiang/GMAで入手できる。

関連論文リスト

A Divide-and-Conquer Approach for Global Orientation of Non-Watertight Scene-Level Point Clouds Using 0-1 Integer Optimization [18.15181405364316]
点雲の配向はコンピュータグラフィックスと3Dビジョンの基本的な問題である。 DACPO(Divide-And-Conquer Point Orientation)は,スケーラブルでロバストなクラウド指向のための新しいフレームワークである。 DACPOが入力ポイントクラウドをより小さく管理可能なブロックに分割し、各ブロックを独立して処理し、グローバルな最適化段階を通じて結果を統合する方法を示す。
論文参考訳（メタデータ） (2025-05-29T14:21:22Z)
FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [63.87313550399871]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。 PSTは、画像基礎モデルと潜在空間アライメントによるクロスモーダルな知識伝達を確立する。 FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
論文参考訳（メタデータ） (2025-03-25T15:04:53Z)
Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文参考訳（メタデータ） (2024-07-02T09:11:17Z)
Vanishing Point Estimation in Uncalibrated Images with Prior Gravity Direction [82.72686460985297]
我々はマンハッタンのフレームを推定する問題に取り組む。 2つの新しい2行解法が導出され、そのうちの1つは既存の解法に影響を与える特異点に悩まされない。また、局所最適化の性能を高めるために、任意の行で実行される新しい最小でないメソッドを設計する。
論文参考訳（メタデータ） (2023-08-21T13:03:25Z)
Towards Nonlinear-Motion-Aware and Occlusion-Robust Rolling Shutter Correction [54.00007868515432]
既存の手法では、一様速度仮定による補正の精度を推定する上で、課題に直面している。本稿では,個々の画素の高次補正場を正確に推定する,幾何的回転シャッター(QRS)運動解法を提案する。提案手法は,Carla-RS,Fastec-RS,BS-RSCの各データセット上で,PSNRの+4.98,+0.77,+4.33を超える。
論文参考訳（メタデータ） (2023-03-31T15:09:18Z)
OTPose: Occlusion-Aware Transformer for Pose Estimation in Sparsely-Labeled Videos [21.893572076171527]
本稿では, コンバータを用いたフレーム間の時間依存性を符号化する手法を提案する。我々は、PoseTrack 2017とPoseTrack 2018データセットの最先端のポーズ推定結果を達成する。
論文参考訳（メタデータ） (2022-07-20T08:06:06Z)
Temporal Feature Alignment and Mutual Information Maximization for Video-Based Human Pose Estimation [38.571715193347366]
マルチフレーム人間のポーズ推定のための新しい階層的アライメントフレームワークを提案する。ベンチマークデータセットのPoseTrack 2017では、マルチフレームPerson Pose Estimation Challengeの1位にランクインし、ベンチマークのSub-JHMDBとPose-Track 2018では最先端のパフォーマンスを得ています。
論文参考訳（メタデータ） (2022-03-29T04:29:16Z)
IDEA-Net: Dynamic 3D Point Cloud Interpolation via Deep Embedding Alignment [58.8330387551499]
我々は、点方向軌跡(すなわち滑らかな曲線)の推定として問題を定式化する。本稿では,学習した時間的一貫性の助けを借りて問題を解消する,エンドツーエンドのディープラーニングフレームワークであるIDEA-Netを提案する。各種点群における本手法の有効性を実証し, 定量的かつ視覚的に, 最先端の手法に対する大幅な改善を観察する。
論文参考訳（メタデータ） (2022-03-22T10:14:08Z)
TimeLens: Event-based Video Frame Interpolation [54.28139783383213]
本稿では,合成法とフロー法の両方の利点を生かした,等価寄与法であるTime Lensを紹介する。最先端のフレームベースおよびイベントベース手法よりもPSNRが最大5.21dB向上したことを示す。
論文参考訳（メタデータ） (2021-06-14T10:33:47Z)
Deep Dual Consecutive Network for Human Pose Estimation [44.41818683253614]
キーポイント検出を容易にするために,ビデオフレーム間の時間的キューを豊富に活用した,新しいマルチフレーム人間ポーズ推定フレームワークを提案する。本手法は、PoseTrack 2017およびPoseTrack 2018の大規模ベンチマークデータセットにおけるマルチフレームパーソンポースチャレンジチャレンジで1位にランクインします。
論文参考訳（メタデータ） (2021-03-12T13:11:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。