論文の概要: Robust Frame-to-Frame Camera Rotation Estimation in Crowded Scenes
- arxiv url: http://arxiv.org/abs/2309.08588v1
- Date: Fri, 15 Sep 2023 17:44:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 13:20:52.288257
- Title: Robust Frame-to-Frame Camera Rotation Estimation in Crowded Scenes
- Title(参考訳): 混み合ったシーンにおけるロバストなフレーム間カメラ回転推定
- Authors: Fabien Delattre, David Dirnfeld, Phat Nguyen, Stephen Scarano, Michael
J. Jones, Pedro Miraldo, Erik Learned-Miller
- Abstract要約: 本稿では,携帯型モノクロビデオから,混み合った現実世界のシーンにおけるカメラ回転推定手法を提案する。
我々は、17の動画シーケンスに対して、高精度で厳密に検証された地上真実を持つ新しいデータセットとベンチマークを提供する。
これは、混み合ったシーンに対する強力な新しいパフォーマンスポイントであり、コンピュータビジョンにとって重要な設定である。
- 参考スコア(独自算出の注目度): 8.061773364318313
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an approach to estimating camera rotation in crowded, real-world
scenes from handheld monocular video. While camera rotation estimation is a
well-studied problem, no previous methods exhibit both high accuracy and
acceptable speed in this setting. Because the setting is not addressed well by
other datasets, we provide a new dataset and benchmark, with high-accuracy,
rigorously verified ground truth, on 17 video sequences. Methods developed for
wide baseline stereo (e.g., 5-point methods) perform poorly on monocular video.
On the other hand, methods used in autonomous driving (e.g., SLAM) leverage
specific sensor setups, specific motion models, or local optimization
strategies (lagging batch processing) and do not generalize well to handheld
video. Finally, for dynamic scenes, commonly used robustification techniques
like RANSAC require large numbers of iterations, and become prohibitively slow.
We introduce a novel generalization of the Hough transform on SO(3) to
efficiently and robustly find the camera rotation most compatible with optical
flow. Among comparably fast methods, ours reduces error by almost 50\% over the
next best, and is more accurate than any method, irrespective of speed. This
represents a strong new performance point for crowded scenes, an important
setting for computer vision. The code and the dataset are available at
https://fabiendelattre.com/robust-rotation-estimation.
- Abstract(参考訳): 本稿では,手持ち単眼映像から実世界の混み合ったシーンにおけるカメラ回転の推定手法を提案する。
カメラ回転推定はよく研究されている問題であるが、この設定において精度と許容速度の両方を示す方法はない。
設定は他のデータセットではうまく扱えないため、我々は17の動画シーケンスで高精度で厳密に検証された地上の真実を持つ新しいデータセットとベンチマークを提供する。
広いベースラインステレオ(例えば5点法)のために開発された手法は単眼ビデオでは性能が悪い。
一方、自律運転(例えばslam)で使用される手法は、特定のセンサー設定、特定の動きモデル、あるいは局所的な最適化戦略(バッチ処理)を利用しており、ハンドヘルドビデオにうまく一般化していない。
最後に、ダイナミックなシーンでは、RANSACのような一般的なロバスト化技術が大量のイテレーションを必要とし、違法に遅い。
我々は,SO(3)上のハフ変換の新たな一般化を導入し,光学的流れに最も適合するカメラ回転を効率よく,堅牢に見つける。
比較可能な高速な手法の中では、次の最良値に対して誤差を約50%削減し、速度によらずどの手法よりも正確である。
これは、混雑するシーンに対する強力な新しいパフォーマンスポイントであり、コンピュータビジョンにとって重要な設定である。
コードとデータセットはhttps://fabiendelattre.com/robust-rotation-estimationで入手できる。
関連論文リスト
- Look Gauss, No Pose: Novel View Synthesis using Gaussian Splatting without Accurate Pose Initialization [11.418632671254564]
3D Gaussian Splattingは、一連の入力画像から高速で正確なノベルビュー合成のための強力なツールとして登場した。
本稿では, 外部カメラパラメータを測光残差に対して最適化することにより, 3次元ガウス散乱フレームワークの拡張を提案する。
シミュレーション環境を通して実世界のシーンと複雑な軌道について結果を示す。
論文 参考訳(メタデータ) (2024-10-11T12:01:15Z) - Redundancy-Aware Camera Selection for Indoor Scene Neural Rendering [54.468355408388675]
カメラの空間的多様性と画像の意味的変動の両方を取り入れた類似度行列を構築した。
カメラ選択を最適化するために,多様性に基づくサンプリングアルゴリズムを適用した。
IndoorTrajという新しいデータセットも開発しています。仮想屋内環境で人間が捉えた、長くて複雑なカメラの動きが含まれています。
論文 参考訳(メタデータ) (2024-09-11T08:36:49Z) - Self-Calibrating 4D Novel View Synthesis from Monocular Videos Using Gaussian Splatting [14.759265492381509]
本稿では,カメラパラメータの自己校正による高忠実度 4D GS シーン表現の学習手法を提案する。
3次元構造を頑健に表現する2次元点特徴の抽出を含む。
その結果,4次元新規ビュー合成における最先端手法の大幅な改善が示された。
論文 参考訳(メタデータ) (2024-06-03T06:52:35Z) - U-ARE-ME: Uncertainty-Aware Rotation Estimation in Manhattan Environments [18.534567960292403]
本稿では、未校正RGB画像からの不確実性とともに、カメラ回転を推定するアルゴリズムであるU-ARE-MEを提案する。
実験の結果,U-ARE-MEはRGB-D法と互換性があり,特徴量ベースのSLAM法よりも頑健であることがわかった。
論文 参考訳(メタデータ) (2024-03-22T19:14:28Z) - Joint 3D Shape and Motion Estimation from Rolling Shutter Light-Field
Images [2.0277446818410994]
本研究では,ローリングシャッターセンサを備えた光界カメラで撮影した1枚の画像からシーンを3次元再構成する手法を提案する。
本手法は、光場に存在する3次元情報キューと、ローリングシャッター効果によって提供される動き情報を利用する。
本稿では,このセンサの撮像プロセスの汎用モデルと再投射誤差を最小化する2段階アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-02T15:08:18Z) - Tracking Everything Everywhere All at Once [111.00807055441028]
ビデオシーケンスから高密度及び長距離運動を推定するための新しいテスト時間最適化法を提案する。
我々はOmniMotionと呼ばれる完全で一貫した動作表現を提案する。
提案手法は,従来の最先端手法よりも定量的にも定性的にも大きなマージンで優れている。
論文 参考訳(メタデータ) (2023-06-08T17:59:29Z) - Towards Nonlinear-Motion-Aware and Occlusion-Robust Rolling Shutter
Correction [54.00007868515432]
既存の手法では、一様速度仮定による補正の精度を推定する上で、課題に直面している。
本稿では,個々の画素の高次補正場を正確に推定する,幾何的回転シャッター(QRS)運動解法を提案する。
提案手法は,Carla-RS,Fastec-RS,BS-RSCの各データセット上で,PSNRの+4.98,+0.77,+4.33を超える。
論文 参考訳(メタデータ) (2023-03-31T15:09:18Z) - Fast and Lightweight Scene Regressor for Camera Relocalization [1.6708069984516967]
プレビルドされた3Dモデルに対して直接カメラのポーズを推定することは、いくつかのアプリケーションにとって違法にコストがかかる可能性がある。
本研究では,シーン座標のマッピングに多層パーセプトロンネットワークのみを必要とする簡易なシーン回帰手法を提案する。
提案手法では,高密度のRGB画像ではなく,スパースディスクリプタを用いてシーン座標を回帰する。
論文 参考訳(メタデータ) (2022-12-04T14:41:20Z) - ParticleSfM: Exploiting Dense Point Trajectories for Localizing Moving
Cameras in the Wild [57.37891682117178]
本稿では,一対の光流からの高密度対応に基づく動画の高密度間接構造抽出手法を提案する。
不規則点軌道データを処理するために,新しいニューラルネットワークアーキテクチャを提案する。
MPIシンテルデータセットを用いた実験により,我々のシステムはより正確なカメラ軌道を生成することがわかった。
論文 参考訳(メタデータ) (2022-07-19T09:19:45Z) - Learning Monocular Dense Depth from Events [53.078665310545745]
イベントカメラは、強度フレームではなく、非同期イベントのストリームの形式で輝度を変化させる。
最近の学習に基づくアプローチは、単眼深度予測のようなイベントベースのデータに適用されている。
本稿では,この課題を解決するための繰り返しアーキテクチャを提案し,標準フィードフォワード法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-10-16T12:36:23Z) - Towards Fast, Accurate and Stable 3D Dense Face Alignment [73.01620081047336]
本稿では,速度,精度,安定性のバランスをとる3DDFA-V2という新しい回帰フレームワークを提案する。
本研究では,静止画を平面内と面外の動きを取り入れた映像に変換する仮想合成法を提案する。
論文 参考訳(メタデータ) (2020-09-21T15:37:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。