論文の概要: PoseCrafter: Extreme Pose Estimation with Hybrid Video Synthesis
- arxiv url: http://arxiv.org/abs/2510.19527v1
- Date: Wed, 22 Oct 2025 12:32:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.760017
- Title: PoseCrafter: Extreme Pose Estimation with Hybrid Video Synthesis
- Title(参考訳): PoseCrafter: ハイブリッドビデオ合成による極端ポーズ推定
- Authors: Qing Mao, Tianxin Huang, Yu Zhu, Jinqiu Sun, Yanning Zhang, Gim Hee Lee,
- Abstract要約: わずかに重なる画像対からのカメラのポーズ推定は、3Dビジョンにおいて重要な課題であり、未解決の課題である。
近年,ビデオを用いて中間フレームを合成し,自己整合性スコアを用いて鍵フレームを選択する手法が提案されている。
ビデオモデルとポーズ条件付き新規ビューモデルとを結合することにより,より鮮明な中間フレームを合成するためのハイブリッドビデオ生成(HVG)を提案する。
また,合成結果からポーズ推定に適した中間フレームを選択するために,特徴対応に基づく特徴マッチングセレクタ(FMS)を提案する。
- 参考スコア(独自算出の注目度): 82.87579563469039
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pairwise camera pose estimation from sparsely overlapping image pairs remains a critical and unsolved challenge in 3D vision. Most existing methods struggle with image pairs that have small or no overlap. Recent approaches attempt to address this by synthesizing intermediate frames using video interpolation and selecting key frames via a self-consistency score. However, the generated frames are often blurry due to small overlap inputs, and the selection strategies are slow and not explicitly aligned with pose estimation. To solve these cases, we propose Hybrid Video Generation (HVG) to synthesize clearer intermediate frames by coupling a video interpolation model with a pose-conditioned novel view synthesis model, where we also propose a Feature Matching Selector (FMS) based on feature correspondence to select intermediate frames appropriate for pose estimation from the synthesized results. Extensive experiments on Cambridge Landmarks, ScanNet, DL3DV-10K, and NAVI demonstrate that, compared to existing SOTA methods, PoseCrafter can obviously enhance the pose estimation performances, especially on examples with small or no overlap.
- Abstract(参考訳): わずかに重なる画像対からのカメラのポーズ推定は、3Dビジョンにおいて重要な課題であり、未解決の課題である。
既存のほとんどの手法は、小さな、または全く重複しないイメージペアと競合する。
近年の手法では,映像補間による中間フレームの合成や,自己整合性スコアによる鍵フレームの選択が試みられている。
しかしながら、生成されたフレームは、小さな重なり合う入力のため、しばしばぼやけており、選択戦略は遅く、ポーズ推定と明示的に一致しない。
そこで我々は,映像補間モデルとポーズ条件付き新規ビュー合成モデルとを結合させて,より鮮明な中間フレームを合成するためのハイブリッドビデオ生成(HVG)を提案し,合成結果からポーズ推定に適した中間フレームを選択する特徴対応に基づく特徴マッチングセレクタ(FMS)を提案する。
Cambridge Landmarks、ScanNet、DL3DV-10K、NAVIの大規模な実験では、既存のSOTAメソッドと比較して、PoseCrafterは明らかにポーズ推定性能を向上させることができる。
関連論文リスト
- An End-to-End Framework for Video Multi-Person Pose Estimation [3.090225730976977]
本稿では,ビデオの終末ポーズ推定のための簡易かつ柔軟なフレームワークVEPEを提案する。
提案手法は, 2段階モデルより300%, 推測より300%優れていた。
論文 参考訳(メタデータ) (2025-09-01T03:34:57Z) - A new dataset and comparison for multi-camera frame synthesis [0.0]
我々は、カスタムに構築された高密度リニアカメラアレイを用いて、新しいマルチカメラデータセットを開発する。
我々は,古典的・深層学習フレーム補間器をビュー・イン・ビュー・イン・ビューニングのためのビュー・シンセサイザー法と比較した。
論文 参考訳(メタデータ) (2025-08-12T16:37:30Z) - GaVS: 3D-Grounded Video Stabilization via Temporally-Consistent Local Reconstruction and Rendering [54.489285024494855]
ビデオの安定化は、元のユーザの動きの意図を保ちながら、望ましくないシャキネスを除去するので、ビデオ処理に欠かせない。
既存のアプローチは、運用するドメインによって、ユーザエクスペリエンスを低下させるいくつかの問題に悩まされます。
ビデオの安定化を時間的に一貫性のある局所的再構成とレンダリングのパラダイムとして再構成する,新しい3Dグラウンドアプローチである textbfGaVS を紹介する。
論文 参考訳(メタデータ) (2025-06-30T15:24:27Z) - MultiDiff: Consistent Novel View Synthesis from a Single Image [60.04215655745264]
MultiDiffは、単一のRGB画像からシーンを一貫した新しいビュー合成のための新しいアプローチである。
以上の結果から,MultiDiffは,課題の多いリアルタイムデータセットであるRealEstate10KとScanNetにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-26T17:53:51Z) - Enhanced Stable View Synthesis [86.69338893753886]
本稿では,自由に動くカメラから撮影した画像から,新しいビュー合成を強化するアプローチを提案する。
導入されたアプローチは、正確な幾何学的足場とカメラのポーズの復元が困難な屋外シーンに焦点を当てている。
論文 参考訳(メタデータ) (2023-03-30T01:53:14Z) - Deep Dual Consecutive Network for Human Pose Estimation [44.41818683253614]
キーポイント検出を容易にするために,ビデオフレーム間の時間的キューを豊富に活用した,新しいマルチフレーム人間ポーズ推定フレームワークを提案する。
本手法は、PoseTrack 2017およびPoseTrack 2018の大規模ベンチマークデータセットにおけるマルチフレームパーソンポースチャレンジチャレンジで1位にランクインします。
論文 参考訳(メタデータ) (2021-03-12T13:11:27Z) - ARVo: Learning All-Range Volumetric Correspondence for Video Deblurring [92.40655035360729]
ビデオデブラリングモデルは連続フレームを利用して、カメラの揺動や物体の動きからぼやけを取り除く。
特徴空間におけるボケフレーム間の空間的対応を学習する新しい暗黙的手法を提案する。
提案手法は,新たに収集したビデオデブレーション用ハイフレームレート(1000fps)データセットとともに,広く採用されているDVDデータセット上で評価される。
論文 参考訳(メタデータ) (2021-03-07T04:33:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。