Fugu-MT 論文翻訳(概要): MultiCam: On-the-fly Multi-Camera Pose Estimation Using Spatiotemporal Overlaps of Known Objects

論文の概要: MultiCam: On-the-fly Multi-Camera Pose Estimation Using Spatiotemporal Overlaps of Known Objects

arxiv url: http://arxiv.org/abs/2603.22839v1
Date: Tue, 24 Mar 2026 06:26:28 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-25 19:53:37.330725
Title: MultiCam: On-the-fly Multi-Camera Pose Estimation Using Spatiotemporal Overlaps of Known Objects
Title（参考訳）: MultiCam: 未知物体の時空間オーバーラップを用いたオンザフライマルチカメラポーズ推定
Authors: Shiyu Li, Hannah Schieber, Kristoffer Waldow, Benjamin Busam, Julian Kreimeier, Daniel Roth,
Abstract要約: マルチカメラダイナミック拡張現実(AR)アプリケーションは、カメラの個々の情報を1つの共通システムで活用するために、カメラのポーズ推定を必要とする。一般的にカメラは初期段階で校正されるか、マーカーの定期的な使用によって更新されるが、別の選択肢は、既知のオブジェクトのようなシーンに存在する情報を活用することである。本研究では,FotemporalV重なり合いを利用した静止ダイナミックカメラのポーズ推定手法を提案する。
参考スコア（独自算出の注目度）: 19.26912938809402
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Multi-camera dynamic Augmented Reality (AR) applications require a camera pose estimation to leverage individual information from each camera in one common system. This can be achieved by combining contextual information, such as markers or objects, across multiple views. While commonly cameras are calibrated in an initial step or updated through the constant use of markers, another option is to leverage information already present in the scene, like known objects. Another downside of marker-based tracking is that markers have to be tracked inside the field-of-view (FoV) of the cameras. To overcome these limitations, we propose a constant dynamic camera pose estimation leveraging spatiotemporal FoV overlaps of known objects on the fly. To achieve that, we enhance the state-of-the-art object pose estimator to update our spatiotemporal scene graph, enabling a relation even among non-overlapping FoV cameras. To evaluate our approach, we introduce a multi-camera, multi-object pose estimation dataset with temporal FoV overlap, including static and dynamic cameras. Furthermore, in FoV overlapping scenarios, we outperform the state-of-the-art on the widely used YCB-V and T-LESS dataset in camera pose accuracy. Our performance on both previous and our proposed datasets validates the effectiveness of our marker-less approach for AR applications. The code and dataset are available on https://github.com/roth-hex-lab/IEEE-VR-2026-MultiCam.
Abstract（参考訳）: マルチカメラダイナミック拡張現実(AR)アプリケーションは、カメラの個々の情報を1つの共通システムで活用するために、カメラのポーズ推定を必要とする。これは、複数のビューにまたがるマーカーやオブジェクトなどのコンテキスト情報を組み合わせることで実現できる。一般的にカメラは初期段階で校正されるか、マーカーの定期的な使用によって更新されるが、別の選択肢は、既知のオブジェクトのようなシーンに存在する情報を活用することである。マーカーベースのトラッキングのもうひとつの欠点は、カメラのフィールド・オブ・ビュー(FoV)内でマーカーを追跡する必要があることだ。これらの制約を克服するために, 既知物体の時空間FoV重なりを利用した静止カメラポーズ推定法を提案する。これを実現するために、我々は最先端のオブジェクトポーズ推定装置を強化し、時空間のシーングラフを更新し、重複しないFoVカメラでさえ関係を持てるようにした。提案手法を評価するために,静的・動的カメラを含む時間的FoV重畳を伴うマルチカメラ・マルチオブジェクトポーズ推定データセットを提案する。さらに、FoV重なり合うシナリオでは、広く使われているYCB-VとT-LESSのデータセットをカメラの精度で上回ります。従来および提案したデータセットの性能は,ARアプリケーションにおけるマーカーレスアプローチの有効性を検証している。コードとデータセットはhttps://github.com/roth-hex-lab/IEEE-VR-2026-MultiCamで公開されている。

関連論文リスト

Dense Dynamic Scene Reconstruction and Camera Pose Estimation from Multi-View Videos [14.791378262503967]
本稿では,複数のカメラから高密度ダイナミックシーン再構成とカメラポーズ推定を行う際の課題に対処する。本稿では,タスクの頑健なカメラ追跡と深度を分離する2段階最適化フレームワークを提案する。提案手法は, 合成および実世界のベンチマークにおいて, 最先端のフィードフォワードモデルよりも優れていた。
論文参考訳（メタデータ） (2026-03-12T15:31:32Z)
Multi-View 3D Point Tracking [67.21282192436031]
本稿では,複数のカメラビューを用いた動的シーンにおける任意の点の追跡を目的とした,データ駆動型マルチビュー3Dポイントトラッカーについて紹介する。本モデルでは,現実的な数のカメラを用いて直接3次元対応を推定する。我々は5K合成多視点Kubricシーケンスをトレーニングし、2つの実世界のベンチマークで評価する。
論文参考訳（メタデータ） (2025-08-28T17:58:20Z)
FRAME: Floor-aligned Representation for Avatar Motion from Egocentric Video [52.33896173943054]
ヘッドマウントのボディフェイスステレオカメラを備えたエゴセントリックなモーションキャプチャーは、VRやARアプリケーションには不可欠だ。既存の方法は、合成事前学習と、現実の環境で滑らかで正確な予測を生成するのに苦労している。本稿では、デバイスポーズとカメラフィードを組み合わせて、最先端のボディポーズ予測を行う、シンプルで効果的なアーキテクチャFRAMEを提案する。
論文参考訳（メタデータ） (2025-03-29T14:26:06Z)
MTMMC: A Large-Scale Real-World Multi-Modal Camera Tracking Benchmark [63.878793340338035]
マルチターゲットマルチカメラトラッキングは、複数のカメラからのビデオストリームを使用して個人を特定し、追跡する重要なタスクである。このタスクの既存のデータセットは、制御されたカメラネットワーク設定内で合成または人工的に構築される。我々は16台のマルチモーダルカメラで2つの異なる環境でキャプチャされた長いビデオシーケンスを含む実世界の大規模データセットであるMTMMCを紹介する。
論文参考訳（メタデータ） (2024-03-29T15:08:37Z)
VICAN: Very Efficient Calibration Algorithm for Large Camera Networks [49.17165360280794]
ポースグラフ最適化手法を拡張する新しい手法を提案する。我々は、カメラを含む二部グラフ、オブジェクトの動的進化、各ステップにおけるカメラオブジェクト間の相対変換について考察する。我々のフレームワークは従来のPGOソルバとの互換性を維持しているが、その有効性はカスタマイズされた最適化方式の恩恵を受けている。
論文参考訳（メタデータ） (2024-03-25T17:47:03Z)
SpikeMOT: Event-based Multi-Object Tracking with Sparse Motion Features [52.213656737672935]
SpikeMOTはイベントベースのマルチオブジェクトトラッカーである。 SpikeMOTはスパイクニューラルネットワークを使用して、オブジェクトに関連するイベントストリームからスパーステンポラルな特徴を抽出する。
論文参考訳（メタデータ） (2023-09-29T05:13:43Z)
SurroundDepth: Entangling Surrounding Views for Self-Supervised Multi-Camera Depth Estimation [101.55622133406446]
本研究では,複数の周囲からの情報を組み込んだSurroundDepth法を提案し,カメラ間の深度マップの予測を行う。具体的には、周囲のすべてのビューを処理し、複数のビューから情報を効果的に融合するクロスビュー変換器を提案する。実験において,本手法は,挑戦的なマルチカメラ深度推定データセット上での最先端性能を実現する。
論文参考訳（メタデータ） (2022-04-07T17:58:47Z)
Simultaneous Multi-View Camera Pose Estimation and Object Tracking with Square Planar Markers [0.0]
本稿では,上記の問題を同時に解く新しい手法を提案する。複数のカメラから記録された平面マーカーの厳密な集合を示すビデオシーケンスから,提案手法はマーカーの3次元構成を自動的に得ることができる。パラメータが取得されると、オブジェクトの追跡は、低い計算コストでリアルタイムで行うことができます。
論文参考訳（メタデータ） (2021-03-16T15:33:58Z)
YCB-M: A Multi-Camera RGB-D Dataset for Object Recognition and 6DoF Pose Estimation [2.9972063833424216]
7つの異なる3Dカメラで撮影され、合計49,294フレームで撮影された32のシーンのデータセットを提示する。これにより、使用するカメラの仕様に対するポーズ推定アルゴリズムの感度を評価することができる。
論文参考訳（メタデータ） (2020-04-24T11:14:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。