論文の概要: RocSync: Millisecond-Accurate Temporal Synchronization for Heterogeneous Camera Systems
- arxiv url: http://arxiv.org/abs/2511.14948v1
- Date: Tue, 18 Nov 2025 22:13:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.549115
- Title: RocSync: Millisecond-Accurate Temporal Synchronization for Heterogeneous Camera Systems
- Title(参考訳): RocSync:不均一カメラシステムのためのミリ秒正確な時間同期
- Authors: Jaro Meyer, Frédéric Giraud, Joschua Wüthrich, Marc Pollefeys, Philipp Fürnstahl, Lilian Calvet,
- Abstract要約: 多様なカメラシステム間でミリ秒レベルの時間的アライメントを実現するための,低コストで汎用的な同期方式を提案する。
提案したソリューションは、赤と赤で時間をエンコードし、露光ウィンドウの視覚的デコードを可能にする、カスタムビルドの itLED クロックを採用している。
IRとRGBの両モードにまたがる25以上の異種カメラを用いた大規模な手術記録において,本システムの有効性を検証した。
- 参考スコア(独自算出の注目度): 38.099313678683224
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate spatiotemporal alignment of multi-view video streams is essential for a wide range of dynamic-scene applications such as multi-view 3D reconstruction, pose estimation, and scene understanding. However, synchronizing multiple cameras remains a significant challenge, especially in heterogeneous setups combining professional and consumer-grade devices, visible and infrared sensors, or systems with and without audio, where common hardware synchronization capabilities are often unavailable. This limitation is particularly evident in real-world environments, where controlled capture conditions are not feasible. In this work, we present a low-cost, general-purpose synchronization method that achieves millisecond-level temporal alignment across diverse camera systems while supporting both visible (RGB) and infrared (IR) modalities. The proposed solution employs a custom-built \textit{LED Clock} that encodes time through red and infrared LEDs, allowing visual decoding of the exposure window (start and end times) from recorded frames for millisecond-level synchronization. We benchmark our method against hardware synchronization and achieve a residual error of 1.34~ms RMSE across multiple recordings. In further experiments, our method outperforms light-, audio-, and timecode-based synchronization approaches and directly improves downstream computer vision tasks, including multi-view pose estimation and 3D reconstruction. Finally, we validate the system in large-scale surgical recordings involving over 25 heterogeneous cameras spanning both IR and RGB modalities. This solution simplifies and streamlines the synchronization pipeline and expands access to advanced vision-based sensing in unconstrained environments, including industrial and clinical applications.
- Abstract(参考訳): 多視点ビデオストリームの正確な時空間アライメントは、多視点3D再構成、ポーズ推定、シーン理解など、幅広い動的シーンアプリケーションに不可欠である。
しかし、複数のカメラの同期は重要な課題であり、特にプロ級とコンシューマ級のデバイス、可視・赤外線センサー、あるいは一般的なハードウェア同期機能が利用できない、オーディオなしのシステムを組み合わせた異種セットアップでは大きな課題である。
この制限は、制御された捕獲条件が実現不可能な現実世界環境において特に顕著である。
本研究では、可視光(RGB)と赤外線(IR)の両モードをサポートしながら、多様なカメラシステム間でミリ秒レベルの時間的アライメントを実現する、低コストで汎用的な同期方式を提案する。
提案手法は、赤と赤のLEDを通して時間をエンコードし、ミリ秒レベルの同期のために記録されたフレームから露光ウィンドウ(開始時間と終了時間)を視覚的に復号できる、カスタムビルドの \textit{LED Clock} を用いる。
ハードウェア同期に対して本手法をベンチマークし,複数の記録にまたがって残差1.34〜msのRMSEを求める。
さらなる実験において,本手法は光,オーディオ,タイムコードに基づく同期手法より優れ,マルチビューポーズ推定や3次元再構成を含む下流コンピュータビジョンタスクを直接改善する。
最後に、IRとRGBの両モードにまたがる25以上の異種カメラを含む大規模な手術記録において、本システムの有効性を検証した。
このソリューションは、同期パイプラインを単純化し、合理化し、工業的および臨床応用を含む制約のない環境で高度な視覚ベースのセンシングへのアクセスを拡大する。
関連論文リスト
- Multi-modal Multi-platform Person Re-Identification: Benchmark and Method [58.59888754340054]
MP-ReIDは、マルチモダリティとマルチプラットフォームReIDに特化した新しいデータセットである。
このベンチマークは、RGB、赤外線、サーマルイメージングなど、さまざまなモードで1,930のIDからデータをコンパイルする。
クロスモダリティとクロスプラットフォームシナリオに適した,特定設計のプロンプトを備えたフレームワークであるUni-Prompt ReIDを紹介する。
論文 参考訳(メタデータ) (2025-03-21T12:27:49Z) - An Asynchronous Linear Filter Architecture for Hybrid Event-Frame Cameras [9.69495347826584]
本稿では,HDRビデオ再構成と空間畳み込みのための非同期線形フィルタアーキテクチャを提案する。
提案したAKFパイプラインは、絶対強度誤差(69.4%削減)と画像類似度指数(平均35.5%改善)の両方において、他の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-09-03T12:37:59Z) - Video Frame Interpolation with Stereo Event and Intensity Camera [40.07341828127157]
高品質な中間フレームを生成するための新しいステレオイベントベースVFIネットワーク(SE-VFI-Net)を提案する。
我々は,正確な光学的流れと不均一性推定を実現するために,融合した特徴を利用する。
提案するSEVFI-Netは最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2023-07-17T04:02:00Z) - Self-Supervised Intensity-Event Stereo Matching [24.851819610561517]
イベントカメラはバイオインスパイアされた新しい視覚センサーで、マイクロ秒の精度でピクセルレベルの強度変化を出力する。
イベントカメラは、高品質の強度とイベントを同時に得ることができないため、計算画像タスクに直接適用することはできない。
本稿では,スタンドアロンのイベントカメラと近代的な強度カメラを接続して,両センサを応用することを目的としている。
論文 参考訳(メタデータ) (2022-11-01T14:52:25Z) - Rolling Shutter Inversion: Bring Rolling Shutter Images to High
Framerate Global Shutter Video [111.08121952640766]
本稿では,RS時相超解問題に対する新しいディープラーニングに基づく解法を提案する。
RSイメージングプロセスの多視点幾何関係を利用して,高フレームレートGS生成を実現する。
提案手法は,高精細で高品質なGS画像系列を生成でき,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2022-10-06T16:47:12Z) - Synchronized Smartphone Video Recording System of Depth and RGB Image
Frames with Sub-millisecond Precision [2.1286051580524523]
本稿では,同期(同期)精度の高い記録システムを提案する。
スマートフォン、ディープカメラ、IMUなどの異種センサーで構成されている。
論文 参考訳(メタデータ) (2021-11-05T15:16:54Z) - Combining Events and Frames using Recurrent Asynchronous Multimodal
Networks for Monocular Depth Prediction [51.072733683919246]
複数のセンサからの非同期および不規則なデータを処理するために、リカレント非同期マルチモーダル(RAM)ネットワークを導入する。
従来のRNNにインスパイアされたRAMネットワークは、非同期に更新され、予測を生成するためにいつでもクエリできる隠れ状態を維持している。
平均深度絶対誤差において,最先端手法を最大30%改善することを示す。
論文 参考訳(メタデータ) (2021-02-18T13:24:35Z) - Event-based Stereo Visual Odometry [42.77238738150496]
ステレオ・イベント・ベースのカメラ・リグが取得したデータから視覚計測の問題に対する解決策を提案する。
我々は,シンプルかつ効率的な表現を用いて,ステレオイベントベースのデータの時間的一貫性を最大化する。
論文 参考訳(メタデータ) (2020-07-30T15:53:28Z) - Single-Frame based Deep View Synchronization for Unsynchronized
Multi-Camera Surveillance [56.964614522968226]
マルチカメラ監視はシーンの理解とモデリングにおいて活発な研究課題となっている。
通常、これらのマルチカメラベースのタスクのモデルを設計する際に、カメラはすべて時間的に同期していると仮定される。
我々のビュー同期モデルは、非同期設定下で異なるDNNベースのマルチカメラビジョンタスクに適用される。
論文 参考訳(メタデータ) (2020-07-08T04:39:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。