論文の概要: Visual Sync: Multi-Camera Synchronization via Cross-View Object Motion
- arxiv url: http://arxiv.org/abs/2512.02017v1
- Date: Mon, 01 Dec 2025 18:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:35.045029
- Title: Visual Sync: Multi-Camera Synchronization via Cross-View Object Motion
- Title(参考訳): Visual Sync: クロスビューオブジェクトモーションによるマルチカメラ同期
- Authors: Shaowei Liu, David Yifan Yao, Saurabh Gupta, Shenlong Wang,
- Abstract要約: ミリ秒の精度で、未対応の非同期ビデオを調整する最適化フレームワークであるVisualSyncを提示する。
私たちの重要な洞察は、動く3Dポイントは、2つのカメラでコビジュアライズ可能なときに、一度適切に同期されたエピポーラ制約に従うということです。
VisualSyncは、市販の3D再構成、特徴マッチング、密集したトラッキングを利用して、トラックレット、相対ポーズ、およびクロスビュー対応を抽出する。
- 参考スコア(独自算出の注目度): 30.873271334433024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Today, people can easily record memorable moments, ranging from concerts, sports events, lectures, family gatherings, and birthday parties with multiple consumer cameras. However, synchronizing these cross-camera streams remains challenging. Existing methods assume controlled settings, specific targets, manual correction, or costly hardware. We present VisualSync, an optimization framework based on multi-view dynamics that aligns unposed, unsynchronized videos at millisecond accuracy. Our key insight is that any moving 3D point, when co-visible in two cameras, obeys epipolar constraints once properly synchronized. To exploit this, VisualSync leverages off-the-shelf 3D reconstruction, feature matching, and dense tracking to extract tracklets, relative poses, and cross-view correspondences. It then jointly minimizes the epipolar error to estimate each camera's time offset. Experiments on four diverse, challenging datasets show that VisualSync outperforms baseline methods, achieving an median synchronization error below 50 ms.
- Abstract(参考訳): 今日では、コンサート、スポーツイベント、講義、家族集会、複数のコンシューマーカメラによる誕生日パーティーなど、記憶に残る瞬間を簡単に記録することができる。
しかし、これらのクロスカメラストリームの同期は依然として困難である。
既存の手法では、制御された設定、特定のターゲット、手動修正、高価なハードウェアが想定される。
ミリ秒の精度で非ポーズの非同期動画を整列するマルチビューダイナミックスに基づく最適化フレームワークであるVisualSyncを提案する。
私たちの重要な洞察は、動く3Dポイントは、2つのカメラでコビジュアライズ可能なときに、一度適切に同期されたエピポーラ制約に従うということです。
これを利用するために、VisualSyncは市販の3D再構成、特徴マッチング、密集したトラッキングを活用して、トラックレット、相対ポーズ、およびクロスビュー対応を抽出する。
その後、エピポーラ誤差を最小化し、各カメラのタイムオフセットを推定する。
4つの多種多様な挑戦的なデータセットの実験によると、VisualSyncはベースラインメソッドよりも優れており、50ms以下の中央値同期エラーを達成している。
関連論文リスト
- RocSync: Millisecond-Accurate Temporal Synchronization for Heterogeneous Camera Systems [38.099313678683224]
多様なカメラシステム間でミリ秒レベルの時間的アライメントを実現するための,低コストで汎用的な同期方式を提案する。
提案したソリューションは、赤と赤で時間をエンコードし、露光ウィンドウの視覚的デコードを可能にする、カスタムビルドの itLED クロックを採用している。
IRとRGBの両モードにまたがる25以上の異種カメラを用いた大規模な手術記録において,本システムの有効性を検証した。
論文 参考訳(メタデータ) (2025-11-18T22:13:06Z) - Syncphony: Synchronized Audio-to-Video Generation with Diffusion Transformers [19.226787997122987]
380x640の解像度、24fpsのビデオが多様な音声入力と同期するSyncphonyを提案する。
提案手法は,事前学習したビデオバックボーン上に構築され,同期性を改善するために2つの重要なコンポーネントが組み込まれている。
AVSync15とThe Greatest Hitsデータセットの実験では、Syncphonyは同期精度と視覚的品質の両方で既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2025-09-26T05:30:06Z) - SyncTalk++: High-Fidelity and Efficient Synchronized Talking Heads Synthesis Using Gaussian Splatting [25.523486023087916]
ライフライクな話しの頭は、主題のアイデンティティ、唇の動き、表情、頭ポーズを同期的に調整する必要がある。
そこで我々はSyncTalk++を導入し,現実的な発話ヘッド生成において,'devil'として認識される同期の重要な問題に対処する。
提案手法は、フレーム間の視覚的詳細性の一貫性と連続性を維持し、レンダリング速度と品質を大幅に改善し、毎秒101フレームを実現している。
論文 参考訳(メタデータ) (2025-06-17T17:22:12Z) - CoMotion: Concurrent Multi-person 3D Motion [88.27833466761234]
単眼カメラストリームから複数の人物の詳細な3Dポーズを検出し,追跡するためのアプローチを提案する。
私たちのモデルは、フレーム単位の強い検出と、フレームからフレームまでの人々の追跡のための学習されたポーズ更新の両方を実行します。
我々は、擬似ラベル付きアノテーションを利用して、多数の画像とビデオのデータセットをトレーニングし、3次元ポーズ推定精度で最先端のシステムにマッチするモデルを生成する。
論文 参考訳(メタデータ) (2025-04-16T15:40:15Z) - Synchformer: Efficient Synchronization from Sparse Cues [100.89656994681934]
コントリビューションには、新しい音声-視覚同期モデル、同期モデルからの抽出を分離するトレーニングが含まれる。
このアプローチは、濃密な設定とスパース設定の両方において最先端の性能を実現する。
また,100万スケールの 'in-the-wild' データセットに同期モデルのトレーニングを拡張し,解釈可能性に対するエビデンス属性技術を調査し,同期モデルの新たな機能であるオーディオ-視覚同期性について検討する。
論文 参考訳(メタデータ) (2024-01-29T18:59:55Z) - Sync-NeRF: Generalizing Dynamic NeRFs to Unsynchronized Videos [9.90835990611019]
個別の非同期ビデオのタイムオフセットを導入し、NeRFと共同でオフセットを最適化する。
オフセットを見つけることは、手動で動画を同期させるのに自然に役立ちます。
論文 参考訳(メタデータ) (2023-10-20T08:45:30Z) - GestSync: Determining who is speaking without a talking head [67.75387744442727]
本稿では,ジェスチャ・シンク (Gesture-Sync) を導入する。
Lip-Syncと比較して、Gesture-Syncは、声と体の動きの間にはるかに緩い関係があるため、はるかに難しい。
このモデルは自己教師付き学習だけで訓練でき、LSS3データセット上での性能を評価することができる。
論文 参考訳(メタデータ) (2023-10-08T22:48:30Z) - Sparse in Space and Time: Audio-visual Synchronisation with Trainable
Selectors [103.21152156339484]
本研究の目的は,一般映像の「野生」音声・視覚同期である。
我々は4つのコントリビューションを行う: (i) スパース同期信号に必要な長時間の時間的シーケンスを処理するために、'セレクタ'を利用するマルチモーダルトランスモデルを設計する。
音声やビデオに使用される圧縮コーデックから生じるアーティファクトを識別し、トレーニングにおいてオーディオ視覚モデルを用いて、同期タスクを人工的に解くことができる。
論文 参考訳(メタデータ) (2022-10-13T14:25:37Z) - MetaPose: Fast 3D Pose from Multiple Views without 3D Supervision [72.5863451123577]
正確な3Dポーズとカメラ推定が可能なニューラルモデルをトレーニングする方法を示す。
本手法は,古典的バンドル調整と弱教師付き単分子3Dベースラインの両方に優れる。
論文 参考訳(メタデータ) (2021-08-10T18:39:56Z) - Single-Frame based Deep View Synchronization for Unsynchronized
Multi-Camera Surveillance [56.964614522968226]
マルチカメラ監視はシーンの理解とモデリングにおいて活発な研究課題となっている。
通常、これらのマルチカメラベースのタスクのモデルを設計する際に、カメラはすべて時間的に同期していると仮定される。
我々のビュー同期モデルは、非同期設定下で異なるDNNベースのマルチカメラビジョンタスクに適用される。
論文 参考訳(メタデータ) (2020-07-08T04:39:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。