論文の概要: Beyond Audio and Pose: A General-Purpose Framework for Video Synchronization
- arxiv url: http://arxiv.org/abs/2506.15937v1
- Date: Thu, 19 Jun 2025 00:41:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:04.89705
- Title: Beyond Audio and Pose: A General-Purpose Framework for Video Synchronization
- Title(参考訳): Beyond Audio and Pose: ビデオ同期のための汎用フレームワーク
- Authors: Yosub Shin, Igor Molybog,
- Abstract要約: ビデオ同期は、リアリティ番組制作、スポーツ分析、監視、自律システムなどのアプリケーションに不可欠である。
以前の作業はオーディオキューや特定の視覚イベントに大きく依存しており、さまざまな設定で適用性を制限する。
本稿では,特定の特徴抽出手法とは独立して動作するビデオ同期フレームワークであるVideoSyncを紹介する。
- 参考スコア(独自算出の注目度): 1.7820202405704466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video synchronization-aligning multiple video streams capturing the same event from different angles-is crucial for applications such as reality TV show production, sports analysis, surveillance, and autonomous systems. Prior work has heavily relied on audio cues or specific visual events, limiting applicability in diverse settings where such signals may be unreliable or absent. Additionally, existing benchmarks for video synchronization lack generality and reproducibility, restricting progress in the field. In this work, we introduce VideoSync, a video synchronization framework that operates independently of specific feature extraction methods, such as human pose estimation, enabling broader applicability across different content types. We evaluate our system on newly composed datasets covering single-human, multi-human, and non-human scenarios, providing both the methodology and code for dataset creation to establish reproducible benchmarks. Our analysis reveals biases in prior SOTA work, particularly in SeSyn-Net's preprocessing pipeline, leading to inflated performance claims. We correct these biases and propose a more rigorous evaluation framework, demonstrating that VideoSync outperforms existing approaches, including SeSyn-Net, under fair experimental conditions. Additionally, we explore various synchronization offset prediction methods, identifying a convolutional neural network (CNN)-based model as the most effective. Our findings advance video synchronization beyond domain-specific constraints, making it more generalizable and robust for real-world applications.
- Abstract(参考訳): ビデオ同期アライメント 異なる角度から同じイベントをキャプチャする複数のビデオストリーム - 現実のテレビ番組制作、スポーツ分析、監視、自律システムなど、アプリケーションには不可欠である。
以前の作業はオーディオキューや特定の視覚イベントに大きく依存しており、そのような信号が信頼できない、あるいは欠落しているさまざまな設定で適用性を制限する。
さらに、ビデオ同期のための既存のベンチマークでは、一般性や再現性が欠如しており、フィールドの進捗が制限されている。
本研究では,人間のポーズ推定などの特定の特徴抽出手法とは独立して動作するビデオ同期フレームワークであるVideoSyncを導入する。
提案システムは, 単一人, 多人, 非人間シナリオを対象とし, 再現可能なベンチマークを構築するために, データセット作成のための方法論とコードの両方を提供する。
我々の分析では、特にSeSyn-Netの前処理パイプラインにおいて、SOTAの前の作業のバイアスが明らかとなり、性能要求が膨らんだ。
本稿では,これらのバイアスを補正し,より厳密な評価フレームワークを提案する。
さらに、畳み込みニューラルネットワーク(CNN)に基づくモデルを最も効果的に識別し、様々な同期オフセット予測手法を検討する。
我々の研究は、ドメイン固有の制約を超えてビデオ同期を推し進め、現実のアプリケーションにとってより一般化可能で堅牢なものにした。
関連論文リスト
- SyncVP: Joint Diffusion for Synchronous Multi-Modal Video Prediction [17.3162098606835]
同期ビデオ予測(SyncVP)のためのマルチモーダルフレームワークを提案する。
SyncVPは、モダリティを訓練したモデルの上に構築され、効率的な時間的プレアテンションモジュールを導入している。
特にSyncVPは、1つのモダリティしか存在しないシナリオであっても、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-24T17:53:44Z) - SyncVIS: Synchronized Video Instance Segmentation [48.75470418596875]
我々はSyncVISという新しいフレームワークを用いて同期モデリングを行う。
SyncVISはビデオレベルのクエリの埋め込みを明示的に導入し、ビデオレベルのクエリとフレームレベルのクエリの埋め込みを同期させる2つの主要なモジュールを設計する。
提案手法は,提案手法の有効性と汎用性を実証し,最先端の結果を得る。
論文 参考訳(メタデータ) (2024-12-01T16:43:20Z) - Sync from the Sea: Retrieving Alignable Videos from Large-Scale Datasets [62.280729345770936]
AVR(Alignable Video Retrieval)の課題について紹介する。
クェリビデオが与えられた場合、我々は大量のクリップから良質な映像を識別し、時間的にクェリに同期させることができる。
大規模なKineetics700を含む3つのデータセットに関する実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-09-02T20:00:49Z) - SyncTweedies: A General Generative Framework Based on Synchronized Diffusions [11.292617528150291]
正準空間を通した多重拡散過程の同期化のシナリオを網羅的に検討する。
我々は、Tweedieの公式の出力を、複数のインスタンス空間で denoising を行いながら平均化するという、未探索のケースを明らかにした。
上述した映像コンテンツを生成する実験では、SyncTweedies による生成の質が他の同期法と比較して優れていることを示す。
論文 参考訳(メタデータ) (2024-03-21T12:57:30Z) - Synchformer: Efficient Synchronization from Sparse Cues [100.89656994681934]
コントリビューションには、新しい音声-視覚同期モデル、同期モデルからの抽出を分離するトレーニングが含まれる。
このアプローチは、濃密な設定とスパース設定の両方において最先端の性能を実現する。
また,100万スケールの 'in-the-wild' データセットに同期モデルのトレーニングを拡張し,解釈可能性に対するエビデンス属性技術を調査し,同期モデルの新たな機能であるオーディオ-視覚同期性について検討する。
論文 参考訳(メタデータ) (2024-01-29T18:59:55Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Sparse in Space and Time: Audio-visual Synchronisation with Trainable
Selectors [103.21152156339484]
本研究の目的は,一般映像の「野生」音声・視覚同期である。
我々は4つのコントリビューションを行う: (i) スパース同期信号に必要な長時間の時間的シーケンスを処理するために、'セレクタ'を利用するマルチモーダルトランスモデルを設計する。
音声やビデオに使用される圧縮コーデックから生じるアーティファクトを識別し、トレーニングにおいてオーディオ視覚モデルを用いて、同期タスクを人工的に解くことができる。
論文 参考訳(メタデータ) (2022-10-13T14:25:37Z) - Single-Frame based Deep View Synchronization for Unsynchronized
Multi-Camera Surveillance [56.964614522968226]
マルチカメラ監視はシーンの理解とモデリングにおいて活発な研究課題となっている。
通常、これらのマルチカメラベースのタスクのモデルを設計する際に、カメラはすべて時間的に同期していると仮定される。
我々のビュー同期モデルは、非同期設定下で異なるDNNベースのマルチカメラビジョンタスクに適用される。
論文 参考訳(メタデータ) (2020-07-08T04:39:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。