論文の概要: Synchronization of Multiple Videos
- arxiv url: http://arxiv.org/abs/2510.14051v1
- Date: Wed, 15 Oct 2025 19:43:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.598234
- Title: Synchronization of Multiple Videos
- Title(参考訳): 複数ビデオの同期化
- Authors: Avihai Naaman, Ron Shapira Weber, Oren Freifeld,
- Abstract要約: 異なるシーンから動画を同期させる、あるいは生成するAIビデオは、多様な主題、背景、非線形の時間的ミスアライメントのために、はるかに複雑な課題を引き起こす。
本稿では,様々な事前学習モデルから抽出した高次元埋め込みから,共有されたコンパクトな1次元表現を構成するプロトタイプベースのフレームワークであるTPLを提案する。
TPLは、主要なアクションフェーズをアンカーする統一されたプロトタイプシーケンスを学習することで、ビデオの整合性を強化し、徹底的なペアワイズマッチングを回避する。
- 参考スコア(独自算出の注目度): 10.539720730126263
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synchronizing videos captured simultaneously from multiple cameras in the same scene is often easy and typically requires only simple time shifts. However, synchronizing videos from different scenes or, more recently, generative AI videos, poses a far more complex challenge due to diverse subjects, backgrounds, and nonlinear temporal misalignment. We propose Temporal Prototype Learning (TPL), a prototype-based framework that constructs a shared, compact 1D representation from high-dimensional embeddings extracted by any of various pretrained models. TPL robustly aligns videos by learning a unified prototype sequence that anchors key action phases, thereby avoiding exhaustive pairwise matching. Our experiments show that TPL improves synchronization accuracy, efficiency, and robustness across diverse datasets, including fine-grained frame retrieval and phase classification tasks. Importantly, TPL is the first approach to mitigate synchronization issues in multiple generative AI videos depicting the same action. Our code and a new multiple video synchronization dataset are available at https://bgu-cs-vil.github.io/TPL/
- Abstract(参考訳): 同じシーンで複数のカメラから同時に撮影されるビデオの同期は、しばしば簡単で、通常は単純な時間シフトしか必要としない。
しかし、異なるシーンやより最近では、生成的AIビデオからの動画の同期は、多様な主題、背景、非線形の時間的ミスアライメントのために、はるかに複雑な課題を引き起こす。
本稿では,多種多様な事前学習モデルから抽出した高次元埋め込みから,共有されたコンパクトな1次元表現を構成するプロトタイプベースのフレームワークであるTPLを提案する。
TPLは、主要なアクションフェーズをアンカーする統一されたプロトタイプシーケンスを学習することで、ビデオの整合性を強化し、徹底的なペアワイズマッチングを回避する。
実験により,TPLはフレームのきめ細かい検索や位相分類タスクを含む多種多様なデータセットの同期精度,効率,堅牢性を向上することが示された。
重要なことは、TPLは、同じアクションを描写した複数の生成AIビデオにおける同期問題を緩和する最初のアプローチである。
私たちのコードと新しい多重ビデオ同期データセットはhttps://bgu-cs-vil.github.io/TPL/で公開されている。
関連論文リスト
- Multi-Pair Temporal Sentence Grounding via Multi-Thread Knowledge Transfer Network [57.72095897427665]
時間文グラウンドディング(TSG)は、ビデオ中のクエリ関連セグメントを見つけることを目的としている。
従来のメソッドは、異なるペアを一緒にトレーニングできないシングルスレッドフレームワークに従っていた。
我々はこれらのペアを協調訓練することを目的としたMulti-Pair TSGを提案する。
論文 参考訳(メタデータ) (2024-12-20T08:50:11Z) - Mind the Time: Temporally-Controlled Multi-Event Video Generation [65.05423863685866]
時間制御を備えたマルチイベントビデオジェネレータMinTを提案する。
私たちの重要な洞察は、各イベントを生成されたビデオの特定の期間にバインドすることで、モデルが一度にひとつのイベントに集中できるようにすることです。
文献の中ではじめて、我々のモデルは生成されたビデオのイベントのタイミングを制御できる。
論文 参考訳(メタデータ) (2024-12-06T18:52:20Z) - Sync-NeRF: Generalizing Dynamic NeRFs to Unsynchronized Videos [9.90835990611019]
個別の非同期ビデオのタイムオフセットを導入し、NeRFと共同でオフセットを最適化する。
オフセットを見つけることは、手動で動画を同期させるのに自然に役立ちます。
論文 参考訳(メタデータ) (2023-10-20T08:45:30Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Sparse in Space and Time: Audio-visual Synchronisation with Trainable
Selectors [103.21152156339484]
本研究の目的は,一般映像の「野生」音声・視覚同期である。
我々は4つのコントリビューションを行う: (i) スパース同期信号に必要な長時間の時間的シーケンスを処理するために、'セレクタ'を利用するマルチモーダルトランスモデルを設計する。
音声やビデオに使用される圧縮コーデックから生じるアーティファクトを識別し、トレーニングにおいてオーディオ視覚モデルを用いて、同期タスクを人工的に解くことができる。
論文 参考訳(メタデータ) (2022-10-13T14:25:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。