Fugu-MT 論文翻訳(概要): A Synchronized Audio-Visual Multi-View Capture System

論文の概要: A Synchronized Audio-Visual Multi-View Capture System

arxiv url: http://arxiv.org/abs/2603.23089v1
Date: Tue, 24 Mar 2026 11:32:49 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-25 19:53:37.454479
Title: A Synchronized Audio-Visual Multi-View Capture System
Title（参考訳）: シンクロナイズドオーディオ・ビジュアルマルチビューキャプチャシステム
Authors: Xiangwei Shi, Era Dorta Perez, Ruud de Jong, Ojas Shirekar, Chirag Raman,
Abstract要約: 本稿では,同期音声と同期映像を一級信号として扱うマルチビューキャプチャシステムについて述べる。得られた記録は、微粒な分析と会話行動のデータ駆動モデリングをサポートするのに十分な時間的一貫性を持つ。
参考スコア（独自算出の注目度）: 2.6985892552916995
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Multi-view capture systems have been an important tool in research for recording human motion under controlling conditions. Most existing systems are specified around video streams and provide little or no support for audio acquisition and rigorous audio-video alignment, despite both being essential for studying conversational interaction where timing at the level of turn-taking, overlap, and prosody matters. In this technical report, we describe an audio-visual multi-view capture system that addresses this gap by treating synchronized audio and synchronized video as first-class signals. The system combines a multi-camera pipeline with multi-channel microphone recording under a unified timing architecture and provides a practical workflow for calibration, acquisition, and quality control that supports repeatable recordings at scale. We quantify synchronization performance in deployment and show that the resulting recordings are temporally consistent enough to support fine-grained analysis and data-driven modeling of conversation behavior.
Abstract（参考訳）: マルチビューキャプチャシステムは、制御条件下での人間の動きを記録する研究において重要なツールである。既存のシステムの多くはビデオストリームを中心にしており、ターンテイク、オーバーラップ、プロソディのレベルでのタイミングが重要な会話の相互作用を研究するのに欠かせないにも関わらず、オーディオの取得と厳密なオーディオビデオアライメントをほとんど、あるいは全くサポートしていない。本稿では,同期音声と同期映像を一級信号として扱うことで,このギャップに対処する音声・視覚多視点キャプチャシステムについて述べる。このシステムは、マルチカメラパイプラインと、統合されたタイミングアーキテクチャの下でのマルチチャネルマイクロホン記録を組み合わせることで、大規模に反復可能な記録をサポートするキャリブレーション、取得、品質管理のための実践的なワークフローを提供する。我々は,デプロイメントにおける同期性能の定量化と,得られた記録の時間的整合性を示し,詳細な分析と会話行動のデータ駆動モデリングを支援する。

関連論文リスト

Syncphony: Synchronized Audio-to-Video Generation with Diffusion Transformers [19.226787997122987]
380x640の解像度、24fpsのビデオが多様な音声入力と同期するSyncphonyを提案する。提案手法は,事前学習したビデオバックボーン上に構築され,同期性を改善するために2つの重要なコンポーネントが組み込まれている。 AVSync15とThe Greatest Hitsデータセットの実験では、Syncphonyは同期精度と視覚的品質の両方で既存のメソッドよりも優れています。
論文参考訳（メタデータ） (2025-09-26T05:30:06Z)
SkyReels-Audio: Omni Audio-Conditioned Talking Portraits in Video Diffusion Transformers [25.36460340267922]
SkyReels-Audioは高忠実で時間的コヒーレントなポートレート映像を合成するための統一的なフレームワークである。我々のフレームワークは、無限長の生成と編集をサポートし、マルチモーダル入力による多様かつ制御可能な条件付けを可能にする。
論文参考訳（メタデータ） (2025-06-01T04:27:13Z)
Synchronized Video-to-Audio Generation via Mel Quantization-Continuum Decomposition [31.25956665297592]
我々はメルスペクトルを3種類の信号に分解し、量子化や連続性を利用する。開発したV2X(V2X)予測器により,映像から効果的に予測できる。そして、予測信号を再分解して制御ネットに入力し、テキスト反転設計を行い、音声生成プロセスを制御する。
論文参考訳（メタデータ） (2025-03-10T07:04:03Z)
Audio-Visual Talker Localization in Video for Spatial Sound Reproduction [3.2472293599354596]
本研究では,ビデオ中のアクティブ話者を検出し,検出する。互いに補完する2つのモダリティの役割を見出した。今後の調査では、ノイズの多い高残響環境下でのモデルの堅牢性を評価する予定である。
論文参考訳（メタデータ） (2024-06-01T16:47:07Z)
Synchformer: Efficient Synchronization from Sparse Cues [100.89656994681934]
コントリビューションには、新しい音声-視覚同期モデル、同期モデルからの抽出を分離するトレーニングが含まれる。このアプローチは、濃密な設定とスパース設定の両方において最先端の性能を実現する。また,100万スケールの 'in-the-wild' データセットに同期モデルのトレーニングを拡張し,解釈可能性に対するエビデンス属性技術を調査し,同期モデルの新たな機能であるオーディオ-視覚同期性について検討する。
論文参考訳（メタデータ） (2024-01-29T18:59:55Z)
Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities [67.89368528234394]
マルチモーダル学習の主な課題の1つは、異質なモダリティを組み合わせる必要があることである。ビデオとオーディオはテキストよりもはるかに高いレートで取得され、ほぼ時間内に整列される。我々の手法は、確立されたマルチモーダルベンチマークの最先端性を達成し、はるかに大きなモデルより優れている。
論文参考訳（メタデータ） (2023-11-09T19:15:12Z)
STELLA: Continual Audio-Video Pre-training with Spatio-Temporal Localized Alignment [61.83340833859382]
様々な音声・ビデオの意味を時間とともに継続的に学習することは、音声関連推論タスクに不可欠である。これは非時間的問題であり、オーディオとビデオのペア間のスパース時間相関と、オーディオとビデオの関係を忘れるマルチモーダル相関オーバーライトという2つの重要な課題を提起する。本稿では,2つの新しいアイデアを取り入れた連続的なオーディオビデオ事前学習手法を提案する。
論文参考訳（メタデータ） (2023-10-12T10:50:21Z)
Sparse in Space and Time: Audio-visual Synchronisation with Trainable Selectors [103.21152156339484]
本研究の目的は,一般映像の「野生」音声・視覚同期である。我々は4つのコントリビューションを行う: (i) スパース同期信号に必要な長時間の時間的シーケンスを処理するために、'セレクタ'を利用するマルチモーダルトランスモデルを設計する。音声やビデオに使用される圧縮コーデックから生じるアーティファクトを識別し、トレーニングにおいてオーディオ視覚モデルを用いて、同期タスクを人工的に解くことができる。
論文参考訳（メタデータ） (2022-10-13T14:25:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。