論文の概要: Detection of Audio-Video Synchronization Errors Via Event Detection
- arxiv url: http://arxiv.org/abs/2104.10116v1
- Date: Tue, 20 Apr 2021 16:54:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-21 13:27:09.947479
- Title: Detection of Audio-Video Synchronization Errors Via Event Detection
- Title(参考訳): イベント検出によるオーディオビデオ同期誤差の検出
- Authors: Joshua P. Ebenezer, Yongjun Wu, Hai Wei, Sriram Sethuraman, Zongyi Liu
- Abstract要約: テニスビデオにおける音声同期(A/V同期)エラーを検出するための新しい手法と大規模データベースを提案する。
深いネットワークはビデオ ストリームのラケットによって打たれるテニス ボールの視覚署名を検出するために訓練されます。
別のディープネットワークは、オーディオストリーム内の同じイベントの聴覚シグネチャを検出するように訓練されている。
- 参考スコア(独自算出の注目度): 0.43748379918040853
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present a new method and a large-scale database to detect audio-video
synchronization(A/V sync) errors in tennis videos. A deep network is trained to
detect the visual signature of the tennis ball being hit by the racquet in the
video stream. Another deep network is trained to detect the auditory signature
of the same event in the audio stream. During evaluation, the audio stream is
searched by the audio network for the audio event of the ball being hit. If the
event is found in audio, the neighboring interval in video is searched for the
corresponding visual signature. If the event is not found in the video stream
but is found in the audio stream, A/V sync error is flagged. We developed a
large-scaled database of 504,300 frames from 6 hours of videos of tennis
events, simulated A/V sync errors, and found our method achieves high accuracy
on the task.
- Abstract(参考訳): テニスビデオにおける音声同期(A/V同期)エラーを検出するための新しい手法と大規模データベースを提案する。
深層ネットワークは、ビデオストリームのラケットに打たれたテニスボールの視覚的シグネチャを検出するために訓練される。
別のディープネットワークは、オーディオストリーム内の同じイベントの聴覚シグネチャを検出するように訓練されている。
評価中、打たれた球の音響イベントに対して、オーディオストリームをオーディオネットワークで検索する。
音声中にイベントが見つかった場合、ビデオ中の隣り合う間隔を対応する視覚シグネチャに検索する。
イベントがビデオストリームで見つからないがオーディオストリームで見つからない場合、A/V同期エラーがフラグ付けされる。
テニスイベントの6時間映像から504,300フレームの大規模データベースを作成し,a/v同期誤差をシミュレーションし,高い精度を実現した。
関連論文リスト
- Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - Dense-Localizing Audio-Visual Events in Untrimmed Videos: A Large-Scale
Benchmark and Baseline [53.07236039168652]
本研究では,未編集映像に発生するすべての音声視覚イベントを共同でローカライズし,認識することを目的とした,濃密な局所化音声視覚イベントの課題に焦点をあてる。
このデータセットには、30万以上のオーディオ・ヴィジュアル・イベントを含む10万本のビデオが含まれている。
次に,様々な長さの音声視覚イベントをローカライズし,それら間の依存関係をひとつのパスでキャプチャする,学習ベースの新しいフレームワークを用いてタスクを定式化する。
論文 参考訳(メタデータ) (2023-03-22T22:00:17Z) - Self-Supervised Video Forensics by Audio-Visual Anomaly Detection [19.842795378751923]
操作されたビデオには、視覚信号と音声信号の間に微妙な矛盾があることが多い。
本稿では,これらの不整合を識別できる異常検出に基づくビデオ法医学手法を提案する。
ビデオフレームと音声の時間同期をキャプチャする特徴セットを用いて、自動回帰モデルを訓練し、音声・視覚的特徴のシーケンスを生成する。
論文 参考訳(メタデータ) (2023-01-04T18:59:49Z) - Rethinking Audio-visual Synchronization for Active Speaker Detection [62.95962896690992]
アクティブ話者検出(ASD)に関する既存の研究は、アクティブ話者の定義に一致しない。
本稿では,アテンションモジュールに位置符号化を適用し,教師付きASDモデルに適用し,同期キューを活用することを提案する。
実験結果から,既存モデルの制限に対処して,非同期音声を発話しないものとして検出できることが示唆された。
論文 参考訳(メタデータ) (2022-06-21T14:19:06Z) - Investigating Modality Bias in Audio Visual Video Parsing [31.83076679253096]
本稿では,時間的境界を持つ音声・視覚イベントラベルを検出するAVVP問題に焦点をあてる。
AVVPの既存の最先端モデルでは、ハイブリットアテンションネットワーク(HAN)を使用して、オーディオと視覚の両モードのクロスモーダルな特徴を生成する。
セグメントレベルとイベントレベルでの視覚的および音声視覚的イベントに対して,Fスコアが約2%と1.6%の絶対的な増加をもたらすHANの特徴集約の変種を提案する。
論文 参考訳(メタデータ) (2022-03-31T07:43:01Z) - Audio-Visual Synchronisation in the wild [149.84890978170174]
我々は,VGG-Sound Syncという,高い音声・視覚相関を持つテストセットを同定し,キュレートする。
任意の長さの音響信号と視覚信号のモデル化に特化して設計された,トランスフォーマーに基づく多数のアーキテクチャ変種を比較した。
我々は,新しいVGG-Sound Syncビデオデータセットにおいて,160以上の多様なクラスと一般的な音声-視覚同期のための最初のベンチマークを設定した。
論文 参考訳(メタデータ) (2021-12-08T17:50:26Z) - Audio-visual Representation Learning for Anomaly Events Detection in
Crowds [119.72951028190586]
本稿では,音声と視覚信号の同時モデリングにおけるマルチモーダル学習の活用を試みる。
監視シーンにおける合成音声視覚データセットであるSHADEデータセットについて実験を行った。
音声信号の導入は,異常事象の検出性能を効果的に向上し,他の最先端手法よりも優れることがわかった。
論文 参考訳(メタデータ) (2021-10-28T02:42:48Z) - Multi-level Attention Fusion Network for Audio-visual Event Recognition [6.767885381740951]
イベント分類は本質的にシーケンシャルでマルチモーダルである。
ディープニューラルモデルは、ビデオの最も関連性の高い時間ウィンドウと/またはモダリティに動的に集中する必要がある。
イベント認識のための視覚情報と音声情報を動的に融合するアーキテクチャであるマルチレベル注意融合ネットワーク(MAFnet)を提案する。
論文 参考訳(メタデータ) (2021-06-12T10:24:52Z) - Half-Truth: A Partially Fake Audio Detection Dataset [60.08010668752466]
本稿では半真性音声検出(HAD)のためのデータセットを開発する。
HADデータセットの部分的に偽の音声は、発話中の数単語だけを変更する。
我々は、偽のユトランを検知するだけでなく、このデータセットを用いて音声中の操作された領域をローカライズする。
論文 参考訳(メタデータ) (2021-04-08T08:57:13Z) - Event detection in coarsely annotated sports videos via parallel multi
receptive field 1D convolutions [14.30009544149561]
スポーツビデオ分析のような問題では、正確なフレームレベルのアノテーションと正確なイベント時間を得るのは難しい。
粗い注釈付きビデオにおけるイベント検出の課題を提案する。
本稿では,提案課題に対する多層時間畳み込みネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-04-13T19:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。