論文の概要: Intel Labs at Ego4D Challenge 2022: A Better Baseline for Audio-Visual
Diarization
- arxiv url: http://arxiv.org/abs/2210.07764v3
- Date: Sun, 29 Oct 2023 19:22:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 23:39:15.258713
- Title: Intel Labs at Ego4D Challenge 2022: A Better Baseline for Audio-Visual
Diarization
- Title(参考訳): intel labsのego4d challenge 2022 - オーディオとビジュアルのダイアリゼーションのためのベースラインの改善
- Authors: Kyle Min
- Abstract要約: 本稿では,Ego4D Challenge 2022におけるAVD(Audio-Visual Diarization)の取り組みについて述べる。
我々は、カメラ装着者の音声活動の検出性能を、そのモデルのトレーニングスキームを変更して改善する。
第2に,カメラ装着者の音声活動にのみ適用した場合,オフザシェルフ音声活動検出モデルにより,偽陽性を効果的に除去できることを見出した。
- 参考スコア(独自算出の注目度): 3.9886149789339327
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This report describes our approach for the Audio-Visual Diarization (AVD)
task of the Ego4D Challenge 2022. Specifically, we present multiple technical
improvements over the official baselines. First, we improve the detection
performance of the camera wearer's voice activity by modifying the training
scheme of its model. Second, we discover that an off-the-shelf voice activity
detection model can effectively remove false positives when it is applied
solely to the camera wearer's voice activities. Lastly, we show that better
active speaker detection leads to a better AVD outcome. Our final method
obtains 65.9% DER on the test set of Ego4D, which significantly outperforms all
the baselines. Our submission achieved 1st place in the Ego4D Challenge 2022.
- Abstract(参考訳): 本稿では,Ego4D Challenge 2022におけるAVD(Audio-Visual Diarization)の取り組みについて述べる。
具体的には、公式のベースラインに対して複数の技術的改善を加えます。
まず,モデルの学習方式を変更することにより,カメラ装着者の音声活動の検出性能を向上させる。
第2に,カメラ装着者の音声活動にのみ適用した場合,オフザシェルフ音声活動検出モデルにより,偽陽性を効果的に除去できることを見出した。
最後に、よりアクティブな話者検出が、より優れたAVD結果をもたらすことを示す。
最終手法はEgo4Dのテストセットの65.9%のDERを取得し,全てのベースラインを著しく上回る結果となった。
Ego4D Challenge 2022で1位を獲得した。
関連論文リスト
- QuAVF: Quality-aware Audio-Visual Fusion for Ego4D Talking to Me
Challenge [35.08570071278399]
本報告では,2023年のEgo4D Talking to Me (TTM) Challengeについて述べる。
入力ビデオと音声を処理するために,2つの別々のモデルを提案する。
単純なアーキテクチャ設計では、テストセットの平均精度(mAP)は67.4%に達する。
論文 参考訳(メタデータ) (2023-06-30T05:14:45Z) - STHG: Spatial-Temporal Heterogeneous Graph Learning for Advanced
Audio-Visual Diarization [3.9886149789339327]
本稿では,Ego4D Challenge 2023の音声・視覚ダイアリゼーションタスクにおけるSTHGという新しい手法を紹介する。
キーとなるイノベーションは、単一の、統一された異種グラフ学習フレームワークを使用して、ビデオ内のすべての話者をモデル化することです。
最終手法はEgo4Dのテストセット上で61.1%のDERを得るが、これは昨年の勝者と同様に全てのベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2023-06-18T17:55:02Z) - AVATAR submission to the Ego4D AV Transcription Challenge [79.21857972093332]
我々のパイプラインはAVATAR(AV-ASRのアーティファクトエンコーダデコーダモデル)に基づいており、スペクトログラムとRGB画像の早期融合を行う。
最終方法は,挑戦テストセットにおいて68.40のWERを達成し,ベースラインを43.7%上回り,挑戦に勝つ。
論文 参考訳(メタデータ) (2022-11-18T01:03:30Z) - InternVideo-Ego4D: A Pack of Champion Solutions to Ego4D Challenges [66.62885923201543]
Ego4D Challengeで5トラックにチャンピオンソリューションを提示します。
ビデオファンデーションモデルであるInternVideoを5つのEgo4Dタスクに活用しています。
InternVideo-Ego4Dは、強力な基盤モデルを下流のエゴ中心のビデオ理解タスクに適用するための効果的なパラダイムである。
論文 参考訳(メタデータ) (2022-11-17T13:45:06Z) - Contrastive Audio-Visual Masked Autoencoder [85.53776628515561]
CAV-MAE(Contrastive Audio-Visual Masked Auto-Encoder)
我々の完全自己指導型CAV-MAEは、VGGSoundで65.9%の新しいSOTA精度を実現する。
論文 参考訳(メタデータ) (2022-10-02T07:29:57Z) - UniCon+: ICTCAS-UCAS Submission to the AVA-ActiveSpeaker Task at
ActivityNet Challenge 2022 [69.67841335302576]
本稿では,アクティベーションネットチャレンジ2022におけるAVAアクティブ話者検出(ASD)課題に対する,我々の勝利ソリューションの簡潔な説明を行う。
基盤となるモデルであるUniCon+は、以前の作業であるUnified Context Network(UniCon)とExtended UniConの上に構築され続けています。
アーキテクチャをシンプルなGRUベースのモジュールで拡張し、繰り返し発生するアイデンティティの情報がシーンを流れるようにします。
論文 参考訳(メタデータ) (2022-06-22T06:11:07Z) - Learning Lip-Based Audio-Visual Speaker Embeddings with AV-HuBERT [37.343431783936126]
本稿では,音声-視覚的話者表現学習のための自己教師付き事前学習について検討する。
音声を入力として、話者の口面積を示す視覚ストリームを使用する。
我々は,事前学習の有効性と視覚的モダリティを検証した広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-05-15T04:48:41Z) - MERLOT Reserve: Neural Script Knowledge through Vision and Language and
Sound [90.1857707251566]
MERLOT Reserveは、時間とともに動画を共同で表現するモデルである。
我々は、テキストとオーディオのスニペットをMASKトークンに置き換え、正しいマスクアウトスニペットを選択して学習する。
私たちの目標は代替手段よりも早く学習し、大規模に機能します。
論文 参考訳(メタデータ) (2022-01-07T19:00:21Z) - Robust Self-Supervised Audio-Visual Speech Recognition [29.526786921769613]
本稿では,Audio-Visual HuBERT(AV-HuBERT)に基づく自己教師型音声視覚音声認識フレームワークを提案する。
利用可能な最大のAVSRベンチマークデータセットであるLSS3では、ラベル付きデータの10%未満を使用して、従来の最先端(28.0%対14.1%)よりも50%優れています。
我々のアプローチは、平均して75%以上(25.8%対5.8%)のオーディオベースモデルのWERを削減する。
論文 参考訳(メタデータ) (2022-01-05T18:50:50Z) - Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio
Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。
我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。
探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文 参考訳(メタデータ) (2020-05-18T10:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。