論文の概要: STHG: Spatial-Temporal Heterogeneous Graph Learning for Advanced
Audio-Visual Diarization
- arxiv url: http://arxiv.org/abs/2306.10608v2
- Date: Thu, 10 Aug 2023 17:17:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-11 15:35:05.578433
- Title: STHG: Spatial-Temporal Heterogeneous Graph Learning for Advanced
Audio-Visual Diarization
- Title(参考訳): STHG:空間時間不均一グラフ学習による高度なオーディオ・ビジュアルダイアリゼーション
- Authors: Kyle Min
- Abstract要約: 本稿では,Ego4D Challenge 2023の音声・視覚ダイアリゼーションタスクにおけるSTHGという新しい手法を紹介する。
キーとなるイノベーションは、単一の、統一された異種グラフ学習フレームワークを使用して、ビデオ内のすべての話者をモデル化することです。
最終手法はEgo4Dのテストセット上で61.1%のDERを得るが、これは昨年の勝者と同様に全てのベースラインを著しく上回っている。
- 参考スコア(独自算出の注目度): 5.837881923712393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This report introduces our novel method named STHG for the Audio-Visual
Diarization task of the Ego4D Challenge 2023. Our key innovation is that we
model all the speakers in a video using a single, unified heterogeneous graph
learning framework. Unlike previous approaches that require a separate
component solely for the camera wearer, STHG can jointly detect the speech
activities of all people including the camera wearer. Our final method obtains
61.1% DER on the test set of Ego4D, which significantly outperforms all the
baselines as well as last year's winner. Our submission achieved 1st place in
the Ego4D Challenge 2023. We additionally demonstrate that applying the
off-the-shelf speech recognition system to the diarized speech segments by STHG
produces a competitive performance on the Speech Transcription task of this
challenge.
- Abstract(参考訳): 本稿では,Ego4D Challenge 2023の音声・視覚ダイアリゼーションタスクにおけるSTHGという新しい手法を紹介する。
キーとなるイノベーションは、単一の一元的なグラフ学習フレームワークを使用して、ビデオ内のすべての話者をモデル化することです。
カメラ装着者のみに独立したコンポーネントを必要とする従来のアプローチとは異なり、STHGはカメラ装着者を含む全ての人の音声活動を共同で検出することができる。
最終手法はEgo4Dのテストセット上で61.1%のDERを得るが、これは昨年の勝者と同様に全てのベースラインを著しく上回っている。
Ego4D Challenge 2023で1位を獲得した。
また,本課題では,sthgによるダイアリゼーション音声セグメントに市販音声認識システムを適用することで,音声認識課題における競合性能が向上することを示す。
関連論文リスト
- Speech Foundation Model Ensembles for the Controlled Singing Voice Deepfake Detection (CtrSVDD) Challenge 2024 [8.940008511570207]
本研究は,1.79%のプールド等誤り率(EER)で先行システムを実現するための我々のアプローチを詳述する。
生成AIモデルの急速な進歩は、AIが生成するディープフェイクの歌声を検出する上で重要な課題である。
Singing Voice Deepfake Detection (SVDD) Challenge 2024は、この複雑な課題に対処することを目的としている。
論文 参考訳(メタデータ) (2024-09-03T21:28:45Z) - Audio-visual End-to-end Multi-channel Speech Separation, Dereverberation
and Recognition [52.11964238935099]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
ビデオ入力は、マスクベースのMVDR音声分離、DNN-WPEまたはスペクトルマッピング(SpecM)ベースの音声残響フロントエンドで一貫して実証される。
オックスフォードLSS2データセットのシミュレーションや再生を用いて合成した重畳および残響音声データについて実験を行った。
論文 参考訳(メタデータ) (2023-07-06T10:50:46Z) - A Study on the Integration of Pipeline and E2E SLU systems for Spoken
Semantic Parsing toward STOP Quality Challenge [33.89616011003973]
本稿では,音声言語理解グランドチャレンジにおける品質トラック(トラック1)のための音声意味解析システムについて述べる。
Whisperのような強自動音声認識(ASR)モデルとBARTのような事前訓練言語モデル(LM)は、我々のSLUフレームワーク内で利用され、性能が向上する。
また,各モデルの出力レベルの組み合わせについて,精度80.8の精度で検討し,第1位を獲得した。
論文 参考訳(メタデータ) (2023-05-02T17:25:19Z) - ReVISE: Self-Supervised Speech Resynthesis with Visual Input for
Universal and Generalized Speech Enhancement [40.29155338515071]
ReVISEは、Wildビデオ音声合成のための最初の高品質なモデルである。
単一のモデルで全てのLRS3オーディオ視覚強調タスクにおいて優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-21T21:36:52Z) - AVATAR submission to the Ego4D AV Transcription Challenge [79.21857972093332]
我々のパイプラインはAVATAR(AV-ASRのアーティファクトエンコーダデコーダモデル)に基づいており、スペクトログラムとRGB画像の早期融合を行う。
最終方法は,挑戦テストセットにおいて68.40のWERを達成し,ベースラインを43.7%上回り,挑戦に勝つ。
論文 参考訳(メタデータ) (2022-11-18T01:03:30Z) - Intel Labs at Ego4D Challenge 2022: A Better Baseline for Audio-Visual
Diarization [3.9886149789339327]
本稿では,Ego4D Challenge 2022におけるAVD(Audio-Visual Diarization)の取り組みについて述べる。
我々は、カメラ装着者の音声活動の検出性能を、そのモデルのトレーニングスキームを変更して改善する。
第2に,カメラ装着者の音声活動にのみ適用した場合,オフザシェルフ音声活動検出モデルにより,偽陽性を効果的に除去できることを見出した。
論文 参考訳(メタデータ) (2022-10-14T12:54:03Z) - AVATAR: Unconstrained Audiovisual Speech Recognition [75.17253531162608]
本稿では,ASR TrAnsformeR (AVATAR) を用いて,スペクトルとフルフレームRGBからエンドツーエンドにトレーニングした新しいシーケンス・ツー・シーケンスASR TrAnsformeRを提案する。
本稿では,ハウ2 AV-ASR ベンチマークにおける視覚的モダリティの寄与を,特にシミュレートノイズの存在下で実証する。
また、我々はAV-ASRのための新しい実世界テストベッドVisSpeechを作成し、挑戦的な音声条件下での視覚的モダリティの寄与を実証した。
論文 参考訳(メタデータ) (2022-06-15T17:33:19Z) - Recent Progress in the CUHK Dysarthric Speech Recognition System [66.69024814159447]
障害音声は、現在のデータ集約型ディープニューラルネットワーク(DNN)に基づく自動音声認識技術に対して、幅広い課題を提示している。
本稿では,香港の中国大学における音声認識システムの性能向上に向けた最近の研究成果について述べる。
論文 参考訳(メタデータ) (2022-01-15T13:02:40Z) - MERLOT Reserve: Neural Script Knowledge through Vision and Language and
Sound [90.1857707251566]
MERLOT Reserveは、時間とともに動画を共同で表現するモデルである。
我々は、テキストとオーディオのスニペットをMASKトークンに置き換え、正しいマスクアウトスニペットを選択して学習する。
私たちの目標は代替手段よりも早く学習し、大規模に機能します。
論文 参考訳(メタデータ) (2022-01-07T19:00:21Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z) - Conformer-Based Self-Supervised Learning for Non-Speech Audio Tasks [20.316239155843963]
本稿では,音声表現学習手法を提案し,それを下流の音声非音声タスクに適用する。
AudioSetベンチマークでは、平均平均精度(mAP)スコアが0.415に達しています。
論文 参考訳(メタデータ) (2021-10-14T12:32:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。