論文の概要: AVATAR submission to the Ego4D AV Transcription Challenge
- arxiv url: http://arxiv.org/abs/2211.09966v1
- Date: Fri, 18 Nov 2022 01:03:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 16:04:52.384787
- Title: AVATAR submission to the Ego4D AV Transcription Challenge
- Title(参考訳): AVATARがEgo4D AV転写チャレンジに応募
- Authors: Paul Hongsuck Seo, Arsha Nagrani, Cordelia Schmid
- Abstract要約: 我々のパイプラインはAVATAR(AV-ASRのアーティファクトエンコーダデコーダモデル)に基づいており、スペクトログラムとRGB画像の早期融合を行う。
最終方法は,挑戦テストセットにおいて68.40のWERを達成し,ベースラインを43.7%上回り,挑戦に勝つ。
- 参考スコア(独自算出の注目度): 79.21857972093332
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this report, we describe our submission to the Ego4D AudioVisual (AV)
Speech Transcription Challenge 2022. Our pipeline is based on AVATAR, a state
of the art encoder-decoder model for AV-ASR that performs early fusion of
spectrograms and RGB images. We describe the datasets, experimental settings
and ablations. Our final method achieves a WER of 68.40 on the challenge test
set, outperforming the baseline by 43.7%, and winning the challenge.
- Abstract(参考訳): 本稿では,ego4d audiovisual (av) speech transcription challenge 2022への提案について述べる。
我々のパイプラインはAVATAR(AV-ASRのアートエンコーダデコーダモデル)に基づいており、スペクトル図とRGB画像の早期融合を行う。
本稿では,データセット,実験設定,アブレーションについて述べる。
最終方法は,挑戦テストセットにおいて68.40のWERを達成し,ベースラインを43.7%上回り,挑戦に勝つ。
関連論文リスト
- Technical Report for CVPR 2024 WeatherProof Dataset Challenge: Semantic Segmentation on Paired Real Data [9.128113804878959]
この課題は、世界中の様々な天候によって劣化した画像のセマンティックセグメンテーションを目標とする。
我々は、インターンイメージ(InternImage)という訓練済みの大規模視覚基盤モデルを導入し、異なるレベルのノイズを持つ画像を用いて訓練した。
その結果、45.1mIOUで2位となり、他の優勝者より少なかった。
論文 参考訳(メタデータ) (2024-06-09T17:08:07Z) - NTIRE 2024 Quality Assessment of AI-Generated Content Challenge [141.37864527005226]
課題は、イメージトラックとビデオトラックに分けられる。
両トラックの勝利法はAIGCの予測性能に優れていた。
論文 参考訳(メタデータ) (2024-04-25T15:36:18Z) - NTIRE 2023 Quality Assessment of Video Enhancement Challenge [97.809937484099]
NTIRE 2023 Quality Assessment of Video Enhancement Challengeについて報告する。
課題は、ビデオ処理分野における大きな課題、すなわち、強化されたビデオに対するビデオ品質評価(VQA)に対処することである。
参加者数は167名。
論文 参考訳(メタデータ) (2023-07-19T02:33:42Z) - OxfordVGG Submission to the EGO4D AV Transcription Challenge [81.13727731938582]
本報告では,OxfordVG チームによる EGO4D Audio-Visual (AV) Automatic Speech Recognition Challenge 2023 の提出の技術的詳細について述べる。
本稿では,WhisperXについて述べる。WhisperXは,単語レベルの時間的アライメントを持つ長音の音声の効率的な書き起こしシステムであり,また2つのテキスト正規化器を公開している。
最終提出書では、挑戦テストセットでワードエラー率(WER)の56.2%を獲得し、リーダーボードで1位にランクインした。
論文 参考訳(メタデータ) (2023-07-18T06:48:39Z) - QuAVF: Quality-aware Audio-Visual Fusion for Ego4D Talking to Me
Challenge [35.08570071278399]
本報告では,2023年のEgo4D Talking to Me (TTM) Challengeについて述べる。
入力ビデオと音声を処理するために,2つの別々のモデルを提案する。
単純なアーキテクチャ設計では、テストセットの平均精度(mAP)は67.4%に達する。
論文 参考訳(メタデータ) (2023-06-30T05:14:45Z) - STHG: Spatial-Temporal Heterogeneous Graph Learning for Advanced
Audio-Visual Diarization [3.9886149789339327]
本稿では,Ego4D Challenge 2023の音声・視覚ダイアリゼーションタスクにおけるSTHGという新しい手法を紹介する。
キーとなるイノベーションは、単一の、統一された異種グラフ学習フレームワークを使用して、ビデオ内のすべての話者をモデル化することです。
最終手法はEgo4Dのテストセット上で61.1%のDERを得るが、これは昨年の勝者と同様に全てのベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2023-06-18T17:55:02Z) - Intel Labs at Ego4D Challenge 2022: A Better Baseline for Audio-Visual
Diarization [3.9886149789339327]
本稿では,Ego4D Challenge 2022におけるAVD(Audio-Visual Diarization)の取り組みについて述べる。
我々は、カメラ装着者の音声活動の検出性能を、そのモデルのトレーニングスキームを変更して改善する。
第2に,カメラ装着者の音声活動にのみ適用した場合,オフザシェルフ音声活動検出モデルにより,偽陽性を効果的に除去できることを見出した。
論文 参考訳(メタデータ) (2022-10-14T12:54:03Z) - NTIRE 2022 Challenge on Stereo Image Super-Resolution: Methods and
Results [116.8625268729599]
NTIREの課題は、標準的なバイコビック劣化下でのステレオ画像超解像問題を目的とした1トラックである。
合計238人の参加者が登録され、21チームが最終テストフェーズに出場した。
この課題はステレオ画像SRの新しいベンチマークを確立する。
論文 参考訳(メタデータ) (2022-04-20T02:55:37Z) - NTIRE 2020 Challenge on Real Image Denoising: Dataset, Methods and
Results [181.2861509946241]
本稿は、新たに導入されたデータセットに焦点をあてて、実画像の復調に関するNTIRE 2020の課題をレビューする。
課題は、SIDDベンチマークに基づく実際の画像のデノゲーションに関する以前のNTIRE 2019チャレンジの新バージョンである。
論文 参考訳(メタデータ) (2020-05-08T15:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。