論文の概要: UniCon+: ICTCAS-UCAS Submission to the AVA-ActiveSpeaker Task at
ActivityNet Challenge 2022
- arxiv url: http://arxiv.org/abs/2206.10861v1
- Date: Wed, 22 Jun 2022 06:11:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-23 16:14:27.497124
- Title: UniCon+: ICTCAS-UCAS Submission to the AVA-ActiveSpeaker Task at
ActivityNet Challenge 2022
- Title(参考訳): UniCon+:ICTCAS-UCAS Submission to the AVA-ActiveSpeaker Task at ActivityNet Challenge 2022
- Authors: Yuanhang Zhang, Susan Liang, Shuang Yang, Shiguang Shan
- Abstract要約: 本稿では,アクティベーションネットチャレンジ2022におけるAVAアクティブ話者検出(ASD)課題に対する,我々の勝利ソリューションの簡潔な説明を行う。
基盤となるモデルであるUniCon+は、以前の作業であるUnified Context Network(UniCon)とExtended UniConの上に構築され続けています。
アーキテクチャをシンプルなGRUベースのモジュールで拡張し、繰り返し発生するアイデンティティの情報がシーンを流れるようにします。
- 参考スコア(独自算出の注目度): 69.67841335302576
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This report presents a brief description of our winning solution to the AVA
Active Speaker Detection (ASD) task at ActivityNet Challenge 2022. Our
underlying model UniCon+ continues to build on our previous work, the Unified
Context Network (UniCon) and Extended UniCon which are designed for robust
scene-level ASD. We augment the architecture with a simple GRU-based module
that allows information of recurring identities to flow across scenes through
read and update operations. We report a best result of 94.47% mAP on the
AVA-ActiveSpeaker test set, which continues to rank first on this year's
challenge leaderboard and significantly pushes the state-of-the-art.
- Abstract(参考訳): 本稿では,アクティベーションネットチャレンジ2022におけるAVAアクティブ話者検出(ASD)課題に対する,我々の勝利ソリューションの簡潔な説明を行う。
当社の基盤となるモデルであるUniCon+は、堅牢なシーンレベルのASD用に設計されたUnified Context Network(UniCon)とExtended UniConという、これまでの作業に基づいて構築を続けています。
アーキテクチャを単純なGRUベースのモジュールで拡張し、読み取りおよび更新操作を通じて繰り返しアイデンティティの情報がシーンを流れるようにする。
ava-activespeaker テストセットの 94.47% の最高の結果が報告されている。
関連論文リスト
- Harnessing Temporal Causality for Advanced Temporal Action Detection [53.654457142657236]
本稿では,因果的注意と因果的マンバを組み合わせたCausalTADを提案する。
Ego4D Challenge 2024では,EPIC-Kitchens Challenge 2024では行動認識,行動検出,音声によるインタラクション検出トラックで1位,Ego4D Challenge 2024ではMoment Queriesトラックで1位にランクインした。
論文 参考訳(メタデータ) (2024-07-25T06:03:02Z) - Towards Attention-based Contrastive Learning for Audio Spoof Detection [3.08086566663567]
視覚変換器 (ViT) はコンピュータビジョンにおける分類タスクに大きく進歩している。
音声スプーフ検出タスクにViTを導入する。
本稿では,クロスアテンションを用いて表現学習を支援する新しい注目型コントラスト学習フレームワーク(SSAST-CL)を提案する。
論文 参考訳(メタデータ) (2024-07-03T21:25:12Z) - Perception Test 2023: A Summary of the First Challenge And Outcome [67.0525378209708]
最初のパーセプションテストは、IEEE/CVF International Conference on Computer Vision (ICCV) 2023と共に半日間のワークショップとして開催された。
目標は、最近提案されたPerception Testベンチマークで最先端のビデオモデルをベンチマークすることであった。
このレポートでは、タスク記述、メトリクス、ベースライン、結果について要約しています。
論文 参考訳(メタデータ) (2023-12-20T15:12:27Z) - TalkNCE: Improving Active Speaker Detection with Talk-Aware Contrastive
Learning [15.673602262069531]
アクティブ話者検出(英: Active Speaker Detection、ASD)とは、ある人が話しているか否かを一連のビデオフレームで判断するタスクである。
提案するTalkNCEは,新しい会話認識型コントラスト損失である。
提案手法は, AVA-ActiveSpeaker および ASW データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-09-21T17:59:11Z) - A Study on the Integration of Pipeline and E2E SLU systems for Spoken
Semantic Parsing toward STOP Quality Challenge [33.89616011003973]
本稿では,音声言語理解グランドチャレンジにおける品質トラック(トラック1)のための音声意味解析システムについて述べる。
Whisperのような強自動音声認識(ASR)モデルとBARTのような事前訓練言語モデル(LM)は、我々のSLUフレームワーク内で利用され、性能が向上する。
また,各モデルの出力レベルの組み合わせについて,精度80.8の精度で検討し,第1位を獲得した。
論文 参考訳(メタデータ) (2023-05-02T17:25:19Z) - Robust, General, and Low Complexity Acoustic Scene Classification
Systems and An Effective Visualization for Presenting a Sound Scene Context [53.80051967863102]
音響シーン分類(ASC)の包括的解析について述べる。
ASCベースラインと呼ばれる,創発的かつ低フットプリントのASCモデルを提案する。
次に、新しいディープニューラルネットワークアーキテクチャを提案することにより、ASCベースラインを改善する。
論文 参考訳(メタデータ) (2022-10-16T19:07:21Z) - Tongji University Undergraduate Team for the VoxCeleb Speaker
Recognition Challenge2020 [10.836635938778684]
RSBU-CW モジュールを ResNet34 フレームワークに適用し,ネットワークの認知能力を向上させる。
我々は,モデルの性能向上のために,ResNetの2つの変種であるスコア融合とデータ拡張法を訓練した。
論文 参考訳(メタデータ) (2020-10-20T09:25:40Z) - 1st place solution for AVA-Kinetics Crossover in AcitivityNet Challenge
2020 [43.81722332148899]
本報告では,ActivityNet Challenge 2020において,行動時間的ローカライゼーショントラックであるAVA-Kineticsの勝利について紹介する。
新しいAVA-Kineticsデータセットの技術詳細と実験結果について述べる。
AVA-キネティクスの試験セットで39.62 mAPを達成したが、これは他の項目よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2020-06-16T12:52:59Z) - Active Speakers in Context [88.22935329360618]
能動話者検出のための現在の手法は、単一話者からの短期音声視覚情報をモデル化することに焦点を当てている。
本稿では,複数話者間の関係を長期にわたってモデル化する新しい表現であるActive Speaker Contextを紹介する。
実験の結果,構造的特徴アンサンブルはすでにアクティブな話者検出性能の恩恵を受けていることがわかった。
論文 参考訳(メタデータ) (2020-05-20T01:14:23Z) - Multi-task self-supervised learning for Robust Speech Recognition [75.11748484288229]
本稿では,雑音および残響環境下での頑健な音声認識のためのPASE+を提案する。
我々は、様々なランダムな乱れで入力信号を汚染するオンライン音声歪みモジュールを用いる。
次に,再帰型ネットワークと畳み込み型ネットワークを効率よく組み合わせて,短時間および長期の音声力学をよりよく学習する改良型エンコーダを提案する。
論文 参考訳(メタデータ) (2020-01-25T00:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。