論文の概要: AudioInceptionNeXt: TCL AI LAB Submission to EPIC-SOUND
Audio-Based-Interaction-Recognition Challenge 2023
- arxiv url: http://arxiv.org/abs/2307.07265v1
- Date: Fri, 14 Jul 2023 10:39:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-17 14:24:28.849608
- Title: AudioInceptionNeXt: TCL AI LAB Submission to EPIC-SOUND
Audio-Based-Interaction-Recognition Challenge 2023
- Title(参考訳): AudioInceptionNeXt: TCL AI LAB Submission to EPIC-SOUND Audio-Based-Interaction-Recognition Challenge 2023
- Authors: Kin Wai Lau, Yasar Abbas Ur Rehman, Yuyang Xie, Lan Ma
- Abstract要約: 本稿では,2023年のEpic-Kitchen EPIC-SOUNDS Audio-Based Interaction Recognition Challengeへの参加について述べる。
課題は、音声サンプルから対応するアクションラベルへのマッピングを学習することである。
我々のアプローチは、挑戦テストセットで55.43%の正確さを達成し、公衆のリーダーボードで1位にランクインした。
- 参考スコア(独自算出の注目度): 5.0169092839789275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This report presents the technical details of our submission to the 2023
Epic-Kitchen EPIC-SOUNDS Audio-Based Interaction Recognition Challenge. The
task is to learn the mapping from audio samples to their corresponding action
labels. To achieve this goal, we propose a simple yet effective single-stream
CNN-based architecture called AudioInceptionNeXt that operates on the
time-frequency log-mel-spectrogram of the audio samples. Motivated by the
design of the InceptionNeXt, we propose parallel multi-scale depthwise
separable convolutional kernels in the AudioInceptionNeXt block, which enable
the model to learn the time and frequency information more effectively. The
large-scale separable kernels capture the long duration of activities and the
global frequency semantic information, while the small-scale separable kernels
capture the short duration of activities and local details of frequency
information. Our approach achieved 55.43% of top-1 accuracy on the challenge
test set, ranked as 1st on the public leaderboard. Codes are available
anonymously at https://github.com/StevenLauHKHK/AudioInceptionNeXt.git.
- Abstract(参考訳): 本稿では,2023年のEpic-Kitchen EPIC-SOUNDS Audio-Based Interaction Recognition Challengeへの参加について述べる。
課題は、音声サンプルから対応するアクションラベルへのマッピングを学習することである。
この目的を達成するために,音声サンプルの時間周波数ログメルスペクトログラムで動作する,単純かつ効果的な単一ストリームcnnベースのアーキテクチャであるaudioinceptionnextを提案する。
インセプションnextの設計に動機づけられ、モデルが時間と周波数情報をより効果的に学習できるオーディオインセプションnextブロックにおいて、マルチスケールの深さ方向分離可能な畳み込みカーネルを提案する。
大規模セパラブルカーネルは活動の長い期間とグローバル周波数の意味情報を捉え、小規模セパラブルカーネルは活動の短い期間と周波数情報の局所的な詳細を捉えている。
我々のアプローチは、チャレンジテストセットにおけるtop-1の精度の55.43%を達成し、公開リーダーボードで1位にランクされた。
コードはhttps://github.com/StevenLauHKK/AudioInceptionNeXt.gitで匿名で公開されている。
関連論文リスト
- Neurobench: DCASE 2020 Acoustic Scene Classification benchmark on XyloAudio 2 [0.06752396542927405]
XyloAudioは超低消費電力オーディオ推論チップのシリーズだ。
リアルタイムエネルギー制約シナリオにおける音声の内・近マイクロホン解析のために設計されている。
論文 参考訳(メタデータ) (2024-10-31T09:48:12Z) - DOA-Aware Audio-Visual Self-Supervised Learning for Sound Event Localization and Detection [16.92604848450722]
本稿では,第1次アンビソニクス(FOA)マイクロホンで捉えた空間的音声記録のための音事象定位・検出(SELD)について述べる。
本稿では,ディープニューラルネットワーク(DNN)の特徴抽出部分を自己教師型で事前学習する手法を提案する。
論文 参考訳(メタデータ) (2024-10-30T08:31:58Z) - Progressive Confident Masking Attention Network for Audio-Visual Segmentation [8.591836399688052]
Audio-Visualとして知られる課題が出現し、シーン内のオブジェクトを音化するためのセグメンテーションマップを作成することを目的としている。
PMCANet(Progressive Confident Masking Attention Network)を紹介する。
注意機構を利用して、音声信号と視覚フレームの本質的な相関を明らかにする。
論文 参考訳(メタデータ) (2024-06-04T14:21:41Z) - TIM: A Time Interval Machine for Audio-Visual Action Recognition [64.24297230981168]
音声と視覚イベントの時間的範囲を明示的にモデル化することで、長いビデオにおける2つのモード間の相互作用に対処する。
本稿では,TIM (Time Interval Machine) を提案する。
我々は、EPIC-KITCHENS、Perception Test、AVEの3つの長い音声視覚ビデオデータセットでTIMをテストする。
論文 参考訳(メタデータ) (2024-04-08T14:30:42Z) - Large-scale unsupervised audio pre-training for video-to-speech
synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。
本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。
次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文 参考訳(メタデータ) (2023-06-27T13:31:33Z) - Epic-Sounds: A Large-scale Dataset of Actions That Sound [64.24297230981168]
Epic-Soundsは、時間範囲とクラスラベルをキャプチャする大規模なオーディオアノテーションデータセットである。
我々は、これらの自由形式の音声記述をクラスにまとめることで、純粋に音声と区別できる行動を特定する。
全体として、Epic-Soundsには78.4kの分類された音声イベントとアクションのセグメントがあり、44のクラスにまたがって配布され、39.2kの非分類セグメントが含まれている。
論文 参考訳(メタデータ) (2023-02-01T18:19:37Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - SVTS: Scalable Video-to-Speech Synthesis [105.29009019733803]
本稿では,ビデオ・トゥ・スペクトログラム予測器と事前学習したニューラルボコーダの2つのコンポーネントからなるスケーラブルなビデオ音声合成フレームワークを提案する。
私たちは、挑戦的なLSS3データセットで不可解な結果を示す最初の人です。
論文 参考訳(メタデータ) (2022-05-04T13:34:07Z) - A Multi-View Approach To Audio-Visual Speaker Verification [38.9710777250597]
本研究では,音声視覚による話者検証手法について検討する。
voxceleb1データセットの最低av等しいエラーレート(eer)は0.7%である。
この新しいアプローチは、クロスモーダル検証の困難なテスト条件において、voxceleb1のeerを28%達成する。
論文 参考訳(メタデータ) (2021-02-11T22:29:25Z) - VGGSound: A Large-scale Audio-Visual Dataset [160.1604237188594]
オープンソースのメディアからオーディオデータセットを作成するために,スケーラブルなパイプラインを提案する。
このパイプラインを使用して、VGGSoundデータセットを310のオーディオクラス用に210万本以上のビデオでキュレートする。
得られたデータセットは、音声認識モデルのトレーニングと評価に使用することができる。
論文 参考訳(メタデータ) (2020-04-29T17:46:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。