Fugu-MT 論文翻訳(概要): AudioInceptionNeXt: TCL AI LAB Submission to EPIC-SOUND Audio-Based-Interaction-Recognition Challenge 2023

論文の概要: AudioInceptionNeXt: TCL AI LAB Submission to EPIC-SOUND Audio-Based-Interaction-Recognition Challenge 2023

arxiv url: http://arxiv.org/abs/2307.07265v1
Date: Fri, 14 Jul 2023 10:39:05 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-17 14:24:28.849608
Title: AudioInceptionNeXt: TCL AI LAB Submission to EPIC-SOUND Audio-Based-Interaction-Recognition Challenge 2023
Title（参考訳）: AudioInceptionNeXt: TCL AI LAB Submission to EPIC-SOUND Audio-Based-Interaction-Recognition Challenge 2023
Authors: Kin Wai Lau, Yasar Abbas Ur Rehman, Yuyang Xie, Lan Ma
Abstract要約: 本稿では,2023年のEpic-Kitchen EPIC-SOUNDS Audio-Based Interaction Recognition Challengeへの参加について述べる。課題は、音声サンプルから対応するアクションラベルへのマッピングを学習することである。我々のアプローチは、挑戦テストセットで55.43%の正確さを達成し、公衆のリーダーボードで1位にランクインした。
参考スコア（独自算出の注目度）: 5.0169092839789275
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This report presents the technical details of our submission to the 2023 Epic-Kitchen EPIC-SOUNDS Audio-Based Interaction Recognition Challenge. The task is to learn the mapping from audio samples to their corresponding action labels. To achieve this goal, we propose a simple yet effective single-stream CNN-based architecture called AudioInceptionNeXt that operates on the time-frequency log-mel-spectrogram of the audio samples. Motivated by the design of the InceptionNeXt, we propose parallel multi-scale depthwise separable convolutional kernels in the AudioInceptionNeXt block, which enable the model to learn the time and frequency information more effectively. The large-scale separable kernels capture the long duration of activities and the global frequency semantic information, while the small-scale separable kernels capture the short duration of activities and local details of frequency information. Our approach achieved 55.43% of top-1 accuracy on the challenge test set, ranked as 1st on the public leaderboard. Codes are available anonymously at https://github.com/StevenLauHKHK/AudioInceptionNeXt.git.
Abstract（参考訳）: 本稿では,2023年のEpic-Kitchen EPIC-SOUNDS Audio-Based Interaction Recognition Challengeへの参加について述べる。課題は、音声サンプルから対応するアクションラベルへのマッピングを学習することである。この目的を達成するために,音声サンプルの時間周波数ログメルスペクトログラムで動作する,単純かつ効果的な単一ストリームcnnベースのアーキテクチャであるaudioinceptionnextを提案する。インセプションnextの設計に動機づけられ、モデルが時間と周波数情報をより効果的に学習できるオーディオインセプションnextブロックにおいて、マルチスケールの深さ方向分離可能な畳み込みカーネルを提案する。大規模セパラブルカーネルは活動の長い期間とグローバル周波数の意味情報を捉え、小規模セパラブルカーネルは活動の短い期間と周波数情報の局所的な詳細を捉えている。我々のアプローチは、チャレンジテストセットにおけるtop-1の精度の55.43%を達成し、公開リーダーボードで1位にランクされた。コードはhttps://github.com/StevenLauHKK/AudioInceptionNeXt.gitで匿名で公開されている。

関連論文リスト

Zero-Shot Audio-Visual Editing via Cross-Modal Delta Denoising [114.39028517171236]
そこで我々は,ゼロショット音声映像編集を導入し,新たなモデルトレーニングを必要とせず,特定のテキストプロンプトに合わせるために,オリジナル音声映像コンテンツを変換する新しいタスクを提案する。この課題を評価するために、ゼロショットオーディオビデオ編集用に明示的に設計されたベンチマークデータセットAvED-Benchをキュレートする。 AvEDは、AvED-Benchと最近のOAVEデータセットの両方で優れた結果を示し、その一般化能力を検証する。
論文参考訳（メタデータ） (2025-03-26T17:59:04Z)
Neurobench: DCASE 2020 Acoustic Scene Classification benchmark on XyloAudio 2 [0.06752396542927405]
XyloAudioは超低消費電力オーディオ推論チップのシリーズだ。リアルタイムエネルギー制約シナリオにおける音声の内・近マイクロホン解析のために設計されている。
論文参考訳（メタデータ） (2024-10-31T09:48:12Z)
DOA-Aware Audio-Visual Self-Supervised Learning for Sound Event Localization and Detection [16.92604848450722]
本稿では,第1次アンビソニクス(FOA)マイクロホンで捉えた空間的音声記録のための音事象定位・検出(SELD)について述べる。本稿では,ディープニューラルネットワーク(DNN)の特徴抽出部分を自己教師型で事前学習する手法を提案する。
論文参考訳（メタデータ） (2024-10-30T08:31:58Z)
Progressive Confident Masking Attention Network for Audio-Visual Segmentation [8.591836399688052]
Audio-Visualとして知られる課題が出現し、シーン内のオブジェクトを音化するためのセグメンテーションマップを作成することを目的としている。 PMCANet(Progressive Confident Masking Attention Network)を紹介する。注意機構を利用して、音声信号と視覚フレームの本質的な相関を明らかにする。
論文参考訳（メタデータ） (2024-06-04T14:21:41Z)
TIM: A Time Interval Machine for Audio-Visual Action Recognition [64.24297230981168]
音声と視覚イベントの時間的範囲を明示的にモデル化することで、長いビデオにおける2つのモード間の相互作用に対処する。本稿では,TIM (Time Interval Machine) を提案する。我々は、EPIC-KITCHENS、Perception Test、AVEの3つの長い音声視覚ビデオデータセットでTIMをテストする。
論文参考訳（メタデータ） (2024-04-08T14:30:42Z)
Large-scale unsupervised audio pre-training for video-to-speech synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文参考訳（メタデータ） (2023-06-27T13:31:33Z)
Epic-Sounds: A Large-scale Dataset of Actions That Sound [64.24297230981168]
Epic-Soundsは、時間範囲とクラスラベルをキャプチャする大規模なオーディオアノテーションデータセットである。我々は、これらの自由形式の音声記述をクラスにまとめることで、純粋に音声と区別できる行動を特定する。全体として、Epic-Soundsには78.4kの分類された音声イベントとアクションのセグメントがあり、44のクラスにまたがって配布され、39.2kの非分類セグメントが含まれている。
論文参考訳（メタデータ） (2023-02-01T18:19:37Z)
Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文参考訳（メタデータ） (2023-01-30T04:44:34Z)
SVTS: Scalable Video-to-Speech Synthesis [105.29009019733803]
本稿では,ビデオ・トゥ・スペクトログラム予測器と事前学習したニューラルボコーダの2つのコンポーネントからなるスケーラブルなビデオ音声合成フレームワークを提案する。私たちは、挑戦的なLSS3データセットで不可解な結果を示す最初の人です。
論文参考訳（メタデータ） (2022-05-04T13:34:07Z)
A Multi-View Approach To Audio-Visual Speaker Verification [38.9710777250597]
本研究では,音声視覚による話者検証手法について検討する。 voxceleb1データセットの最低av等しいエラーレート(eer)は0.7%である。この新しいアプローチは、クロスモーダル検証の困難なテスト条件において、voxceleb1のeerを28%達成する。
論文参考訳（メタデータ） (2021-02-11T22:29:25Z)
VGGSound: A Large-scale Audio-Visual Dataset [160.1604237188594]
オープンソースのメディアからオーディオデータセットを作成するために,スケーラブルなパイプラインを提案する。このパイプラインを使用して、VGGSoundデータセットを310のオーディオクラス用に210万本以上のビデオでキュレートする。得られたデータセットは、音声認識モデルのトレーニングと評価に使用することができる。
論文参考訳（メタデータ） (2020-04-29T17:46:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。