論文の概要: AMAuT: A Flexible and Efficient Multiview Audio Transformer Framework Trained from Scratch
- arxiv url: http://arxiv.org/abs/2510.19368v1
- Date: Wed, 22 Oct 2025 08:41:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.432186
- Title: AMAuT: A Flexible and Efficient Multiview Audio Transformer Framework Trained from Scratch
- Title(参考訳): AMAuT: Scratchからトレーニングされたフレキシブルで効率的なマルチビューオーディオトランスフォーマフレームワーク
- Authors: Weichuang Shao, Iman Yi Liao, Tomas Henrique Bode Maul, Tissa Chandesa,
- Abstract要約: 本稿では,AMAuT(Augmentation-driven Multiview Audio Transformer)を紹介する。
AMAuTは任意のサンプルレートとオーディオ長をサポートしながら、事前訓練された重量への依存を取り除く。
AudioMNIST、SpeechCommands V1 & V2、VocalSound、CochlSceneの5つの公開ベンチマークの実験では、AMAuTが99.8%のアキュラシーを達成したことが示されている。
- 参考スコア(独自算出の注目度): 0.3728263002609659
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent foundational models, SSAST, EAT, HuBERT, Qwen-Audio, and Audio Flamingo, achieve top-tier results across standard audio benchmarks but are limited by fixed input rates and durations, hindering their reusability. This paper introduces the Augmentation-driven Multiview Audio Transformer (AMAuT), a training-from-scratch framework that eliminates the dependency on pre-trained weights while supporting arbitrary sample rates and audio lengths. AMAuT integrates four key components: (1) augmentation-driven multiview learning for robustness, (2) a conv1 + conv7 + conv1 one-dimensional CNN bottleneck for stable temporal encoding, (3) dual CLS + TAL tokens for bidirectional context representation, and (4) test-time adaptation/augmentation (TTA^2) to improve inference reliability. Experiments on five public benchmarks, AudioMNIST, SpeechCommands V1 & V2, VocalSound, and CochlScene, show that AMAuT achieves accuracies up to 99.8% while consuming less than 3% of the GPU hours required by comparable pre-trained models. Thus, AMAuT presents a highly efficient and flexible alternative to large pre-trained models, making state-of-the-art audio classification accessible in computationally constrained settings.
- Abstract(参考訳): 最近の基礎モデルであるSSAST、EAT、HuBERT、Qwen-Audio、Audio Flamingoは、標準オーディオベンチマークで上位層の結果を得るが、固定された入力率と持続時間によって制限されており、その再利用性を妨げている。
本稿では,任意のサンプルレートと音声長をサポートしながら,事前学習した重みへの依存を解消するAMAuT(Augmentation-driven Multiview Audio Transformer)を提案する。
AMAuTは、強靭性のための強化駆動型マルチビュー学習(augmentation-driven multiview learning for robustness)、安定な時間エンコーディングのための1次元CNNボトルネック(a conv1 + conv7 + conv1 one-dimensional CNN bottleneck)、双方向コンテキスト表現のためのデュアルCLS + TALトークン(orual CLS + TAL tokens for bidirectional context representation)、(4)テスト時適応/拡張(TTA^2)の4つの重要なコンポーネントを統合する。
AudioMNIST、SpeechCommands V1 & V2、VocalSound、CochlSceneの5つの公開ベンチマークの実験では、AMAuTが99.8%のアキュラシーを達成し、同等のトレーニング済みモデルで必要とされるGPU時間の3%未満を消費していることが示された。
このように、AMAuTは大規模な事前訓練されたモデルに対して、非常に効率的で柔軟な代替手段を提供する。
関連論文リスト
- Competitive Audio-Language Models with Data-Efficient Single-Stage Training on Public Data [4.736913024290765]
Falcon3-Audio-7Bは、MMAUベンチマークで報告されたオープンウェイトモデルの中で最高のパフォーマンスである。
我々の最小の1Bモデルは、2Bから13Bのパラメータを含むより大きなオープンモデルと競合し続けている。
論文 参考訳(メタデータ) (2025-09-09T09:01:01Z) - VITA-Audio: Fast Interleaved Cross-Modal Token Generation for Efficient Large Speech-Language Model [84.25283710008785]
VITA-Audioは、高速な音声テキストトークン生成を備えたエンドツーエンドの大規模音声モデルである。
MCTPモジュールは、単一のモデルフォワードパス内で複数のオーディオトークンを効率よく生成する。
4段階のプログレッシブ・トレーニング・ストラテジーは,音声品質の低下を最小限に抑えたモデルアクセラレーションを実現するために検討された。
論文 参考訳(メタデータ) (2025-05-06T17:59:53Z) - ElasticAST: An Audio Spectrogram Transformer for All Length and Resolutions [15.472819870523093]
オーディオスペクトログラム変換器(AST)のようなトランスフォーマーベースのモデルは、CNNから固定サイズの入力パラダイムを継承する。
本稿では,ASTモデルを用いた可変長音声入力を,学習と推論の両方で利用するためのアプローチを提案する。
論文 参考訳(メタデータ) (2024-07-11T17:29:56Z) - Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。
本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。
実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-06-01T06:40:22Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Joint Audio/Text Training for Transformer Rescorer of Streaming Speech
Recognition [13.542483062256109]
トランスフォーマー・リスコラーのための共同音声/テキスト学習法を提案する。
トレーニング手法は標準のTransformer Rescorerと比較して単語誤り率(WER)を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-10-31T22:38:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。