論文の概要: A Human-Inspired Decoupled Architecture for Efficient Audio Representation Learning
- arxiv url: http://arxiv.org/abs/2603.26098v1
- Date: Fri, 27 Mar 2026 06:09:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.370315
- Title: A Human-Inspired Decoupled Architecture for Efficient Audio Representation Learning
- Title(参考訳): 効率的な音声表現学習のためのヒューマンインスパイアされた疎結合アーキテクチャ
- Authors: Harunori Kawano, Takeshi Sasaki,
- Abstract要約: 本稿では,HEAR(Human-inspireed Efficient Audio Representation)を提案する。
HEARは処理パイプラインを,ローカル特徴抽出のためのアコースティックモデルと,グローバルセマンティック統合のためのタスクモデルという,2つの専用モジュールに分割する。
実験の結果、HEARは推定に15Mパラメータと9.47GFLOPしか必要とせず、従来の基礎モデルの計算コストのごく一部で動作していることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While self-supervised learning (SSL) has revolutionized audio representation, the excessive parameterization and quadratic computational cost of standard Transformers limit their deployment on resource-constrained devices. To address this bottleneck, we propose HEAR (Human-inspired Efficient Audio Representation), a novel decoupled architecture. Inspired by the human cognitive ability to isolate local acoustic features from global context, HEAR splits the processing pipeline into two dedicated modules: an Acoustic Model for local feature extraction and a Task Model for global semantic integration. Coupled with an Acoustic Tokenizer trained via knowledge distillation, our approach enables robust Masked Audio Modeling (MAM). Extensive experiments demonstrate that HEAR requires only 15M parameters and 9.47 GFLOPs for inference, operating at a fraction of the computational cost of conventional foundation models (which typically require 85M-94M parameters). Despite this high efficiency, HEAR achieves highly competitive performance across diverse audio classification benchmarks. The code and pre-trained models are available at https://github.com/HarunoriKawano/HEAR
- Abstract(参考訳): 自己教師付き学習(SSL)は音声表現に革命をもたらしたが、標準トランスフォーマーの過度なパラメータ化と2次計算コストは、リソース制約のあるデバイスへのデプロイメントを制限する。
このボトルネックに対処するため,HEAR(Human-inspireed Efficient Audio Representation)を提案する。
HEARは、グローバルコンテキストからローカル音響特徴を分離する人間の認知能力に触発され、処理パイプラインを2つの専用モジュールに分割する。
知識蒸留により学習した音響トケナイザと組み合わせることで,ロバストなMasked Audio Modeling(MAM)を実現する。
大規模な実験では、HEARは推定に15Mパラメータと9.47GFLOPしか必要とせず、従来の基礎モデル(通常85M-94Mパラメータ)の計算コストのごく一部で動作している。
この高い効率にもかかわらず、HEARは様々なオーディオ分類ベンチマークで高い競争性能を達成している。
コードと事前トレーニングされたモデルはhttps://github.com/HarunoriKawano/HEARで公開されている。
関連論文リスト
- Scaling Open Discrete Audio Foundation Models with Interleaved Semantic, Acoustic, and Text Tokens [62.56027815951259]
現在のオーディオ言語モデルは、主にテキストファーストであり、事前訓練されたテキストLLMバックボーンを拡張するか、意味のみのオーディオトークンに依存する。
本稿では,大規模音声に次トーケン予測を適用したネイティブオーディオ基礎モデルの系統的研究を行った。
論文 参考訳(メタデータ) (2026-02-18T18:32:46Z) - DIFFA-2: A Practical Diffusion Large Language Model for General Audio Understanding [58.29124051111574]
一般音声理解のための実用的な拡散型LALMであるDIFFA-2を紹介する。
DIFFA-2は音声エンコーダをアップグレードし、デュアルセマンティックとアコースティックのアダプタを採用し、4段階のカリキュラムで訓練されている。
MMSU、MMAU、MMARの実験では、DIFFA-2はDIFFAよりも一貫して改善されている。
論文 参考訳(メタデータ) (2026-01-30T16:44:23Z) - Representation-Regularized Convolutional Audio Transformer for Audio Understanding [53.092757178419355]
スクラッチからのブートストラップ表現は計算に高価で、しばしば収束するために広範囲のトレーニングを必要とします。
本稿では,これらの課題に対処するための統合フレームワークであるConvolutional Audio Transformer (CAT)を提案する。
論文 参考訳(メタデータ) (2026-01-29T12:16:19Z) - The OCON model: an old but green solution for distributable supervised classification for acoustic monitoring in smart cities [0.28675177318965045]
本稿では,音声認識領域における母音音素分類と話者認識について述べる。
われわれのケーススタディでは、ASRモデルは独自のセンシングと稲妻システムで動作し、都市部における大気汚染の監視に利用されている。
情報グリッド探索手法を用いて,疑似ニューラルアーキテクチャ探索とハイパースチューニング実験の組み合わせを形式化し,現在最も複雑なアーキテクチャに匹敵する分類精度を実現する。
論文 参考訳(メタデータ) (2024-10-05T09:47:54Z) - Audio-Visual Speech Separation in Noisy Environments with a Lightweight
Iterative Model [35.171785986428425]
雑音環境下での音声・視覚音声分離を行うために,AVLIT(Audio-Visual Lightweight ITerative Model)を提案する。
我々のアーキテクチャは、オーディオブランチとビデオブランチで構成されており、各モードの重みを共有する反復的なA-FRCNNブロックがある。
実験は、様々な音声のみのベースラインと音声視覚のベースラインに対して、両方の設定において、我々のモデルが優れていることを示す。
論文 参考訳(メタデータ) (2023-05-31T20:09:50Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - A Light Weight Model for Active Speaker Detection [7.253335671577093]
入力候補を減らし、2次元と3次元の畳み込みを音声・視覚特徴抽出に分割し、計算量が少ないゲート再帰ユニット(GRU)をクロスモーダルモデリングに応用し、軽量な能動話者検出アーキテクチャを構築した。
AVA-ActiveSpeakerデータセットの実験結果は、我々のフレームワークが競合的なmAP性能(94.1%対94.2%)を達成することを示している。
私たちのフレームワークは、良好な堅牢性を示すColumbiaデータセットでもうまく機能します。
論文 参考訳(メタデータ) (2023-03-08T08:40:56Z) - Continual Learning for On-Device Speech Recognition using Disentangled
Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。
本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。
実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-02T18:58:51Z) - Efficiently Fusing Pretrained Acoustic and Linguistic Encoders for
Low-resource Speech Recognition [9.732767611907068]
本研究では,前訓練音響エンコーダ(wav2vec2.0)と前訓練言語エンコーダ(bert)をエンドツーエンドasrモデルに融合する。
本モデルは他のエンドツーエンドモデルに比べてcallhomeコーパスの認識性能が(15時間)向上する。
論文 参考訳(メタデータ) (2021-01-17T16:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。