論文の概要: Teaching Audio Models to Reason: A Unified Framework for Source- and Layer-wise Distillation
- arxiv url: http://arxiv.org/abs/2509.18579v1
- Date: Tue, 23 Sep 2025 02:58:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.672288
- Title: Teaching Audio Models to Reason: A Unified Framework for Source- and Layer-wise Distillation
- Title(参考訳): 音響モデルに推論を教える:ソース・レイヤ・ワイド蒸留のための統一フレームワーク
- Authors: Runyan Yang, Yuke Si, Yingying Gao, Junlan Feng, Chao Deng, Shilei Zhang,
- Abstract要約: 本研究では,高容量テキストモデルから学生音声モデルへの推論能力を伝達するための統合知識蒸留フレームワークを提案する。
本手法では, ソースワイド蒸留と層ワイド蒸留という2つの重要な次元を導入する。
実験結果から,音声推論性能は著しく向上した。
- 参考スコア(独自算出の注目度): 52.537908557508324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large audio language models excel at tasks like ASR and emotion recognition, they still struggle with complex reasoning due to the modality gap between audio and text as well as the lack of structured intermediate supervision. To address this, we propose a unified knowledge distillation framework to transfer reasoning capabilities from a high-capacity textual teacher model to a student audio models while preserving its acoustic competence. Our method introduces two key dimensions: source-wise distillation, which leverages both textual and acoustic teachers to provide complementary modality-specific supervision; and layer-wise distillation, which aligns teacher signals with appropriate student layers to improve transfer efficiency. This dual-dimensional strategy enables fine-grained control over the distillation process, effectively bridging the gap between symbolic reasoning and speech representations. Experimental results show significant improvements in audio reasoning performance, demonstrating the effectiveness of our framework as a reasoning transfer solution for audio modeling.
- Abstract(参考訳): 大規模な音声言語モデルは、ASRや感情認識といったタスクに優れていますが、オーディオとテキスト間のモダリティのギャップや構造化中間監視の欠如によって、複雑な推論に苦慮しています。
そこで本研究では,高容量テキスト教師モデルから学生音声モデルへの推論能力の伝達を,音響能力を維持しつつ,統一的な知識蒸留フレームワークを提案する。
提案手法では,テキストと音響の両教師を併用して相補的モダリティ特異的な指導を行うソースワイド蒸留と,教師の信号を適切な学生層に整列させて伝達効率を向上させるレイヤワイド蒸留の2つの重要な側面を紹介する。
この2次元戦略は蒸留プロセスのきめ細かい制御を可能にし、記号的推論と音声表現のギャップを効果的に埋める。
実験の結果,音響推論性能は大幅に向上し,音響モデリングにおける推論変換ソリューションとしての我々のフレームワークの有効性が示された。
関連論文リスト
- Cross-Modal Knowledge Distillation for Speech Large Language Models [10.840179376551804]
音声機能の導入は,入力がテキストのままであっても,知識や推論を損なう可能性があることを示す。
本稿では,テキスト・トゥ・テキスト・チャンネルと音声・テキスト・チャンネルの両方を活用して,テキスト・ベースの教師モデルから音声LLMへ知識を伝達するクロスモーダルな知識蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-18T13:07:53Z) - AURORA: Augmented Understanding via Structured Reasoning and Reinforcement Learning for Reference Audio-Visual Segmentation [113.75682363364004]
AURORAは、参照音声視覚セグメント化における真の推論と言語理解を強化するために設計されたフレームワークである。
AURORAはRef-AVSベンチマークの最先端性能を達成し、非参照セグメンテーションに効果的に一般化する。
論文 参考訳(メタデータ) (2025-08-04T07:47:38Z) - Towards Robust Overlapping Speech Detection: A Speaker-Aware Progressive Approach Using WavLM [53.17360668423001]
重なり合う音声検出(OSD)は、会話中に複数の話者が重複する領域を特定することを目的としている。
本研究では,サブタスク間の相関性を高めるために,プログレッシブトレーニング戦略を活用する話者対応プログレッシブOSDモデルを提案する。
実験の結果,提案手法は,AMIテストセット上でF1スコアが82.76%の最先端性能を実現することがわかった。
論文 参考訳(メタデータ) (2025-05-29T07:47:48Z) - Multi-Stage Speaker Diarization for Noisy Classrooms [1.4549461207028445]
本研究では,NvidiaのNeMoダイアリゼーションパイプラインを用いた多段ダイアリゼーションモデルの有効性を検討した。
ダイアリゼーション精度に対する聴覚の影響を評価し,様々な音声活動検出モデルを比較した。
また、フレームレベルのVAD予測と自動音声認識(ASR)ワードレベルのタイムスタンプを統合するハイブリッドVAD手法についても検討する。
論文 参考訳(メタデータ) (2025-05-16T05:35:06Z) - Self supervised learning for robust voice cloning [3.7989740031754806]
自己教師型フレームワークで学習した特徴を用いて,高品質な音声表現を生成する。
学習した特徴は、事前訓練された発話レベルの埋め込みや、非減衰タコトロンアーキテクチャへの入力として使用される。
この手法により、ラベルなしマルチスピーカデータセットでモデルをトレーニングし、未知の話者埋め込みを用いて話者の声を模倣することができる。
論文 参考訳(メタデータ) (2022-04-07T13:05:24Z) - Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning
for Low-Resource Speech Recognition [159.9312272042253]
Wav-BERTは、協調的な音響および言語表現学習法である。
我々は、事前訓練された音響モデル(wav2vec 2.0)と言語モデル(BERT)をエンドツーエンドのトレーニング可能なフレームワークに統合する。
論文 参考訳(メタデータ) (2021-09-19T16:39:22Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z) - Disentangled Speech Embeddings using Cross-modal Self-supervision [119.94362407747437]
本研究では,映像における顔と音声の自然な相互同期を生かした自己教師型学習目標を提案する。
我々は,(1)両表現に共通する低レベルの特徴を共有する2ストリームアーキテクチャを構築し,(2)これらの要因を明示的に解消する自然なメカニズムを提供する。
論文 参考訳(メタデータ) (2020-02-20T14:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。