論文の概要: What do Speech Foundation Models Learn? Analysis and Applications
- arxiv url: http://arxiv.org/abs/2508.12255v1
- Date: Sun, 17 Aug 2025 06:31:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.636172
- Title: What do Speech Foundation Models Learn? Analysis and Applications
- Title(参考訳): 音声基礎モデルとは何を学ぶか : 分析と応用
- Authors: Ankita Pasad,
- Abstract要約: 音声基礎モデル(SFM)は、幅広い音声処理タスクの汎用表現として機能するように設計されている。
本論文は,SFM層に符号化された音響的・言語的知識を調べるために,統計ツールとトレーニング不要なタスクを用いた軽量解析フレームワークを提案する。
- 参考スコア(独自算出の注目度): 6.1798416927642466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech foundation models (SFMs) are designed to serve as general-purpose representations for a wide range of speech-processing tasks. The last five years have seen an influx of increasingly successful self-supervised and supervised pre-trained models with impressive performance on various downstream tasks. Although the zoo of SFMs continues to grow, our understanding of the knowledge they acquire lags behind. This thesis presents a lightweight analysis framework using statistical tools and training-free tasks to investigate the acoustic and linguistic knowledge encoded in SFM layers. We conduct a comparative study across multiple SFMs and statistical tools. Our study also shows that the analytical insights have concrete implications for downstream task performance. The effectiveness of an SFM is ultimately determined by its performance on speech applications. Yet it remains unclear whether the benefits extend to spoken language understanding (SLU) tasks that require a deeper understanding than widely studied ones, such as speech recognition. The limited exploration of SLU is primarily due to a lack of relevant datasets. To alleviate that, this thesis contributes tasks, specifically spoken named entity recognition (NER) and named entity localization (NEL), to the Spoken Language Understanding Evaluation benchmark. We develop SFM-based approaches for NER and NEL, and find that end-to-end (E2E) models leveraging SFMs can surpass traditional cascaded (speech recognition followed by a text model) approaches. Further, we evaluate E2E SLU models across SFMs and adaptation strategies to assess the impact on task performance. Collectively, this thesis tackles previously unanswered questions about SFMs, providing tools and datasets to further our understanding and to enable the community to make informed design choices for future model development and adoption.
- Abstract(参考訳): 音声基礎モデル(SFM)は、幅広い音声処理タスクの汎用表現として機能するように設計されている。
過去5年間では、さまざまな下流タスクにおいて印象的なパフォーマンスを持つ、自己監督および教師付き事前訓練モデルの流入が急速に成功した。
SFMの動物園は成長を続けていますが、私たちが理解している知識は遅れています。
本論文は,SFM層に符号化された音響的・言語的知識を調べるために,統計ツールとトレーニング不要なタスクを用いた軽量解析フレームワークを提案する。
我々は複数のSFMと統計ツールの比較研究を行っている。
また,本研究では,解析的洞察が下流タスクのパフォーマンスに具体的な影響を及ぼすことを示す。
SFMの有効性は、最終的に音声アプリケーションの性能によって決定される。
しかし、その利点が音声認識など、広く研究されているものよりも深い理解を必要とする音声言語理解(SLU)タスクにまで及んでいるかどうかは不明だ。
SLUの限られた探索は、主に関連するデータセットが不足しているためである。
これを軽減するために、この論文は、特に話される名前付きエンティティ認識(NER)と名前付きエンティティローカライゼーション(NEL)のタスクを、Spoken Language Understanding Evaluationベンチマークにコントリビュートする。
NER と NEL のための SFM ベースのアプローチを開発し,SFM を利用したエンドツーエンド (E2E) モデルが従来のカスケード(音声認識とテキストモデル) モデルに勝ることを発見した。
さらに,SFM間のE2E SLUモデルと適応戦略を評価し,タスク性能への影響を評価する。
集合的には、この論文はSFMに関する未解決の問題に取り組み、私たちの理解をさらに深め、コミュニティが将来のモデル開発と採用のために情報的な設計選択を行えるようにするためのツールとデータセットを提供します。
関連論文リスト
- Unveiling the Best Practices for Applying Speech Foundation Models to Speech Intelligibility Prediction for Hearing-Impaired People [0.0]
音声基礎モデル(SFM)は、聴覚障害者のための音声の可聴性予測(SIP-HI)など、様々な下流課題において強い性能を示した。
SIP-HIの性能に影響を及ぼす重要な設計要因を5つのSFMで同定する。
その結果,従来の全層法とは対照的に,単一のエンコーダ層を選択することで,より良い結果が得られることがわかった。
論文 参考訳(メタデータ) (2025-05-13T04:07:59Z) - Empowering Large Language Models in Wireless Communication: A Novel Dataset and Fine-Tuning Framework [81.29965270493238]
我々は,無線通信アプリケーションのための大規模言語モデル(LLM)の評価と微調整を目的とした,特殊なデータセットを開発した。
データセットには、真/偽と複数選択型を含む、さまざまなマルチホップ質問が含まれている。
本稿では,PVI(Pointwise V-Information)に基づく微調整手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T16:19:53Z) - Self-Powered LLM Modality Expansion for Large Speech-Text Models [62.27700381806554]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスを示す。
本研究は,バニラ調律の限界に対処して,LSM訓練における音声データセットの利用を改良することを目的とする。
そこで本研究では,モデル自体が生成する拡張音声認識データを利用して,より効果的な命令チューニングを行う自己力 LSM を提案する。
論文 参考訳(メタデータ) (2024-10-04T04:34:24Z) - Evaluating Linguistic Capabilities of Multimodal LLMs in the Lens of Few-Shot Learning [15.919493497867567]
本研究では,VALSEベンチマークを用いたマルチモーダル大規模言語モデル(MLLM)の性能評価を目的とした。
我々は,モデルサイズや事前学習データセットの異なる最先端MLLMの包括的評価を行った。
論文 参考訳(メタデータ) (2024-07-17T11:26:47Z) - Knowledge graph enhanced retrieval-augmented generation for failure mode and effects analysis [1.8849131083278732]
本稿では,FMEAデータに対する集合理論の標準化とスキーマ,FMEA-KGからベクトル埋め込みを生成するアルゴリズム,KG拡張RAGフレームワークを提案する。
提案手法は,ユーザエクスペリエンス設計研究を通じて検証され,コンテキストリコールの精度と性能を計測する。
論文 参考訳(メタデータ) (2024-06-26T07:02:49Z) - On the Evaluation of Speech Foundation Models for Spoken Language Understanding [87.52911510306011]
Spoken Language Understanding Evaluation (SLUE) というベンチマークタスクスイートが最近導入され、オープンリソースやベンチマークの必要性に対処している。
このベンチマークは、これらのSLUタスクに事前訓練された音声基礎モデル(SFM)を使用することで、予備的な成功を収めた。
どのSFMがこれらの複雑なSLUタスクに最も恩恵をもたらすか、そしてこれらのSFMを組み込む上で最も効果的なアプローチは何か?
論文 参考訳(メタデータ) (2024-06-14T14:37:52Z) - Learning from models beyond fine-tuning [78.20895343699658]
Learn From Model (LFM) は、モデルインターフェースに基づいた基礎モデル(FM)の研究、修正、設計に焦点を当てている。
LFM技術の研究は、モデルチューニング、モデル蒸留、モデル再利用、メタラーニング、モデル編集の5つの分野に大別できる。
本稿では, LFM の観点から, FM に基づく現在の手法を概観する。
論文 参考訳(メタデータ) (2023-10-12T10:20:36Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Post Hoc Explanations of Language Models Can Improve Language Models [43.2109029463221]
AMPLIFY(Post Hoc Explanations)を用いたインコンテキスト学習の活用によるモデル性能向上のための新しいフレームワークを提案する。
我々は,各入力特徴がモデル予測に与える影響を抽出し,帰属スコア(説明)を出力するポストホック説明手法を活用する。
AMPLIFYは,幅広いタスクに対して約10~25%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-05-19T04:46:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。