論文の概要: SpeechLLMs for Large-scale Contextualized Zero-shot Slot Filling
- arxiv url: http://arxiv.org/abs/2510.15851v1
- Date: Fri, 17 Oct 2025 17:45:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.733942
- Title: SpeechLLMs for Large-scale Contextualized Zero-shot Slot Filling
- Title(参考訳): 大規模ゼロショットスロット充足のための音声LLM
- Authors: Kadri Hacioglu, Manjunath K E, Andreas Stolcke,
- Abstract要約: スロットフィリングは音声言語理解(SLU)において重要なサブタスクである
近年の音声ベース大規模言語モデル(speechLLMs)の出現により,音声理解タスクを実現するための新たな道が開かれた。
我々は,上位境界値とのギャップを狭めるため,トレーニングデータ,アーキテクチャ,トレーニング戦略の改善を提案する。
- 参考スコア(独自算出の注目度): 10.898666440393896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Slot filling is a crucial subtask in spoken language understanding (SLU), traditionally implemented as a cascade of speech recognition followed by one or more natural language understanding (NLU) components. The recent advent of speech-based large language models (speechLLMs), which integrate speech and textual foundation models, has opened new avenues for achieving speech understanding tasks in a more unified, generative, and instruction-following manner while promising data and compute efficiency with zero-shot abilities, generalizing to unseen slot labels. We address the slot-filling task by creating an empirical upper bound for the task, identifying performance, robustness, and generalization gaps, and proposing improvements to the training data, architecture, and training strategies to narrow the gap with the upper bound result. We show that each of these measures improve performance substantially, while highlighting practical challenges and providing empirical guidance and insights for harnessing these emerging models.
- Abstract(参考訳): スロットフィリングは、音声認識のカスケードとして伝統的に実装され、1つ以上の自然言語理解(NLU)コンポーネントが続く、音声言語理解(SLU)において重要なサブタスクである。
近年,音声とテキストの基盤モデルを統合した音声ベースの大規模言語モデル (speechLLMs) が出現し,音声理解タスクをより統一的で生成的かつ命令追従的な方法で実現するための新たな道が開かれた。
我々は,タスクの実証的な上限を作成し,性能,堅牢性,一般化ギャップを特定し,トレーニングデータ,アーキテクチャ,トレーニング戦略の改善を提案して,上位境界値とのギャップを狭めることで,スロット充足タスクに対処する。
これらの指標は,それぞれが性能を著しく向上すると同時に,実践的な課題を強調し,これらの新たなモデルを活用するための実証的なガイダンスと洞察を提供する。
関連論文リスト
- Roadmap towards Superhuman Speech Understanding using Large Language Models [60.57947401837938]
大規模言語モデル(LLM)は、音声データと音声データを統合したものである。
GPT-4oのような最近の進歩は、エンドツーエンドのLLMの可能性を強調している。
本稿では,基本自動音声認識(ASR)から高度な超人モデルまで,5段階のロードマップを提案する。
論文 参考訳(メタデータ) (2024-10-17T06:44:06Z) - DeSTA2: Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - Exploring the Benefits of Tokenization of Discrete Acoustic Units [4.591279524925446]
トークン化アルゴリズムは、基本語彙の単位をより大きな可変レート単位にマージする。
トークン化は、トレーニングや推論の速度だけでなく、パフォーマンスの観点からも大幅に改善されることを示す。
論文 参考訳(メタデータ) (2024-06-08T18:34:28Z) - Integrating Self-supervised Speech Model with Pseudo Word-level Targets
from Visually-grounded Speech Model [57.78191634042409]
擬似単語レベルのターゲットを学習プロセスに統合するフレームワークであるPseudo-Word HuBERT(PW-HuBERT)を提案する。
4つの音声言語理解(SLU)ベンチマークによる実験結果から,意味情報の収集におけるモデルの有用性が示唆された。
論文 参考訳(メタデータ) (2024-02-08T16:55:21Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - Pre-training for Spoken Language Understanding with Joint Textual and
Phonetic Representation Learning [4.327558819000435]
音声表現を学習するための新しいテキスト音声前訓練手法を提案する。
音声言語理解ベンチマークであるFluent Speech CommandsとSNIPSの実験結果から,提案手法は強いベースラインモデルよりも有意に優れていることが示された。
論文 参考訳(メタデータ) (2021-04-21T05:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。