論文の概要: AFD-SLU: Adaptive Feature Distillation for Spoken Language Understanding
- arxiv url: http://arxiv.org/abs/2509.04821v1
- Date: Fri, 05 Sep 2025 05:45:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.48911
- Title: AFD-SLU: Adaptive Feature Distillation for Spoken Language Understanding
- Title(参考訳): AFD-SLU:音声言語理解のための適応的特徴蒸留
- Authors: Yan Xie, Yibo Cui, Liang Xie, Erwei Yin,
- Abstract要約: Spoken Language Understanding (SLU) は会話システムの中核的なコンポーネントであり、機械がユーザの発話を解釈できるようにする。
本稿では,GTE(General Text Embeddings)ベースの教師モデルから軽量な学生モデルにリッチな意味表現を伝達する適応的特徴蒸留フレームワークを提案する。
中国のプロファイルベースのProSLUベンチマークの実験では、AFD-SLUは95.67%の意図的精度、92.02%のスロットF1スコア、85.50%の総合的精度で最先端の結果を達成している。
- 参考スコア(独自算出の注目度): 11.066147892754154
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spoken Language Understanding (SLU) is a core component of conversational systems, enabling machines to interpret user utterances. Despite its importance, developing effective SLU systems remains challenging due to the scarcity of labeled training data and the computational burden of deploying Large Language Models (LLMs) in real-world applications. To further alleviate these issues, we propose an Adaptive Feature Distillation framework that transfers rich semantic representations from a General Text Embeddings (GTE)-based teacher model to a lightweight student model. Our method introduces a dynamic adapter equipped with a Residual Projection Neural Network (RPNN) to align heterogeneous feature spaces, and a Dynamic Distillation Coefficient (DDC) that adaptively modulates the distillation strength based on real-time feedback from intent and slot prediction performance. Experiments on the Chinese profile-based ProSLU benchmark demonstrate that AFD-SLU achieves state-of-the-art results, with 95.67% intent accuracy, 92.02% slot F1 score, and 85.50% overall accuracy.
- Abstract(参考訳): Spoken Language Understanding (SLU) は会話システムの中核的なコンポーネントであり、機械がユーザの発話を解釈できるようにする。
その重要性にもかかわらず、ラベル付きトレーニングデータの不足と、LLM(Large Language Models)を現実世界のアプリケーションに展開する際の計算負担のため、効果的なSLUシステムの開発は依然として困難である。
これらの問題をさらに緩和するために、汎用テキスト埋め込み(GTE)ベースの教師モデルから軽量な学生モデルへリッチな意味表現を伝達する適応的特徴蒸留フレームワークを提案する。
提案手法では,不均一な特徴空間を整列するResidual Projection Neural Network (RPNN) と,意図とスロット予測性能のリアルタイムフィードバックに基づいて蒸留強度を適応的に調節するDynamic Distillation Coefficient (DDC) を導入する。
中国のプロファイルベースのProSLUベンチマークの実験では、AFD-SLUは95.67%の意図的精度、92.02%のスロットF1スコア、85.50%の総合的精度で最先端の結果を達成している。
関連論文リスト
- Enhancing Training Data Attribution with Representational Optimization [57.61977909113113]
トレーニングデータ属性法は、トレーニングデータがモデルの予測にどのように影響するかを測定することを目的としている。
本稿では,タスク固有表現とモデル整合表現をTDAで明示的に学習することで,このギャップを埋める表現ベースアプローチであるAirRepを提案する。
AirRepは、属性品質に合わせて調整されたトレーニング可能なエンコーダと、グループワイドの影響を正確に見積もるアテンションベースのプール機構の2つの重要なイノベーションを紹介している。
論文 参考訳(メタデータ) (2025-05-24T05:17:53Z) - Siformer: Feature-isolated Transformer for Efficient Skeleton-based Sign Language Recognition [4.353165013945741]
手話認識とは、与えられたビデオから手話のグルースを自動的に解釈することを指す。
最近の骨格に基づく行動認識は、被験者と背景のばらつきを個別に扱う能力によって、注目を集めている。
論文 参考訳(メタデータ) (2025-03-26T11:10:29Z) - SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。
我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。
これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文 参考訳(メタデータ) (2025-02-24T07:15:05Z) - Learnable Sparse Customization in Heterogeneous Edge Computing [27.201987866208484]
異種フェデレート学習(FedLPS)のための学習可能なパーソナライズ・スパシフィケーションを提案する。
FedLPSは、局所データ表現におけるモデルユニットの重要性を学び、パーソナライズされたデータ特徴を正確に抽出するために、最小限の重要度に基づくスパースパターンを導出する。
実験により、FedLPSは精度とトレーニングコストにおいてステータスクオアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-12-10T06:14:31Z) - How to Learn a New Language? An Efficient Solution for Self-Supervised Learning Models Unseen Languages Adaption in Low-Resource Scenario [72.02391485962127]
音声認識(ASR)における音声自己監視学習(SSL)モデルの性能向上
低リソース言語 ASR では、事前訓練された言語と低リソース言語のドメインミスマッチ問題に遭遇する。
これらの問題に対処するためのアダプタに基づく従来型の効率的な微調整手法を拡張した。
論文 参考訳(メタデータ) (2024-11-27T10:51:00Z) - R-SFLLM: Jamming Resilient Framework for Split Federated Learning with Large Language Models [83.77114091471822]
Split Federated Learning (SFL)は、分散機械学習(ML)における計算効率のパラダイムである。
SFLの課題は、特に無線チャネル上に展開する場合、送信されたモデルパラメータが相手のジャミングに感受性を持つことである。
これは、言語理解に不可欠である大規模言語モデル(LLM)における単語埋め込みパラメータに対して特に顕著である。
無線ネットワーク上でのLLM(R-SFLLM)を用いたレジリエンスSFLのための物理層フレームワークを開発した。
論文 参考訳(メタデータ) (2024-07-16T12:21:29Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - End-to-End Spoken Language Understanding for Generalized Voice
Assistants [15.241812584273886]
商用音声アシスタント(VA)における一般化音声認識のためのE2Eモデル構築のためのアプローチを提案する。
本研究では,ASRレベルとNLUレベルの両方で事前学習が可能な,完全に微分可能なトランスフォーマーベースの階層システムを提案する。
これは転写と意味分類の両方の損失に基づいて微調整され、多種多様な意図と引数の組み合わせを扱う。
論文 参考訳(メタデータ) (2021-06-16T17:56:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。