論文の概要: Cross-Modal Knowledge Distillation for Speech Large Language Models
- arxiv url: http://arxiv.org/abs/2509.14930v1
- Date: Thu, 18 Sep 2025 13:07:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.228007
- Title: Cross-Modal Knowledge Distillation for Speech Large Language Models
- Title(参考訳): 音声大言語モデルのためのクロスモーダル知識蒸留法
- Authors: Enzhi Wang, Qicheng Li, Zhiyuan Tang, Yuhang Jia,
- Abstract要約: 音声機能の導入は,入力がテキストのままであっても,知識や推論を損なう可能性があることを示す。
本稿では,テキスト・トゥ・テキスト・チャンネルと音声・テキスト・チャンネルの両方を活用して,テキスト・ベースの教師モデルから音声LLMへ知識を伝達するクロスモーダルな知識蒸留フレームワークを提案する。
- 参考スコア(独自算出の注目度): 10.840179376551804
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present the first systematic evaluation of catastrophic forgetting and modality inequivalence in speech large language models, showing that introducing speech capabilities can degrade knowledge and reasoning even when inputs remain textual, and performance further decreases with spoken queries. To address these challenges, we propose a cross-modal knowledge distillation framework that leverages both text-to-text and speech-to-text channels to transfer knowledge from a text-based teacher model to a speech LLM. Extensive experiments on dialogue and audio understanding tasks validate the effectiveness of our approach in preserving textual knowledge, improving cross-modal alignment, and enhancing reasoning in speech-based interactions.
- Abstract(参考訳): 本研究では,音声大言語モデルにおける破滅的忘れとモダリティの不等式に関する最初の体系的評価を行い,入力がテキストのままであっても,音声機能の導入によって知識や推論が低下し,音声クエリのパフォーマンスがさらに低下することを示す。
これらの課題に対処するために,テキスト・トゥ・テキスト・チャンネルと音声・テキスト・チャンネルの両方を活用して,テキスト・ベースの教師モデルから音声LLMへ知識を伝達するクロスモーダルな知識蒸留フレームワークを提案する。
対話および音声理解タスクに関する広範囲な実験は、テキスト知識の保存、モーダルアライメントの改善、音声による対話における推論の強化において、我々のアプローチの有効性を検証する。
関連論文リスト
- Towards Developmentally Plausible Rewards: Communicative Success as a Learning Signal for Interactive Language Models [49.22720751953838]
本研究では,子どもの言語習得に触発された対話型環境で言語モデルを訓練する手法を提案する。
この設定では、話者は1ターンの対話でリスナーに何らかの情報を伝達しようと試み、コミュニケーションの成功が達成されれば報酬を受け取る。
論文 参考訳(メタデータ) (2025-05-09T11:48:36Z) - Linguistic Knowledge Transfer Learning for Speech Enhancement [29.191204225828354]
言語知識は、言語理解において重要な役割を果たす。
ほとんどの音声強調法は、雑音とクリーンな音声のマッピング関係を学習するために音響的特徴に依存している。
本稿では,言語知識をSEモデルに統合するクロスモーダル・ナレッジ・トランスファー(CMKT)学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-10T09:00:18Z) - Towards Harnessing Large Language Models for Comprehension of Conversational Grounding [1.8434042562191812]
本研究では,対話を分類する際の大規模言語モデルの能力について,明示的あるいは暗黙的な接地と,接地された知識要素の予測に関する考察を行った。
実験の結果,2つの課題において大きな言語モデルが直面する課題が明らかになった。
これらのイニシアチブは、会話における基礎知識の複雑さを扱うために、より効果的な対話システムを開発することを目的としている。
論文 参考訳(メタデータ) (2024-06-03T19:34:39Z) - Improving Speaker Diarization using Semantic Information: Joint Pairwise
Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。
音声言語理解モジュールを導入し、話者関連意味情報を抽出する。
本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:30Z) - Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning
for Low-Resource Speech Recognition [159.9312272042253]
Wav-BERTは、協調的な音響および言語表現学習法である。
我々は、事前訓練された音響モデル(wav2vec 2.0)と言語モデル(BERT)をエンドツーエンドのトレーニング可能なフレームワークに統合する。
論文 参考訳(メタデータ) (2021-09-19T16:39:22Z) - A Bag of Tricks for Dialogue Summarization [7.7837843673493685]
課題は,複数の話者に属する対話の部分の処理と識別,否定的理解,状況の推論,非公式言語理解の4つである。
事前訓練されたシーケンス・ツー・シーケンス言語モデルを用いて、話者名置換、否定的スコープハイライト、関連するタスクによるマルチタスク学習、ドメイン内のデータの事前学習について検討する。
論文 参考訳(メタデータ) (2021-09-16T21:32:02Z) - Structural Pre-training for Dialogue Comprehension [51.215629336320305]
本稿では,SPIDER, Structure Pre-trained DialoguE Readerについて述べる。
対話のような特徴をシミュレートするために,元のLM目的に加えて,2つの訓練目標を提案する。
広く使われている対話ベンチマークの実験結果から,新たに導入した自己教師型タスクの有効性が検証された。
論文 参考訳(メタデータ) (2021-05-23T15:16:54Z) - Retrieval-Free Knowledge-Grounded Dialogue Response Generation with
Adapters [52.725200145600624]
軽量アダプタで事前学習した言語モデルに事前知識を注入し、検索プロセスをバイパスする KnowExpert を提案する。
実験結果から,KnowExpertは検索ベースラインと相容れない性能を示した。
論文 参考訳(メタデータ) (2021-05-13T12:33:23Z) - Multi-turn Dialogue Reading Comprehension with Pivot Turns and Knowledge [43.352833140317486]
マルチターン対話読解は、機械に対話コンテキストを読み、応答選択や回答質問といったタスクを解くことを目的としている。
この研究は、ピボット発話として重要なターンを抽出することで、上記の2つの課題に対処する最初の試みである。
本稿では,対話理解のためのトランスフォーマーに基づく言語モデル上に,ピボット指向の深層選択モデル(PoDS)を提案する。
論文 参考訳(メタデータ) (2021-02-10T15:00:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。