論文の概要: Optimal Transport Regularization for Speech Text Alignment in Spoken Language Models
- arxiv url: http://arxiv.org/abs/2508.08131v1
- Date: Mon, 11 Aug 2025 16:06:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.196378
- Title: Optimal Transport Regularization for Speech Text Alignment in Spoken Language Models
- Title(参考訳): 音声言語モデルにおける音声テキストアライメントのための最適輸送規則化
- Authors: Wenze Xu, Chun Wang, Jiazhen Yu, Sheng Chen, Liang Gao, Weihong Deng,
- Abstract要約: OTRegは、音声テキストアライメントを最適な輸送問題として定式化し、正規化損失を導出し、SLM訓練を改善する方法である。
OTRegは軽量で、追加のラベルや学習可能なパラメータは必要とせず、既存のSLMトレーニング手順とシームレスに統合される。
- 参考スコア(独自算出の注目度): 46.76139085979338
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spoken Language Models (SLMs), which extend Large Language Models (LLMs) to perceive speech inputs, have gained increasing attention for their potential to advance speech understanding tasks. However, despite recent progress, studies show that SLMs often struggle to generalize across datasets, even for trained languages and tasks, raising concerns about whether they process speech in a text-like manner as intended. A key challenge underlying this limitation is the modality gap between speech and text representations. The high variability in speech embeddings may allow SLMs to achieve strong in-domain performance by exploiting unintended speech variations, ultimately hindering generalization. To mitigate this modality gap, we introduce Optimal Transport Regularization (OTReg), a method that formulates speech-text alignment as an optimal transport problem and derives a regularization loss to improve SLM training. In each training iteration, OTReg first establishes a structured correspondence between speech and transcript embeddings by determining the optimal transport plan, then incorporates the regularization loss based on this transport plan to optimize SLMs in generating speech embeddings that align more effectively with transcript embeddings. OTReg is lightweight, requiring no additional labels or learnable parameters, and integrates seamlessly into existing SLM training procedures. Extensive multilingual ASR experiments demonstrate that OTReg enhances speech-text alignment, mitigates the modality gap, and consequently improves SLM generalization across diverse datasets.
- Abstract(参考訳): 音声入力を知覚するためにLarge Language Models(LLMs)を拡張した音声言語モデル(SLMs)が注目されている。
しかし、近年の進歩にもかかわらず、SLMは訓練された言語やタスクであってもデータセットをまたいだ一般化に苦慮し、意図したテキストのような方法で音声を処理するかどうかという懸念を提起する研究がしばしば行われている。
この制限の根底にある重要な課題は、音声とテキストの表現のモダリティギャップである。
音声埋め込みにおける高い可変性により、SLMは意図しない音声の変動を利用して強いドメイン内性能を達成でき、最終的には一般化を妨げる可能性がある。
このモダリティギャップを軽減するために,音声テキストアライメントを最適輸送問題として定式化し,正規化損失を導出し,SLM訓練を改善する方法であるOTRegを導入する。
各訓練イテレーションにおいて、OTRegは、まず最適な輸送計画を決定することにより、音声と転写埋め込みの構造化対応を確立し、次に、この輸送計画に基づく正規化損失を組み込んで、転写埋め込みとより効果的に整合した音声埋め込みを生成する。
OTRegは軽量で、追加のラベルや学習可能なパラメータは必要とせず、既存のSLMトレーニング手順とシームレスに統合される。
広範囲にわたる多言語ASR実験により、OTRegは音声テキストアライメントを強化し、モダリティギャップを緩和し、その結果、多様なデータセットにわたるSLM一般化を改善することが示されている。
関連論文リスト
- ProsodyLM: Uncovering the Emerging Prosody Processing Capabilities in Speech Language Models [70.56468982313834]
本稿では,韻律学習に適した単純なトークン化方式であるProsodyLMを提案する。
ProsodyLMは事前学習だけで驚くほど多様なプロソディ処理能力を学習できることがわかった。
論文 参考訳(メタデータ) (2025-07-27T00:59:01Z) - Enhancing Generalization of Speech Large Language Models with Multi-Task Behavior Imitation and Speech-Text Interleaving [36.246791887458194]
大規模言語モデル(LLM)はタスク間で顕著な一般化を示している。
LLMは通常、教師付き微調整を使用して、テキストベースのLLMと音声を一致させる。
本稿では,音声テキストをインターリーブしたマルチタスクの「行動模倣」手法を提案する。
論文 参考訳(メタデータ) (2025-05-24T11:09:13Z) - TASTE: Text-Aligned Speech Tokenization and Embedding for Spoken Language Modeling [46.60911294356232]
本稿では,テキスト適応型音声トークン化と埋め込み(TASTE)を導入し,トークン化段階における音声トークンと対応するテキストの書き起こしを一致させる。
我々は広範囲な実験を行い、TASTEはトークン列の長さを劇的に減らしながら重要なパラ言語情報を保持することができることを示す。
実験の結果,TASTEを用いたSLMはSALMONやStoryClozeに匹敵する性能を示した。
論文 参考訳(メタデータ) (2025-04-09T17:14:33Z) - Adaptive Inner Speech-Text Alignment for LLM-based Speech Translation [20.415410280412697]
本研究では,大言語モデル (LLM) 内の選択された層における音声とテキストの表現を明示的に整合させることにより,モダリティギャップを埋める適応的内部音声テキストアライメント (AI-STA) 手法を提案する。
音声翻訳タスクにおける実験結果から、AI-STAは、従来の最先端手法よりも大きな音声テキストモデル(LSM)の翻訳性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-03-13T09:54:35Z) - Self-Powered LLM Modality Expansion for Large Speech-Text Models [62.27700381806554]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスを示す。
本研究は,バニラ調律の限界に対処して,LSM訓練における音声データセットの利用を改良することを目的とする。
そこで本研究では,モデル自体が生成する拡張音声認識データを利用して,より効果的な命令チューニングを行う自己力 LSM を提案する。
論文 参考訳(メタデータ) (2024-10-04T04:34:24Z) - DeSTA2: Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。