論文の概要: Transcribe, Translate, or Transliterate: An Investigation of Intermediate Representations in Spoken Language Models
- arxiv url: http://arxiv.org/abs/2510.02569v1
- Date: Thu, 02 Oct 2025 21:19:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.181165
- Title: Transcribe, Translate, or Transliterate: An Investigation of Intermediate Representations in Spoken Language Models
- Title(参考訳): 転写・翻訳・翻訳:音声言語モデルにおける中間表現の検討
- Authors: Tolúl\d{o}pé Ògúnrèmí, Christopher D. Manning, Dan Jurafsky, Karen Livescu,
- Abstract要約: 音声を大言語モデル(LM)と統合する音声言語モデル(SLM)は、音声エンコーダの出力をデコーダ LM に理解可能な表現にマッピングするモダリティアダプタ(MA)に依存している。
ここでは、3つのSLM(SALMONN, Qwen2-Audio, Phi-4-Multimodal-Instruct)におけるMA出力表現について検討する。
MA表現に最も近いデコーダLMトークンを見つけることで、MA表現の2つの戦略を明らかにする。
- 参考スコア(独自算出の注目度): 67.9041454636427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spoken language models (SLMs) that integrate speech with large language models (LMs) rely on modality adapters (MAs) to map the output of speech encoders to a representation that is understandable to the decoder LM. Yet we know very little about how these crucial MAs transform representations. Here we examine the MA output representation in three SLMs (SALMONN, Qwen2-Audio and Phi-4-Multimodal-Instruct). By finding the nearest decoder LM token to an MA representation, we uncover two strategies for MA representations. For models using a Whisper encoder, MAs appear to represent the meaning of the input using an English-based interlingua, allowing them to handle languages unseen in instruction tuning. For models that don't, like Phi-4-Multimodal-Instruct, MAs instead represent the phonetics of the input, but expressed with English words. We hypothesise that which arises depends on whether the speech encoder is trained only for speech recognition or also for translation.
- Abstract(参考訳): 音声を大言語モデル(LM)と統合する音声言語モデル(SLM)は、音声エンコーダの出力をデコーダ LM に理解可能な表現にマッピングするモダリティアダプタ(MA)に依存している。
しかし、これらの重要なMAがどのように表現を変換するかはほとんどわかっていません。
本稿では,3つのSLM(SALMONN,Qwen2-Audio,Phi-4-Multimodal-Instruct)のMA出力表現について検討する。
MA表現に最も近いデコーダLMトークンを見つけることで、MA表現の2つの戦略を明らかにする。
Whisperエンコーダを用いたモデルでは、MAは英語をベースとしたインターリンガを用いて入力の意味を表しており、命令チューニングでは見えない言語を扱うことができる。
Phi-4-Multimodal-Instructのようなモデルでは、MAは入力の音声学を表すが、英語の単語で表される。
音声エンコーダが音声認識のためにのみ訓練されるか、翻訳のためにのみ訓練されるかによって生じるかの仮説を立てる。
関連論文リスト
- What Makes a Good Speech Tokenizer for LLM-Centric Speech Generation? A Systematic Study [58.55905182336196]
音声言語モデル(SLM)は、音声とテキストの理解と生成を統一するための有望な経路を提供する。
LLM中心のSLMにおける音声トークン化設計の役割について検討し,音声ヘッドと話者モデルを用いて検討した。
SLMにマルチトークン予測(MTP)を導入し、各隠れ状態が複数の音声トークンを復号化できるようにする。
論文 参考訳(メタデータ) (2025-06-14T15:26:31Z) - DC-Spin: A Speaker-invariant Speech Tokenizer for Spoken Language Models [45.791472119671916]
音声言語モデル(SLM)はテキストと音声を処理し、同時に音声の理解と生成を可能にする。
DC-Spinは音声信号とSLMトークンをブリッジすることで音声のトークン化を改善することを目的としている。
本稿では,再学習や劣化を伴わずに,ストリーム可能なDC-Spinを実現するためのチャンクワイズ手法を提案する。
論文 参考訳(メタデータ) (2024-10-31T17:43:13Z) - DM-Codec: Distilling Multimodal Representations for Speech Tokenization [18.779159914276573]
音声モデルでは、音声のトークン化と合成が大幅に改善されている。
近年,性能向上のための音響・意味トークンの統一化が試みられているが,文脈表現の重要な役割を見落としている。
本研究では,(1)文脈情報を組み込んだ言語モデル(LM)誘導蒸留法,(2)LMと自己教師型音声モデル(SM)誘導蒸留技術を組み合わせた2つの新しい蒸留手法を提案する。
実験の結果、DM-Codecは最先端の音声トークンモデルを大幅に上回り、WERを最大13.46%、WILを9.82%、音声品質を5.5%改善した。
論文 参考訳(メタデータ) (2024-10-19T07:14:14Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and
Translation Using Neural Transducers [71.76680102779765]
自動音声認識(ASR)と音声翻訳(ST)はどちらもモデル構造としてニューラルトランスデューサを使用することができる。
ニューラルトランスデューサを用いた多言語音声認識および翻訳モデルであるLAMASSUを提案する。
論文 参考訳(メタデータ) (2022-11-05T04:03:55Z) - Fused Acoustic and Text Encoding for Multimodal Bilingual Pretraining
and Speech Translation [21.622039537743607]
本稿では,FAT-MLM(Fused Acoustic and Text Masked Language Model)を提案する。
3つの翻訳方向の実験により,FAT-MLMから微調整した音声翻訳モデルが翻訳品質を大幅に向上することが示された。
論文 参考訳(メタデータ) (2021-02-10T22:53:40Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。