Fugu-MT 論文翻訳(概要): Do Factual Recall Mechanisms Carry over from Text to Speech in Multimodal Language Models?

論文の概要: Do Factual Recall Mechanisms Carry over from Text to Speech in Multimodal Language Models?

arxiv url: http://arxiv.org/abs/2605.22170v1
Date: Thu, 21 May 2026 08:41:39 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-22 16:35:42.16895
Title: Do Factual Recall Mechanisms Carry over from Text to Speech in Multimodal Language Models?
Title（参考訳）: マルチモーダル言語モデルにおけるテキストから音声へのファクトリコール機構
Authors: Luca Modica, Filip Landin, Mehrdad Farahani, Livia Qian, Gabriel Skantze, Richard Johansson,
Abstract要約: 音声とテキストを共同で表現する音声言語モデル(SLM)が提案されている。これまでにテキストのみのモデルで研究されてきた事実知識のエンコード、保存、検索に焦点をあてる。
参考スコア（独自算出の注目度）: 9.942304765355606
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: In recent years, several Speech Language Models (SLMs) that represent speech and written text jointly have been presented. The question then emerges about how model-internal mechanisms are similar and different when operating in the two modalities. We focus on how these systems encode, store, and retrieve factual knowledge, which has previously been investigated for text-only models. To investigate mechanisms behind the storage and recall of factual association in SLMs, we leverage Causal Mediation Analysis, a technique previously applied to text-based models. Initial results using SpiritLM, a multimodal model integrating discrete speech tokens reveal discrepancies between text-to-text and speech-to-text results, suggesting that the emergent mechanisms for factual recall are only partially carried over from the text to the speech modality. These results advance our understanding of how internal mechanisms encode factual associations in SLMs while contributing insights for improving speech-enabled AI systems.
Abstract（参考訳）: 近年,音声と文章を共同で表現する言語モデル (SLM) がいくつか発表されている。次に、モデル内部機構が2つのモードで動作する際にどのように類似し、異なるかという疑問が浮かび上がってくる。これまでにテキストのみのモデルで研究されてきた事実知識のエンコード、保存、検索に焦点をあてる。本研究では,SLMにおける事実関連の記憶とリコールのメカニズムを解明するために,従来テキストベースモデルに応用されていたCausal Mediation Analysisを活用する。離散的な音声トークンを統合したマルチモーダルモデルであるSpiritLMを用いた最初の結果から,テキスト・トゥ・テキストと音声・テキスト間の相違が明らかとなり,事実的リコールの創発的メカニズムがテキストから音声モダリティへ部分的に引き継がれることが示唆された。これらの結果は、音声対応AIシステムを改善するための洞察を提供しながら、内部メカニズムがSLMの事実関連をエンコードする方法の理解を深めるものである。

関連論文リスト

What Makes a Good Speech Tokenizer for LLM-Centric Speech Generation? A Systematic Study [58.55905182336196]
音声言語モデル(SLM)は、音声とテキストの理解と生成を統一するための有望な経路を提供する。 LLM中心のSLMにおける音声トークン化設計の役割について検討し,音声ヘッドと話者モデルを用いて検討した。 SLMにマルチトークン予測(MTP)を導入し、各隠れ状態が複数の音声トークンを復号化できるようにする。
論文参考訳（メタデータ） (2025-06-14T15:26:31Z)
DrVoice: Parallel Speech-Text Voice Conversation Model via Dual-Resolution Speech Representations [62.00227663434538]
DRVOICE-7BはOpenAudioBenchとBig Bench Audioベンチマーク上で新しい最先端(SOTA)を確立する。本稿では,共同自己回帰モデルに基づくパラレル音声音声対話モデルであるDrVoiceを提案する。
論文参考訳（メタデータ） (2025-06-11T02:57:22Z)
SEAL: Speech Embedding Alignment Learning for Speech Large Language Model with Retrieval-Augmented Generation [10.828717295018123]
本稿では,中間テキスト表現の必要性を解消する統合埋め込みフレームワークを提案する。本モデルでは,従来の2段階法に比べて高い精度でパイプライン遅延を50%削減する。
論文参考訳（メタデータ） (2025-01-26T15:04:02Z)
Recent Advances in Speech Language Models: A Survey [45.968078636811356]
音声言語モデル(SpeechLMs)は、テキストから変換することなく音声を生成するエンドツーエンドモデルである。本稿では,近年のSpeechLM構築手法について概観する。
論文参考訳（メタデータ） (2024-10-01T21:48:12Z)
Paralinguistics-Aware Speech-Empowered Large Language Models for Natural Conversation [46.93969003104427]
本稿では,広範な音声テキストLLMフレームワークである統一音声対話モデル(USDM)を紹介する。 USDMは、与えられた入力音声に関連する自然な韻律的特徴を持つコヒーレントな音声応答を生成するように設計されている。提案手法は,従来のベースラインとカスケードベースラインを超越した自然な音声応答を効果的に生成する。
論文参考訳（メタデータ） (2024-02-08T14:35:09Z)
Toward Joint Language Modeling for Speech Units and Text [89.32163954508489]
音声単位とテキストの共用言語モデリングについて検討する。音声とテキストの混在度を評価するための自動計測手法を提案する。提案手法を用いて音声単位とテキストを混合することにより,SLUタスクにおける音声のみのベースラインを改良することを示す。
論文参考訳（メタデータ） (2023-10-12T20:53:39Z)
Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension [81.47133615169203]
本稿では,PrLMの逐次文脈化を超えて,発話間の包括的相互作用のための合成学習を提案する。私たちは、モデルが対話ドメインに適応するのを助けるために、ドメイン適応型トレーニング戦略を採用しています。実験の結果,提案手法は4つの公開ベンチマークデータセットにおいて,強力なPrLMベースラインを著しく向上させることがわかった。
論文参考訳（メタデータ） (2023-01-10T13:18:25Z)
SPLAT: Speech-Language Joint Pre-Training for Spoken Language Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文参考訳（メタデータ） (2020-10-05T19:29:49Z)
Filling the Gap of Utterance-aware and Speaker-aware Representation for Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文参考訳（メタデータ） (2020-09-14T15:07:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。