論文の概要: Style Amnesia: Investigating Speaking Style Degradation and Mitigation in Multi-Turn Spoken Language Models
- arxiv url: http://arxiv.org/abs/2512.23578v2
- Date: Sun, 04 Jan 2026 01:36:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 14:31:43.715395
- Title: Style Amnesia: Investigating Speaking Style Degradation and Mitigation in Multi-Turn Spoken Language Models
- Title(参考訳): スタイルアムネシア:マルチターン音声言語モデルにおける発話スタイルの劣化と緩和の検討
- Authors: Yu-Xiang Lin, Cheng-Han Chiang, Hung-yi Lee,
- Abstract要約: 音声言語モデル(SLM)が特定の話し方で話すように指示された場合、対話の繰り返しの後、必要な話し方を維持することはできない。
我々は、感情、アクセント、音量、発話速度など、パラ言語的な話し方に焦点を当てる。
明示的にスタイルインストラクションをリコールするようモデルに要求することは、部分的にスタイルアムネシアを軽減することができる。
- 参考スコア(独自算出の注目度): 61.494659340367605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we show that when spoken language models (SLMs) are instructed to speak in a specific speaking style at the beginning of a multi-turn conversation, they cannot maintain the required speaking styles after several turns of interaction; we refer to this as the style amnesia of SLMs. We focus on paralinguistic speaking styles, including emotion, accent, volume, and speaking speed. We evaluate three proprietary and two open-source SLMs, demonstrating that none of these models can maintain a consistent speaking style when instructed to do so. We further show that when SLMs are asked to recall the style instruction in later turns, they can recall the style instruction, but they fail to express it throughout the conversation. We also show that explicitly asking the model to recall the style instruction can partially mitigate style amnesia. In addition, we examine various prompting strategies and find that SLMs struggle to follow the required style when the instruction is placed in system messages rather than user messages, which contradicts the intended function of system prompts.
- Abstract(参考訳): 本稿では,音声言語モデル (SLM) が,マルチターン会話の開始時に特定の話し方で話すように指示された場合,複数回対話した後に必要な話し方を維持することができないことを示す。
我々は、感情、アクセント、音量、発話速度など、パラ言語的な話し方に焦点を当てる。
我々は3つのプロプライエタリなSLMと2つのオープンソースSLMを評価し、これらのモデルがそれを行うように指示されたとき、どのモデルも一貫した話し方を維持することができないことを示した。
さらに,SLMが後続のスタイル命令をリコールするように要求された場合,スタイル命令をリコールできるが,会話中は表現できないことを示す。
また、モデルにスタイル命令のリコールを明示的に求めることで、スタイルのアムネシアを部分的に軽減できることを示す。
さらに,システムプロンプトの意図する機能に反するユーザメッセージではなく,システムメッセージに命令を配置する場合,SLMは必要なスタイルに従うのに苦労する。
関連論文リスト
- VStyle: A Benchmark for Voice Style Adaptation with Spoken Instructions [66.93932684284695]
音声理解と生成のための統一パラダイムとして、音声言語モデル(SLM)が登場した。
音声スタイル適応(VSA)は,SLMが話し方を変更することができるかどうかを調べる新しいタスクである。
音響属性,自然言語命令,ロールプレイ,暗黙の共感の4つのカテゴリを網羅したベンチマークであるVStyleを提案する。
また,Large Audio Language Model as a Judge (LALM as a Judge) フレームワークを導入し,文章の忠実性,スタイルの忠実性,自然性に沿って出力を段階的に評価する。
論文 参考訳(メタデータ) (2025-09-09T14:28:58Z) - Advancing Large Language Models to Capture Varied Speaking Styles and Respond Properly in Spoken Conversations [65.29513437838457]
現在の2つの旋回が同じ文であっても、異なるスタイルで話されるときの応答は相変わらず異なる。
本稿では,言語内容と発話スタイルをモデル化できるSpken-LLMフレームワークを提案する。
StyleTalkデータセットを使用してSpoken-LLMをトレーニングし、Spoken-LLMが話し方を学ぶのに役立つ2段階のトレーニングパイプラインを作成します。
論文 参考訳(メタデータ) (2024-02-20T07:51:43Z) - Conversation Style Transfer using Few-Shot Learning [56.43383396058639]
本稿では,会話スタイルの伝達を数ショットの学習問題として紹介する。
そこで本研究では,スタイルフリー対話による課題をピボットとして解くための,コンテキスト内学習手法を提案する。
会話スタイルの転送は下流のタスクにも役立ちます。
論文 参考訳(メタデータ) (2023-02-16T15:27:00Z) - Imitating Arbitrary Talking Style for Realistic Audio-DrivenTalking Face
Synthesis [17.650661515807993]
本稿では,特定の参照ビデオの任意の発話スタイルを模倣することにより,音声合成フレームワークにスタイルを注入することを提案する。
我々は,スタイルコードから発声スタイルを模倣して,スタイリングされた音声を合成する潜在スタイル融合(LSF)モデルを考案した。
論文 参考訳(メタデータ) (2021-10-30T08:15:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。