論文の概要: Enhancing Speech Large Language Models through Reinforced Behavior Alignment
- arxiv url: http://arxiv.org/abs/2509.03526v1
- Date: Mon, 25 Aug 2025 07:31:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-07 09:10:15.291
- Title: Enhancing Speech Large Language Models through Reinforced Behavior Alignment
- Title(参考訳): 強化行動アライメントによる音声大言語モデルの強化
- Authors: Yansong Liu, Jiateng Li, Yuan Liu,
- Abstract要約: 本稿では,言語生成能力を高めるためのRBA(Reinforced Behavior Alignment)というフレームワークを提案する。
RBAは、人間のアノテーションから教師付き微調整に頼るのではなく、自己合成手法を用いて、広範囲で高忠実なアライメントデータを生成する。
実験により,本手法はSpeechLMの指示追従能力を効果的に向上することを示した。
- 参考スコア(独自算出の注目度): 5.647822820528311
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent advancements of Large Language Models (LLMs) have spurred considerable research interest in extending their linguistic capabilities beyond text to other modalities, which leads to emergence of speech-based LLMs (SpeechLMs) with capability of processing user request in either speech or textual formats. However, owing to inter-modal discrepancies, these SpeechLMs still exhibit a significant performance gap compared to their text-based LLM counterparts in instruction-following, particularly when confronted with the dynamic and variable nature of user speech. To address this challenge, this paper introduces a framework termed Reinforced Behavior Alignment (RBA), designed to bolster the language generation proficiency of SpeechLMs. Instead of relying on supervised fine-tuning from human annotations, RBA employs a self-synthesis methodology to generate extensive, high-fidelity alignment data by a powerful teacher LLM. Then SpeechLMs is aligned its behavior with that of a teacher using a reinforcement learning-based approach. Experimental results demonstrate that this method effectively enhances the instruction-following capabilities of SpeechLMs that outperform conventional distillation baselines. Crucially, we demonstrate that RBA can be seamlessly extended to tasks such including spoken question answering and speech-to-text translation, attaining state-of-the-art performance on open benchmarks with only self-generated data.
- Abstract(参考訳): 近年のLLM(Large Language Models)の進歩は、言語機能をテキストを超えて他のモダリティに拡張することに対する研究の関心を喚起し、音声やテキストのフォーマットでユーザ要求を処理する能力を持つ音声ベースのLLM(SpeechLMs)の出現につながった。
しかしながら、モーダル間不一致のため、これらのSpeechLMは、テキストベースのLLMと比較して、命令追従において、特にユーザ音声の動的・可変性に直面する場合、大きな性能差をみせている。
本稿では,言語生成能力の向上を目的としたRBA(Reinforced Behavior Alignment)というフレームワークを提案する。
RBAは、人間のアノテーションから教師付き微調整に頼るのではなく、自己合成手法を用いて強力な教師LLMによる広範囲で高忠実なアライメントデータを生成する。
次に、SpeechLMsは、強化学習に基づくアプローチを用いて、教師の行動と一致させる。
実験により, 従来の蒸留ベースラインよりも優れたSpeechLMの指示追従性能を効果的に向上することが確認された。
重要なことは、RABが音声質問応答や音声からテキストへの翻訳などのタスクにシームレスに拡張できることを示し、自己生成データのみを用いたオープンベンチマークで最先端のパフォーマンスを実現する。
関連論文リスト
- Speech-IFEval: Evaluating Instruction-Following and Quantifying Catastrophic Forgetting in Speech-Aware Language Models [49.1574468325115]
本稿では,命令追従能力を評価するための評価フレームワークであるSpeech-IFevalを紹介する。
近年のSLMは,音声認識を大規模言語モデル (LLM) と統合し,音声中心の訓練によるテキスト能力の低下を招いている。
以上の結果から, SLM はテキストベースの LLM よりもはるかに高い性能を示し, 基本命令にも耐え難いことが示唆された。
論文 参考訳(メタデータ) (2025-05-25T08:37:55Z) - Self-Powered LLM Modality Expansion for Large Speech-Text Models [62.27700381806554]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスを示す。
本研究は,バニラ調律の限界に対処して,LSM訓練における音声データセットの利用を改良することを目的とする。
そこで本研究では,モデル自体が生成する拡張音声認識データを利用して,より効果的な命令チューニングを行う自己力 LSM を提案する。
論文 参考訳(メタデータ) (2024-10-04T04:34:24Z) - DeSTA2: Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - Towards ASR Robust Spoken Language Understanding Through In-Context
Learning With Word Confusion Networks [68.79880423713597]
本稿では,トップ仮説のみに頼るのではなく,ASRシステムの格子出力を利用する手法を提案する。
音声質問応答と意図分類を網羅した文脈内学習実験により,LLMの音声書き起こしに対する弾力性について明らかにした。
論文 参考訳(メタデータ) (2024-01-05T17:58:10Z) - Exploring the Integration of Large Language Models into Automatic Speech
Recognition Systems: An Empirical Study [0.0]
本稿では,Large Language Models (LLM) と自動音声認識(ASR)システムの統合について検討する。
我々の主な焦点は、LLMのコンテキスト内学習機能を用いて、ASRシステムの性能を向上させる可能性を調査することである。
論文 参考訳(メタデータ) (2023-07-13T02:31:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。