論文の概要: Advancing Speech Understanding in Speech-Aware Language Models with GRPO
- arxiv url: http://arxiv.org/abs/2509.16990v1
- Date: Sun, 21 Sep 2025 09:09:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.069768
- Title: Advancing Speech Understanding in Speech-Aware Language Models with GRPO
- Title(参考訳): GRPOを用いた音声認識言語モデルにおける音声理解の促進
- Authors: Avishai Elmakies, Hagai Aronowitz, Nimrod Shabtay, Eli Schwartz, Ron Hoory, Avihu Dekel,
- Abstract要約: 音声対応大規模言語モデル(SALLM)を学習するためのグループ相対政策最適化法(GRPO)を提案する。
SALLMは、音声理解タスクに非常に効果的であることが証明されている。
モデルの生成能力をよりよく反映したオープンフォーマットタスクに重点を置いています。
- 参考スコア(独自算出の注目度): 11.469805131210373
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce a Group Relative Policy Optimization (GRPO)-based method for training Speech-Aware Large Language Models (SALLMs) on open-format speech understanding tasks, such as Spoken Question Answering and Automatic Speech Translation. SALLMs have proven highly effective for speech understanding tasks. GRPO has recently gained traction for its efficiency in training LLMs, and prior work has explored its application to SALLMs, primarily in multiple-choice tasks. Building on this, we focus on open-format tasks that better reflect the generative abilities of the models. Our approach leverages GRPO with BLEU as the reward signal to optimize SALLMs, and we demonstrate empirically that it surpasses standard SFT across several key metrics. Finally, we explore the potential of incorporating off-policy samples within GRPO for these tasks, highlighting avenues for further improvement and further research.
- Abstract(参考訳): 本稿では,音声質問応答や自動音声翻訳などのオープンな音声理解タスクにおいて,音声認識大言語モデル(SALLM)を訓練するためのグループ相対政策最適化(GRPO)に基づく手法を提案する。
SALLMは、音声理解タスクに非常に効果的であることが証明されている。
GRPOは最近、LLMのトレーニングの効率向上で注目を集めており、以前の研究では、主に複数選択タスクにおいて、SALLMsへの適用を探求してきた。
これに基づいて、モデルの生成能力をよりよく反映するオープンフォーマットタスクにフォーカスします。
提案手法では,GRPOをBLEUと組み合わせてSALLMの最適化を行う。
最後に、これらの課題に対して、GRPOに非政治サンプルを組み込むことの可能性について検討し、さらなる改善とさらなる研究の道のりを明らかにする。
関連論文リスト
- Enhancing Speech Large Language Models through Reinforced Behavior Alignment [5.647822820528311]
本稿では,言語生成能力を高めるためのRBA(Reinforced Behavior Alignment)というフレームワークを提案する。
RBAは、人間のアノテーションから教師付き微調整に頼るのではなく、自己合成手法を用いて、広範囲で高忠実なアライメントデータを生成する。
実験により,本手法はSpeechLMの指示追従能力を効果的に向上することを示した。
論文 参考訳(メタデータ) (2025-08-25T07:31:48Z) - Zero-Shot Keyphrase Generation: Investigating Specialized Instructions and Multi-Sample Aggregation on Large Language Models [52.829293635314194]
キーフレーズ生成(英: Keyphrase generation)とは、ある文書のキーフレーズを自動的に生成する、長期にわたるNLPタスクである。
本稿では,オープンソースの命令調整型LDM (Phi-3, Llama-3) のゼロショット機能と,このタスクのためのクローズドソース GPT-4o に着目した。
論文 参考訳(メタデータ) (2025-03-01T19:38:57Z) - Get Large Language Models Ready to Speak: A Late-fusion Approach for Speech Generation [14.746190461312036]
大規模言語モデル (LLM) は自然言語処理 (NLP) に革命をもたらした。
そこで本稿では,TTS-Llamaモデルを用いたテキスト音声合成(TTS)システムを提案する。
さらに,テキストと音声によるマルチモーダルLLMであるMoLE-Llamaを提案する。
論文 参考訳(メタデータ) (2024-10-27T04:28:57Z) - DeSTA2: Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - SpeechPrompt: Prompting Speech Language Models for Speech Processing Tasks [94.10497337235083]
我々はまず,音声処理分野における音声 LM の促進の可能性を探る。
音声処理タスクを音声単位生成タスクに再構成する。
提案手法は, 強い微調整法と比較して, 競争性能を向上できることを示す。
論文 参考訳(メタデータ) (2024-08-23T13:00:10Z) - MAPO: Boosting Large Language Model Performance with Model-Adaptive Prompt Optimization [73.7779735046424]
異なるプロンプトを異なるLarge Language Models (LLM) に適応させることで,NLP の様々な下流タスクにまたがる機能の向上が期待できる。
次に、下流タスクにおける各LLMに対して、元のプロンプトを最適化するモデル適応プロンプト(MAPO)手法を提案する。
論文 参考訳(メタデータ) (2024-07-04T18:39:59Z) - Improving Factuality and Reasoning in Language Models through Multiagent
Debate [95.10641301155232]
複数の言語モデルインスタンスが共通の最終回答に到達するために、複数のラウンドで個別の応答と推論プロセスを提案し、議論する言語応答を改善するための補完的なアプローチを提案する。
以上の結果から,本手法は様々なタスクにおける数学的・戦略的推論を著しく向上させることが示唆された。
我々のアプローチは、既存のブラックボックスモデルに直接適用され、調査するすべてのタスクに対して、同じ手順とプロンプトを使用することができる。
論文 参考訳(メタデータ) (2023-05-23T17:55:11Z) - Unsupervised Improvement of Factual Knowledge in Language Models [4.5788796239850225]
マスケッド言語モデリングは、大規模言語モデルの事前訓練において重要な役割を果たす。
本稿では,様々な知識集約型タスクにおいて,言語モデルの性能を向上させる方法として,事前学習に影響を与えるアプローチを提案する。
論文 参考訳(メタデータ) (2023-04-04T07:37:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。