論文の概要: SARI: Structured Audio Reasoning via Curriculum-Guided Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2504.15900v2
- Date: Sun, 27 Apr 2025 10:27:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.789578
- Title: SARI: Structured Audio Reasoning via Curriculum-Guided Reinforcement Learning
- Title(参考訳): SARI:カリキュラム誘導強化学習による構造化オーディオ推論
- Authors: Cheng Wen, Tingwei Guo, Shuaijiang Zhao, Wei Zou, Xiangang Li,
- Abstract要約: 強化学習は、大きな言語モデル(LLM)の推論能力を「答える前に考える」よう促すことによって、強化することができる。
明示的で構造化された推論とカリキュラム学習は、音声言語理解を大幅に強化することを示す。
- 参考スコア(独自算出の注目度): 21.36638095182274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work shows that reinforcement learning(RL) can markedly sharpen the reasoning ability of large language models (LLMs) by prompting them to "think before answering." Yet whether and how these gains transfer to audio-language reasoning remains largely unexplored. We extend the Group-Relative Policy Optimization (GRPO) framework from DeepSeek-R1 to a Large Audio-Language Model (LALM), and construct a 32k sample multiple-choice corpus. Using a two-stage regimen supervised fine-tuning on structured and unstructured chains-of-thought, followed by curriculum-guided GRPO, we systematically compare implicit vs. explicit, and structured vs. free form reasoning under identical architectures. Our structured audio reasoning model, SARI (Structured Audio Reasoning via Curriculum-Guided Reinforcement Learning), achieves a 16.35% improvement in average accuracy over the base model Qwen2-Audio-7B-Instruct. Furthermore, the variant built upon Qwen2.5-Omni reaches state-of-the-art performance of 67.08% on the MMAU test-mini benchmark. Ablation experiments show that on the base model we use: (i) SFT warm-up is important for stable RL training, (ii) structured chains yield more robust generalization than unstructured ones, and (iii) easy-to-hard curricula accelerate convergence and improve final performance. These findings demonstrate that explicit, structured reasoning and curriculum learning substantially enhances audio-language understanding.
- Abstract(参考訳): 最近の研究は、強化学習(RL)が「答える前に考える」よう促すことで、大きな言語モデル(LLM)の推論能力を著しく向上させることができることを示している。
しかし、これらの利益が音声による推論にどのように移行されるのかは、まだ明らかになっていない。
我々は、グループ相対政策最適化(GRPO)フレームワークをDeepSeek-R1からLarge Audio-Language Model(LALM)に拡張し、32kサンプル多重選択コーパスを構築する。
構造化鎖と非構造化鎖の微調整を2段階に指導し, カリキュラムガイド付きGRPOを用いて, 暗黙的, 明示的, 構造化的, 自由形式的推論を同一アーキテクチャ下で体系的に比較した。
構造化音声推論モデルSARI(Structured Audio Reasoning via Curriculum-Guided Reinforcement Learning)は,ベースモデルQwen2-Audio-7B-Instructよりも平均精度が16.35%向上した。
さらに、Qwen2.5-Omniをベースとした派生型は、MMAUテストミニベンチマークで67.08%の最先端性能を達成した。
アブレーション実験は、私たちが使用するベースモデルについて示しています。
(i)SFTウォームアップは安定したRLトレーニングに重要である。
(II)構造鎖は非構造鎖よりも堅牢な一般化をもたらす。
三 容易に硬いキュリキュラが収束を加速し、最終性能を向上させること。
これらの結果は、明示的で構造化された推論とカリキュラム学習が、音声言語理解を大幅に強化することを示している。
関連論文リスト
- Reinforcement Learning Outperforms Supervised Fine-Tuning: A Case Study on Audio Question Answering [22.88876323500893]
強化学習(RL)は、大規模言語モデル(LLM)の推論能力を大幅に向上させることが示されている。
我々は、音声理解と推論において、特に音声質問応答(AQA)タスクに焦点を当てた一連のRL探索を行う。
実験ではMMAU Test-miniベンチマークで最先端の性能を示し,64.5%の精度を実現した。
論文 参考訳(メタデータ) (2025-03-14T08:43:53Z) - Reasoning with Reinforced Functional Token Tuning [70.96651128307985]
本稿では,大規模言語モデル(LLM)に自己学習能力を持たせるためにRFTT(Reinforced Functional Token Tuning)を提案する。
RFTTは、学習可能な関数トークンの豊富なセットをモデル語彙に直接埋め込んで、多様な人間のような推論行動によるチェーン・オブ・思想の構築を可能にする。
論文 参考訳(メタデータ) (2025-02-19T02:59:42Z) - SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models [88.29990536278167]
SPaRは、木探索の自己精製を統合して、有効かつ同等な選好ペアを得るセルフプレイフレームワークである。
実験により,SPaRで誘導された3回の反復で訓練されたLLaMA3-8Bモデルが,一般機能を失うことなくIFEvalベンチマークでGPT-4-Turboを上回った。
論文 参考訳(メタデータ) (2024-12-16T09:47:43Z) - Exploring the Role of Reasoning Structures for Constructing Proofs in Multi-Step Natural Language Reasoning with Large Language Models [30.09120709652445]
本稿では,現在最先端のジェネラリスト LLM がいくつかの例でこれらの構造を活用でき,テキスト・コンテクスト・ラーニングによる証明構造をより良く構築できるかどうかという,焦点を絞った研究に焦点をあてる。
論文 参考訳(メタデータ) (2024-10-11T00:45:50Z) - Speechworthy Instruction-tuned Language Models [71.8586707840169]
提案手法は,学習の促進と嗜好の両面において,一般的な命令調整型LLMの音声適合性の向上を図っている。
我々は,各手法が生成した応答の音声適合性向上にどのように貢献するかを示すために,語彙的,構文的,定性的な分析を共有する。
論文 参考訳(メタデータ) (2024-09-23T02:34:42Z) - Self-Discover: Large Language Models Self-Compose Reasoning Structures [136.48389510481758]
タスク固有の推論構造を自己発見するフレームワークであるSELF-DISCOVERを紹介する。
SELF-DISCOVERは、挑戦的推論ベンチマークにおいて、GPT-4とPaLM 2の性能を大幅に改善する。
自己発見推論構造は、モデルファミリー全体にわたって普遍的に適用可能であることを示す。
論文 参考訳(メタデータ) (2024-02-06T01:13:53Z) - SEER: Facilitating Structured Reasoning and Explanation via Reinforcement Learning [29.514755268807868]
構造的推論と説明を容易にする構造的回帰を最大化する新しい手法であるSEERを提案する。
提案手法は構造的推論に固有の階層構造と分岐構造を正確に記述する。
実験の結果,SEERは最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-01-24T06:10:51Z) - Unifying Structure and Language Semantic for Efficient Contrastive
Knowledge Graph Completion with Structured Entity Anchors [0.3913403111891026]
知識グラフ補完(KGC)の目標は、すでに知られている訓練された事実を用いて、KGの欠落したリンクを予測することである。
本稿では,帰納的推論の力を失うことなく,構造情報と言語意味を効果的に統一する手法を提案する。
論文 参考訳(メタデータ) (2023-11-07T11:17:55Z) - Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for
Large Language Models [125.91897197446379]
MoEモデルは高密度モデルよりも命令チューニングの恩恵を受ける。
我々の最も強力なモデルであるFLAN-MOE-32Bは、4つのベンチマークタスクにおけるFLAN-PALM-62Bの性能を上回る。
論文 参考訳(メタデータ) (2023-05-24T04:22:26Z) - Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal
Structured Representations [70.41385310930846]
マルチモーダルな構造表現を強化するためのエンドツーエンドフレームワークであるStructure-CLIPを提案する。
シーングラフを用いてセマンティックなネガティブな例の構築をガイドし、その結果、構造化された表現の学習に重点を置いている。
知識エンハンス(KEE)は、SGKを入力として活用し、構造化表現をさらに強化するために提案される。
論文 参考訳(メタデータ) (2023-05-06T03:57:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。