論文の概要: SoundMind: RL-Incentivized Logic Reasoning for Audio-Language Models
- arxiv url: http://arxiv.org/abs/2506.12935v1
- Date: Sun, 15 Jun 2025 18:26:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:47.110255
- Title: SoundMind: RL-Incentivized Logic Reasoning for Audio-Language Models
- Title(参考訳): SoundMind:RL-Incentivized Logic Reasoning for Audio-Language Models
- Authors: Xingjian Diao, Chunhui Zhang, Keyi Kong, Weiyi Wu, Chiyu Ma, Zhongyu Ouyang, Peijun Qing, Soroush Vosoughi, Jiang Gui,
- Abstract要約: 我々は6,446の注釈付きサンプルからなるAudio Logical Reasoningデータセットを紹介する。
次に,ルールに基づく強化学習アルゴリズムSoundMindを提案する。
提案手法は,音声論理的推論における最先端性能を実現する。
- 参考スコア(独自算出の注目度): 25.143840124269193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large language models have shown reasoning capabilities, their application to the audio modality, particularly in large audio-language models (ALMs), remains significantly underdeveloped. Addressing this gap requires a systematic approach, involving a capable base model, high-quality reasoning-oriented audio data, and effective training algorithms. In this study, we present a comprehensive solution: we introduce the Audio Logical Reasoning (ALR) dataset, consisting of 6,446 text-audio annotated samples specifically designed for complex reasoning tasks. Building on this resource, we propose SoundMind, a rule-based reinforcement learning (RL) algorithm tailored to endow ALMs with deep bimodal reasoning abilities. By training Qwen2.5-Omni-7B on the ALR dataset using SoundMind, our approach achieves state-of-the-art performance in audio logical reasoning. This work highlights the impact of combining high-quality, reasoning-focused datasets with specialized RL techniques, advancing the frontier of auditory intelligence in language models. Our code and the proposed dataset are available at https://github.com/xid32/SoundMind.
- Abstract(参考訳): 大規模言語モデルは推論能力を示しているが、特に大規模オーディオ言語モデル(ALM)におけるオーディオモダリティへの応用は、依然として著しく未発達である。
このギャップに対処するには、有能なベースモデル、高品質な推論指向オーディオデータ、効果的なトレーニングアルゴリズムを含む、体系的なアプローチが必要である。
本研究では,複雑な推論タスクに特化して設計された6,446個のテキスト・オーディオ・アノテート・サンプルからなるALRデータセットを提案する。
本研究では,ルールに基づく強化学習(RL)アルゴリズムであるSoundMindを提案する。
SoundMind を用いて ALR データセット上で Qwen2.5-Omni-7B を訓練することにより,音声論理的推論における最先端性能を実現する。
この研究は、高品質で推論にフォーカスしたデータセットと特殊なRL技術を組み合わせることの影響を強調し、言語モデルにおける聴覚インテリジェンスの最前線を前進させる。
私たちのコードと提案されたデータセットはhttps://github.com/xid32/SoundMind.comで公開されています。
関連論文リスト
- Step-Audio-AQAA: a Fully End-to-End Expressive Large Audio Language Model [85.72664004969182]
本稿では,AQAA(Audio-Audio Answer)タスク用に設計された完全エンドツーエンドのLALMであるStep-Audio-AQAAを紹介する。
このモデルは、言語的特徴抽出と意味的特徴抽出のためのデュアルコードブックオーディオトークンーザを統合している。
我々のポストトレーニングアプローチでは、意味的コヒーレンスを高めるために、テキストとオーディオのインターリーブドトークンアウトプットを用いる。
論文 参考訳(メタデータ) (2025-06-10T16:37:39Z) - From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
LISTENは、現在と欠落した音を識別するallMsの能力を改善するために設計された、コントラスト的な訓練手法である。
また、BALSaをマルチオーディオシナリオに拡張し、モデルが音声入力の違いを説明するか、統一的なキャプションを生成する。
実験結果から,本手法は音声理解,推論,指示追従のスキルを確実に保ちながら,音声の幻覚を効果的に緩和することが示された。
論文 参考訳(メタデータ) (2025-05-26T16:08:41Z) - EchoInk-R1: Exploring Audio-Visual Reasoning in Multimodal LLMs via Reinforcement Learning [108.73513190593232]
MLLM(Multimodal large language model)は、テキスト、視覚、音声にまたがる高度な認識を持つが、構造化されたクロスモーダル推論に苦慮する。
MLLMにおけるそのような推論を強化する強化学習フレームワークであるEchoInk-R1を紹介する。
論文 参考訳(メタデータ) (2025-05-07T17:59:49Z) - Reinforcement Learning Outperforms Supervised Fine-Tuning: A Case Study on Audio Question Answering [22.88876323500893]
強化学習(RL)は、大規模言語モデル(LLM)の推論能力を大幅に向上させることが示されている。
我々は、音声理解と推論において、特に音声質問応答(AQA)タスクに焦点を当てた一連のRL探索を行う。
実験ではMMAU Test-miniベンチマークで最先端の性能を示し,64.5%の精度を実現した。
論文 参考訳(メタデータ) (2025-03-14T08:43:53Z) - Mellow: a small audio language model for reasoning [31.309253699062307]
Mellowは、推論用に特別に設計された小さなAudio-Language Modelだ。
ReasonAQAは、モデルにおけるオーディオグラウンド推論を強化するために設計されたデータセットである。
私たちのトレーニングデータセット、発見、ベースラインは、推論可能な小さなALMを開発するための道を開いた。
論文 参考訳(メタデータ) (2025-03-11T15:29:00Z) - Audio-Reasoner: Improving Reasoning Capability in Large Audio Language Models [95.45204813682885]
本稿では,音声タスクの深い推論のための大規模音声言語モデルであるAudio-Reasonerを紹介する。
我々は、CoTA上でAudio-Reasonerを訓練し、オーディオ推論において優れた論理的機能を実現する。
以上の結果から,音声推論における構造化CoTトレーニングのコアが強調された。
論文 参考訳(メタデータ) (2025-03-04T06:18:34Z) - Large Language Models are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法を評価し,WERが0.79%,AVSRが0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果が得られることを示した。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。