論文の概要: Step-Audio-R1 Technical Report
- arxiv url: http://arxiv.org/abs/2511.15848v1
- Date: Wed, 19 Nov 2025 20:12:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.361595
- Title: Step-Audio-R1 Technical Report
- Title(参考訳): Step-Audio-R1テクニカルレポート
- Authors: Fei Tian, Xiangyu Tony Zhang, Yuxin Zhang, Haoyang Zhang, Yuxin Li, Daijiao Liu, Yayue Deng, Donghang Wu, Jun Chen, Liang Zhao, Chengyuan Yao, Hexin Liu, Eng Siong Chng, Xuerui Yang, Xiangyu Zhang, Daxin Jiang, Gang Yu,
- Abstract要約: 本稿では,音声領域における推論能力の解放に成功した最初の音声推論モデルであるStep-Audio-R1を紹介する。
私たちのモデルは、Gemini 2.5 Proを抜いて、最先端のGemini 3 Proに匹敵するパフォーマンスを実現した、強力なオーディオ推論能力を示しています。
- 参考スコア(独自算出の注目度): 70.37077572409319
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in reasoning models have demonstrated remarkable success in text and vision domains through extended chain-of-thought deliberation. However, a perplexing phenomenon persists in audio language models: they consistently perform better with minimal or no reasoning, raising a fundamental question - can audio intelligence truly benefit from deliberate thinking? We introduce Step-Audio-R1, the first audio reasoning model that successfully unlocks reasoning capabilities in the audio domain. Through our proposed Modality-Grounded Reasoning Distillation (MGRD) framework, Step-Audio-R1 learns to generate audio-relevant reasoning chains that genuinely ground themselves in acoustic features rather than hallucinating disconnected deliberations. Our model exhibits strong audio reasoning capabilities, surpassing Gemini 2.5 Pro and achieving performance comparable to the state-of-the-art Gemini 3 Pro across comprehensive audio understanding and reasoning benchmarks spanning speech, environmental sounds, and music. These results demonstrate that reasoning is a transferable capability across modalities when appropriately anchored, transforming extended deliberation from a liability into a powerful asset for audio intelligence. By establishing the first successful audio reasoning model, Step-Audio-R1 opens new pathways toward building truly multimodal reasoning systems that think deeply across all sensory modalities.
- Abstract(参考訳): 推論モデルの最近の進歩は、拡張されたチェーン・オブ・シークレットの熟考を通じて、テキストや視覚領域において顕著な成功を収めている。
しかし、難解な現象は、音声言語モデルに持続する:彼らは最小か無の推論で一貫して良く機能し、根本的な疑問を提起する - オーディオインテリジェンスは、思慮深い思考から真に利益を得ることができるか?
本稿では,音声領域における推論能力の解放に成功した最初の音声推論モデルであるStep-Audio-R1を紹介する。
提案したModality-Grounded Reasoning Distillation (MGRD) フレームワークを通じて、Step-Audio-R1は、無関係な議論を幻覚させるのではなく、音響的特徴に真に根ざしたオーディオ関連推論連鎖を生成することを学ぶ。
我々のモデルは、声、環境音、音楽にまたがる総合的な音声理解と推論のベンチマークで、Gemini 2.5 Proを抜いて、最先端のGemini 3 Proに匹敵するパフォーマンスを実現している。
これらの結果から、推論は適切なアンカーを施すとモダリティ間で伝達可能な能力であり、拡張された議論を負債からオーディオインテリジェンスのための強力な資産へと変換することを示した。
最初の成功例の音声推論モデルを確立することで、Step-Audio-R1は、あらゆる感覚モーダルを深く考える真のマルチモーダル推論システムを構築するための新たな道を開く。
関連論文リスト
- Echo: Towards Advanced Audio Comprehension via Audio-Interleaved Reasoning [39.264735719707154]
現在の取り組みは、ワンタイムエンコーディングを通じて音声コンテンツを文脈化することで、テキストベースの推論を再現している。
本稿では,このボトルネックを突破するための音声インターリーブ推論を提案する。
本稿では,要求時に音声に動的に再登録できるLALMのEchoについて述べる。
論文 参考訳(メタデータ) (2026-02-12T13:06:34Z) - Speech-Hands: A Self-Reflection Voice Agentic Approach to Speech Recognition and Audio Reasoning with Omni Perception [142.4692205981783]
我々は,外部の音声知覚をいつ信頼するか,いつ外部の音声知覚を相談するかを知るという,一貫したスキルを学習する音声認識フレームワークを導入する。
音声認識と外部の音声理解タスクの両方でオムニモデルを鼻で微調整することは、しばしば性能を低下させる。
これを解決するために、我々のフレームワークであるSpeech-Handsは、問題を明示的な自己回帰決定として再考する。この学習可能なプリミティブは、モデルが欠陥のある外部候補によって脱線されるのを防ぐのに有効である。
論文 参考訳(メタデータ) (2026-01-14T12:06:50Z) - SightSound-R1: Cross-Modal Reasoning Distillation from Vision to Audio Language Models [18.802543558300044]
より強力なLVLM教師から弱いLALM学生に高度な推論を伝達するクロスモーダル蒸留フレームワークであるSightSound-R1を提案する。
その結果、SightSound-R1は、ドメイン内AVQAテストセットと見えない聴覚シーンと疑問の両方においてLALM推論性能を改善した。
論文 参考訳(メタデータ) (2025-09-19T06:39:39Z) - AURA: A Fine-Grained Benchmark and Decomposed Metric for Audio-Visual Reasoning [3.949628618389608]
AURAは、Audio-Visual Large Language Models (AV-LLMs) とOmni-Modal Language Models (OLMs) のクロスモーダル推論能力を評価するためのベンチマークである。
AURAには、因果性、音色とピッチ、テンポとAV同期、未解決性、暗黙の気遣い、スキルプロファイリングといった6つの困難な認知領域に関する質問が含まれている。
本稿では,理性評価のための頑健なツールの欠如に対処する新しい計量AuraScoreを提案する。
論文 参考訳(メタデータ) (2025-08-10T20:06:42Z) - Step-Audio 2 Technical Report [120.58375054866815]
Step-Audio 2は、業界における音声理解と音声会話のために設計された、エンドツーエンドのマルチモーダルな大規模言語モデルである。
遅延オーディオエンコーダと推論中心強化学習(RL)を統合することにより、Step-Audio 2は自動音声認識(ASR)および音声理解において有望な性能を達成する。
論文 参考訳(メタデータ) (2025-07-22T14:23:55Z) - Multi-Domain Audio Question Answering Toward Acoustic Content Reasoning in The DCASE 2025 Challenge [102.84031769492708]
本課題は,多様な音響シーンに対する対話型質問応答における音声モデルをテストするための3つのQAサブセットを定義する。
開発セットの予備的な結果を比較し、モデルとサブセット間で強い変動を示す。
この課題は、音声モデルの音声理解と推論能力を人間レベルに向上することを目的としている。
論文 参考訳(メタデータ) (2025-05-12T09:04:16Z) - Audio-Reasoner: Improving Reasoning Capability in Large Audio Language Models [91.11904427660043]
本稿では,音声タスクの深い推論のための大規模音声言語モデルであるAudio-Reasonerを紹介する。
我々は、CoTA上でAudio-Reasonerを訓練し、オーディオ推論において優れた論理的機能を実現する。
以上の結果から,音声推論における構造化CoTトレーニングのコアが強調された。
論文 参考訳(メタデータ) (2025-03-04T06:18:34Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。