Fugu-MT 論文翻訳(概要): ALARM: Audio-Language Alignment for Reasoning Models

論文の概要: ALARM: Audio-Language Alignment for Reasoning Models

arxiv url: http://arxiv.org/abs/2603.09556v1
Date: Tue, 10 Mar 2026 12:03:25 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-11 15:25:24.269142
Title: ALARM: Audio-Language Alignment for Reasoning Models
Title（参考訳）: ALARM: 推論モデルのためのオーディオ言語アライメント
Authors: Petr Grinberg, Hassan Shahmohammadi,
Abstract要約: 本稿では,自己表現による応答をRLMと互換性のあるオーディオ理解型に変換することを提案する。訓練のために,6M-instance Multi-task コーパスを構築した。 MMAU-speech と MMSU のベンチマークでは,オープンソースとして最高の結果が得られ,全モデルの中で第3位となった。
参考スコア（独自算出の注目度）: 1.425194911075608
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large audio language models (ALMs) extend LLMs with auditory understanding. A common approach freezes the LLM and trains only an adapter on self-generated targets. However, this fails for reasoning LLMs (RLMs) whose built-in chain-of-thought traces expose the textual surrogate input, yielding unnatural responses. We propose self-rephrasing, converting self-generated responses into audio-understanding variants compatible with RLMs while preserving distributional alignment. We further fuse and compress multiple audio encoders for stronger representations. For training, we construct a 6M-instance multi-task corpus (2.5M unique prompts) spanning 19K hours of speech, music, and sound. Our 4B-parameter ALM outperforms similarly sized models and surpasses most larger ALMs on related audio-reasoning benchmarks, while preserving textual capabilities with a low training cost. Notably, we achieve the best open-source result on the MMAU-speech and MMSU benchmarks and rank third among all the models.
Abstract（参考訳）: 大規模音声言語モデル(ALM)は、聴覚的理解でLLMを拡張する。一般的なアプローチはLLMを凍結させ、自己生成ターゲットのアダプタのみを訓練する。しかし、これはLLM (RLMs) を推論するのに失敗し、その組込みチェーン・オブ・ソート・トレースはテキスト・サロゲートの入力を露出し、不自然な応答をもたらす。本稿では,自己生成応答を,分散アライメントを維持しつつ,RLMと互換性のあるオーディオアンダープレッションに変換する自己表現を提案する。より強力な表現のために複数のオーディオエンコーダを融合圧縮する。トレーニングのために,6M-instance multi-task corpus (2.5Mのユニークなプロンプト)を構築した。我々の4BパラメータALMは、同様の大きさのモデルよりも優れており、関連するオーディオ推論ベンチマークにおいて、ほとんどのALMを上回り、トレーニングコストの低いテキスト機能を保持しています。特に、MMAU-speech と MMSU のベンチマークにおいて、オープンソースとして最高の結果が得られ、全てのモデルの中で第3位となる。

関連論文リスト

DeSTA2.5-Audio: Toward General-Purpose Large Audio Language Model with Self-Generated Cross-Modal Alignment [94.0709779805955]
DeSTA2.5-Audio, a general-purpose Large Audio Language Model (LALM)について紹介する。タスク固有の音声命令チューニングを必要とせず、頑健な聴覚知覚と指示追従のために設計されている。 DeSTA2.5-Audioは、幅広いオーディオ言語ベンチマークで最先端または競合的なパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-07-03T16:28:25Z)
From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-26T16:08:41Z)
Adaptive Audio-Visual Speech Recognition via Matryoshka-Based Multimodal LLMs [33.12165044958361]
大規模言語モデル(LLM)の最近の進歩は、音声認識において、AVSR(Audio-Visual Speech Recognition)を含む強力な性能を示している。そこで我々は,AVSRのための最初のMateryoshkaベースのマルチモーダルLLMであるLlama-MTSKを提案する。 Matryoshka Representation Learningにインスパイアされた私たちのモデルは、単一のアーキテクチャで複数の粒度の表現をエンコードします。効率的な微調整を行うため,グローバルおよびスケール固有のモジュールを用いたLoRAベースの戦略を3つ導入する。
論文参考訳（メタデータ） (2025-03-09T00:02:10Z)
AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information? [65.49972312524724]
マルチモーダルな大言語モデル(MLLM)は、視覚とオーディオのモダリティを含む機能を拡張した。提案したDeafTestは、MLLMが人間にとって簡単なタスクとよく戦っていることを示している。 AV-Odyssey Benchは、これらのMLLMが真にオーディオ視覚情報を理解できるかどうかを評価するために設計された総合的なオーディオ視覚ベンチマークである。
論文参考訳（メタデータ） (2024-12-03T17:41:23Z)
Large Language Models are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。本稿では,Llama-AVSRを提案する。我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法を評価し,WERが0.79%,AVSRが0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果が得られることを示した。
論文参考訳（メタデータ） (2024-09-18T21:17:27Z)
AudioChatLlama: Towards General-Purpose Speech Abilities for LLMs [27.122094554340194]
我々は、エンドツーエンドの汎用音声処理と推論能力を備えた命令調整型Llama-2モデルを拡張する。結果、AudioChatLlamaと呼ばれるエンドツーエンドモデルは、音声プロンプトをテキストの代替として利用し、会話を維持することができる。
論文参考訳（メタデータ） (2023-11-12T06:56:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。