論文の概要: Mellow: a small audio language model for reasoning
- arxiv url: http://arxiv.org/abs/2503.08540v1
- Date: Tue, 11 Mar 2025 15:29:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 19:17:22.514390
- Title: Mellow: a small audio language model for reasoning
- Title(参考訳): Mellow: 推論のための小さなオーディオ言語モデル
- Authors: Soham Deshmukh, Satvik Dixit, Rita Singh, Bhiksha Raj,
- Abstract要約: Mellowは、推論用に特別に設計された小さなAudio-Language Modelだ。
ReasonAQAは、モデルにおけるオーディオグラウンド推論を強化するために設計されたデータセットである。
私たちのトレーニングデータセット、発見、ベースラインは、推論可能な小さなALMを開発するための道を開いた。
- 参考スコア(独自算出の注目度): 31.309253699062307
- License:
- Abstract: Multimodal Audio-Language Models (ALMs) can understand and reason over both audio and text. Typically, reasoning performance correlates with model size, with the best results achieved by models exceeding 8 billion parameters. However, no prior work has explored enabling small audio-language models to perform reasoning tasks, despite the potential applications for edge devices. To address this gap, we introduce Mellow, a small Audio-Language Model specifically designed for reasoning. Mellow achieves state-of-the-art performance among existing small audio-language models and surpasses several larger models in reasoning capabilities. For instance, Mellow scores 52.11 on MMAU, comparable to SoTA Qwen2 Audio (which scores 52.5) while using 50 times fewer parameters and being trained on 60 times less data (audio hrs). To train Mellow, we introduce ReasonAQA, a dataset designed to enhance audio-grounded reasoning in models. It consists of a mixture of existing datasets (30% of the data) and synthetically generated data (70%). The synthetic dataset is derived from audio captioning datasets, where Large Language Models (LLMs) generate detailed and multiple-choice questions focusing on audio events, objects, acoustic scenes, signal properties, semantics, and listener emotions. To evaluate Mellow's reasoning ability, we benchmark it on a diverse set of tasks, assessing on both in-distribution and out-of-distribution data, including audio understanding, deductive reasoning, and comparative reasoning. Finally, we conduct extensive ablation studies to explore the impact of projection layer choices, synthetic data generation methods, and language model pretraining on reasoning performance. Our training dataset, findings, and baseline pave the way for developing small ALMs capable of reasoning.
- Abstract(参考訳): マルチモーダルオーディオ言語モデル(ALM)は、音声とテキストの両方について理解し、推論することができる。
通常、推論性能はモデルのサイズと相関し、最も良い結果は80億のパラメータを超えるモデルによって達成される。
しかしながら、エッジデバイスへの潜在的な応用にもかかわらず、小さなオーディオ言語モデルで推論タスクを実行できるようにするための先行研究は行われていない。
このギャップに対処するために、我々は、推論用に特別に設計された小さなオーディオ言語モデルであるMellowを紹介します。
Mellowは、既存の小さなオーディオ言語モデルの中で最先端のパフォーマンスを実現し、推論能力においていくつかの大きなモデルを上回っている。
例えば、MMAUでは52.11得点、SoTA Qwen2 Audio(52.5得点)に匹敵する。
Mellowのトレーニングには、モデルにおける音声地上推論を強化するために設計されたデータセットであるReasonAQAを導入する。
既存のデータセット(データの30%)と合成生成データ(70%)の混合で構成されている。
合成データセットは、音声キャプションデータセットから派生したもので、Large Language Models (LLM)は、音声イベント、オブジェクト、音響シーン、信号特性、セマンティクス、リスナーの感情に焦点を絞った詳細な、複数の選択の質問を生成する。
また,Mellowの推論能力を評価するために,音声理解,帰納的推論,比較推論を含む分布内データと分布外データの両方に基づいて,多様なタスクのセットでベンチマークを行った。
最後に,プロジェクション層選択,合成データ生成方法,推論性能に対する言語モデル事前学習の影響について,広範囲にわたるアブレーション研究を行った。
私たちのトレーニングデータセット、発見、ベースラインは、推論可能な小さなALMを開発するための道を開いた。
関連論文リスト
- Audio Large Language Models Can Be Descriptive Speech Quality Evaluators [46.765203628127345]
本稿では,人間格付けから生成した最初の自然言語に基づく音声評価コーパスについて紹介する。
このコーパスは、複数の次元にわたる詳細な分析を提供し、品質劣化の原因を特定する。
生音声から関連情報を抽出するために,LLM蒸留(ALLD)を用いたアライメント手法を提案する。
論文 参考訳(メタデータ) (2025-01-27T22:47:51Z) - ETTA: Elucidating the Design Space of Text-to-Audio Models [33.831803213869605]
対象ベンチマークに対するデータ,モデルアーキテクチャ,目標関数のトレーニング,およびサンプリング戦略の効果について検討する。
Eucidated Text-To-Audio (ETTA) と呼ばれる最良のモデルを提案する。
ETTAは、公開データでトレーニングされたベースラインよりも改善され、プロプライエタリデータでトレーニングされたモデルと競合する。
論文 参考訳(メタデータ) (2024-12-26T21:13:12Z) - AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information? [65.49972312524724]
マルチモーダルな大言語モデル(MLLM)は、視覚とオーディオのモダリティを含む機能を拡張した。
提案したDeafTestは、MLLMが人間にとって簡単なタスクとよく戦っていることを示している。
AV-Odyssey Benchは、これらのMLLMが真にオーディオ視覚情報を理解できるかどうかを評価するために設計された総合的なオーディオ視覚ベンチマークである。
論文 参考訳(メタデータ) (2024-12-03T17:41:23Z) - Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning [55.2480439325792]
大規模な音声言語モデル (LALM) は、音声および音声情報の理解と推論に優れた能力を示している。
これらのモデルは、既存の音のイベントを幻覚させ、音のイベントの順序を誤認し、誤って音源を帰属させるなど、依然として課題に直面している。
論文 参考訳(メタデータ) (2024-10-21T15:55:27Z) - Salmon: A Suite for Acoustic Language Model Evaluation [20.802090523583196]
SALMonは、背景雑音、感情、話者識別、室内インパルス応答を含む新しい評価スイートである。
SALMon 上で複数の言語モデルを評価し,評価手法の長所と短所を強調した。
論文 参考訳(メタデータ) (2024-09-11T17:34:52Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z) - Analysing the Impact of Audio Quality on the Use of Naturalistic
Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。
近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。
音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文 参考訳(メタデータ) (2023-05-03T08:25:37Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。