論文の概要: MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models
- arxiv url: http://arxiv.org/abs/2603.09714v1
- Date: Tue, 10 Mar 2026 14:22:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.38621
- Title: MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models
- Title(参考訳): MUGEN:大規模オーディオ言語モデルのマルチオーディオ理解の評価と改善
- Authors: Chih-Kai Yang, Yun-Shao Tsai, Yu-Kai Guo, Ping-Le Tsai, Yen-Ting Piao, Hung-Wei Chen, Ting-Lin Hsiao, Yun-Man Hsu, Ke-Han Lu, Hung-yi Lee,
- Abstract要約: 大規模音声言語モデル(LALM)におけるマルチオーディオ理解の重要性
MUGENは、音声、一般音声、音楽にまたがってこの機能を評価するベンチマークである。
実験により、マルチオーディオ設定における一貫した弱点が明らかとなり、同時音声入力の数が増加するにつれて、性能が急激に低下する。
- 参考スコア(独自算出の注目度): 35.734379373439886
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While multi-audio understanding is critical for large audio-language models (LALMs), it remains underexplored. We introduce MUGEN, a comprehensive benchmark evaluating this capability across speech, general audio, and music. Our experiments reveal consistent weaknesses in multi-audio settings, and performance degrades sharply as the number of concurrent audio inputs increases, identifying input scaling as a fundamental bottleneck. We further investigate training-free strategies and observe that Audio-Permutational Self-Consistency, which diversifies the order of audio candidates, helps models form more robust aggregated predictions, yielding up to 6.28% accuracy gains. Combining this permutation strategy with Chain-of-Thought further improves performance to 6.74%. These results expose blind spots in current LALMs and provide a foundation for evaluating complex auditory comprehension.
- Abstract(参考訳): 大規模オーディオ言語モデル(LALM)ではマルチオーディオ理解が重要であるが、まだ未検討である。
MUGENは、音声、一般音声、音楽にまたがってこの機能を評価する総合的なベンチマークである。
実験により,マルチオーディオ設定における一貫した弱点が明らかとなり,同時音声入力の増加に伴って性能が急激に低下し,入力スケーリングが基本的なボトルネックとして認識される。
さらに、学習自由戦略について検討し、音声候補の順序を多様化するオーディオ・置換自己整合性(Audio-Permutational Self-Consistency)が、モデルがより堅牢な集約予測を形成し、最大6.28%の精度向上をもたらすことを観察する。
この置換戦略とChain-of-Thoughtを組み合わせることで、パフォーマンスが6.74%向上する。
これらの結果は,現在のLALMにおける盲点を明らかにし,複雑な聴覚理解の基盤を提供する。
関連論文リスト
- Thinking with Sound: Audio Chain-of-Thought Enables Multimodal Reasoning in Large Audio-Language Models [49.097347801692166]
本稿では,Large Audio-Language ModelsとAudio CoTを併用したThinking-with-Sound(TwS)を提案する。
TwSにより、モデルは音声信号で積極的に考えることができ、数値解析やマルチモーダル推論によるデジタル操作を行うことができる。
実験によると、最先端のLALMはMELD-Hard1kで劇的に性能が低下しており、クリーンオーディオに比べて精度が50%以上低下している。
論文 参考訳(メタデータ) (2025-09-26T01:27:59Z) - When Audio and Text Disagree: Revealing Text Bias in Large Audio-Language Models [18.160420407067743]
MCR-BENCHは、LALMが一貫性のない音声テキストペアを提示する際にどのように情報を優先するかを評価するために設計された最初のベンチマークである。
モダリティ間に不整合が存在する場合、LALMはテキスト入力に対して有意なバイアスを示す。
この傾向は、オーディオ中心のタスクのパフォーマンスを著しく低下させ、現実世界のアプリケーションにとって重要な信頼性上の懸念を引き起こす。
論文 参考訳(メタデータ) (2025-08-21T09:58:24Z) - AudioJudge: Understanding What Works in Large Audio Model Based Speech Evaluation [55.607230723223346]
本研究は,Large Audio Model (LAM) をAudioJudgeの裁判官として体系的に研究し,両課題に対処する統一評価フレームワークを提供することができるかどうかを検討する。
本稿では、発音、発話速度、話者識別、音声品質、自動ベンチマークのためのシステムレベルの人間の嗜好シミュレーションなど、音声特徴検出タスクにまたがるAudioJudgeについて検討する。
本稿では,多視点アンサンブルAudioJudgeを導入し,音声評価を語彙内容,音声品質,パラ言語特徴の専門判断者に分解し,人間の嗜好と最大0.91のスピアマン相関を達成させる手法を提案する。
論文 参考訳(メタデータ) (2025-07-17T00:39:18Z) - Make Some Noise: Towards LLM audio reasoning and generation using sound tokens [19.48089933713418]
本稿では,変分量子化とフローマッチングを組み合わせることで,音声を0.23kpbの超低離散トークンに変換する手法を提案する。
我々のトークン化器は、様々な音響イベントを持つ様々なデータセットで従来のVQ-VAEより優れています。
論文 参考訳(メタデータ) (2025-03-28T09:43:47Z) - Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning [55.2480439325792]
大規模な音声言語モデル (LALM) は、音声および音声情報の理解と推論に優れた能力を示している。
これらのモデルは、既存の音のイベントを幻覚させ、音のイベントの順序を誤認し、誤って音源を帰属させるなど、依然として課題に直面している。
論文 参考訳(メタデータ) (2024-10-21T15:55:27Z) - Enhancing Audio-Language Models through Self-Supervised Post-Training with Text-Audio Pairs [3.8300818830608345]
音声とテキストのマルチモーダルコントラスト学習戦略が急速に注目されている。
これらのモデルが自然言語や時間的関係を理解する能力は、いまだに未探索でオープンな研究分野である。
本稿では,時間的インスツルメント手法であるTeminalを用いて,時間的理解を伴うマルチモーダルALMを,従来の音声言語タスクの能力を損なうことなく装備することを提案する。
論文 参考訳(メタデータ) (2024-08-17T18:53:17Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。