論文の概要: A Benchmark for Audio Reasoning Capabilities of Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2601.19673v1
- Date: Tue, 27 Jan 2026 14:54:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.354688
- Title: A Benchmark for Audio Reasoning Capabilities of Multimodal Large Language Models
- Title(参考訳): マルチモーダル大言語モデルの音響推論能力のベンチマーク
- Authors: Iwona Christop, Mateusz Czyżnikiewicz, Paweł Skórzewski, Łukasz Bondaruk, Jakub Kubiak, Marcin Lewandowski, Marek Kubis,
- Abstract要約: マルチモーダル大言語モデルの音声モダリティをテストするためのベンチマークでは、話者ダイアリゼーションやジェンダー識別といった様々な音声タスクを分離してテストすることに重点を置いている。
本稿では,マルチモーダルモデルによる音声信号の推論を必要とする問題の解決能力を評価するための新しいベンチマークであるAudio Reasoning Tasks (ART)を提案する。
- 参考スコア(独自算出の注目度): 3.770636357625305
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The present benchmarks for testing the audio modality of multimodal large language models concentrate on testing various audio tasks such as speaker diarization or gender identification in isolation. Whether a multimodal model can answer the questions that require reasoning skills to combine audio tasks of different categories, cannot be verified with their use. To address this issue, we propose Audio Reasoning Tasks (ART), a new benchmark for assessing the ability of multimodal models to solve problems that require reasoning over audio signal.
- Abstract(参考訳): マルチモーダル大言語モデルの音声モダリティをテストするためのベンチマークでは、話者ダイアリゼーションやジェンダー識別といった様々な音声タスクを分離してテストすることに重点を置いている。
様々なカテゴリーの音声タスクを組み合わせるために推論スキルを必要とする疑問に、マルチモーダルモデルが答えられるかどうかを検証できない。
この問題に対処するために,マルチモーダルモデルによる音声信号の推論を必要とする問題の解決能力を評価するための新しいベンチマークであるAudio Reasoning Tasks (ART)を提案する。
関連論文リスト
- SpeakerSleuth: Evaluating Large Audio-Language Models as Judges for Multi-turn Speaker Consistency [12.420484491347073]
LALMがマルチターン対話における話者の一貫性を確実に判断できるかどうかを評価するベンチマークである SpeakerSleuth を提案する。
合成音声と実音声を対象とする4つの多種多様なデータセットを対象とした1,818の人間検証評価インスタンスを構築した。
モデルは音響的不整合を確実に検出するのに苦労している。
論文 参考訳(メタデータ) (2026-01-07T15:45:41Z) - UALM: Unified Audio Language Model for Understanding, Generation and Reasoning [124.19449187588832]
統一音声言語モデル (Unified Audio Language Model, UALM) は、音声理解、テキスト音声生成、マルチモーダル推論を単一モデルで統一することを目的としている。
最初にUALM-Genを提示する。これは音声トークンを直接予測し,最先端の拡散モデルに匹敵する言語モデルである。
UALM-Reasonは、テキストと音声の両方を中間的思考ステップで活用し、複雑な生成作業を容易にするマルチモーダル推論モデルである。
論文 参考訳(メタデータ) (2025-10-13T22:55:01Z) - Multi-Domain Audio Question Answering Toward Acoustic Content Reasoning in The DCASE 2025 Challenge [102.84031769492708]
本課題は,多様な音響シーンに対する対話型質問応答における音声モデルをテストするための3つのQAサブセットを定義する。
開発セットの予備的な結果を比較し、モデルとサブセット間で強い変動を示す。
この課題は、音声モデルの音声理解と推論能力を人間レベルに向上することを目的としている。
論文 参考訳(メタデータ) (2025-05-12T09:04:16Z) - Advancing Singlish Understanding: Bridging the Gap with Datasets and Multimodal Models [38.608158064184366]
我々は、MNSC(Multitask National Speech Corpus)を導入し、最大のSinglishコーパスを標準化し、注釈する。
これらのデータセットは、自動音声認識(ASR)、音声質問回答(SQA)、音声対話要約(SDS)、パラ言語質問回答(PQA)など様々なタスクをサポートする。
本稿ではマルチタスクマルチモーダルモデルであるSingAudioLLMを提案する。
論文 参考訳(メタデータ) (2025-01-02T03:28:52Z) - Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning [55.2480439325792]
大規模な音声言語モデル (LALM) は、音声および音声情報の理解と推論に優れた能力を示している。
これらのモデルは、既存の音のイベントを幻覚させ、音のイベントの順序を誤認し、誤って音源を帰属させるなど、依然として課題に直面している。
論文 参考訳(メタデータ) (2024-10-21T15:55:27Z) - Beyond Single-Audio: Advancing Multi-Audio Processing in Audio Large Language Models [56.776580717999806]
現実世界のアプリケーションは、複数のオーディオストリームを同時に処理することが多い。
11のマルチオーディオタスクから20のデータセットからなる最初のマルチオーディオ評価ベンチマークを提案する。
本稿では,複数の類似した音声間の音声コンテキストをキャプチャするマルチオーディオLLM(MALLM)を提案する。
論文 参考訳(メタデータ) (2024-09-27T12:06:53Z) - Qwen-Audio: Advancing Universal Audio Understanding via Unified
Large-Scale Audio-Language Models [98.34889301515412]
我々はQwen-Audioモデルを開発し、30以上のタスクと様々なオーディオタイプをカバーするために、事前学習を拡大することで制限に対処する。
Qwen-Audioは、タスク固有の微調整を必要とせずに、様々なベンチマークタスクで素晴らしいパフォーマンスを実現している。
さらにQwen-Audio-Chatを開発し、様々なオーディオやテキスト入力からの入力を可能にし、マルチターン対話を可能にし、様々なオーディオ中心のシナリオをサポートする。
論文 参考訳(メタデータ) (2023-11-14T05:34:50Z) - Look\&Listen: Multi-Modal Correlation Learning for Active Speaker
Detection and Speech Enhancement [18.488808141923492]
ADENetは,音声・視覚モデルの共同学習による話者検出と音声強調を実現するために提案されている。
聴覚と視覚ストリームの相互関係は,マルチタスク学習の課題に対して有望な解決法である。
論文 参考訳(メタデータ) (2022-03-04T09:53:19Z) - CTAL: Pre-training Cross-modal Transformer for Audio-and-Language
Representations [20.239063010740853]
音声と言語間のモダリティ内およびモダリティ間接続を学習することを目的としたCTAL(Cross-modal Transformer for Audio-and-Language)を提案する。
感情分類,感情分析,話者検証など,様々なタスクにまたがる顕著な改善が観察された。
論文 参考訳(メタデータ) (2021-09-01T04:18:19Z) - Audio-Oriented Multimodal Machine Comprehension: Task, Dataset and Model [51.42415340921237]
我々は2つのモード(音声とテキスト)を融合させる動的モダリティ・イントラモダリティ・アテンション(DIIA)モデルを提案する。
さらに,マルチモーダルMCモデルを用いて,テキストや音声のみに基づいて,回答を正確に予測できるマルチモーダル知識蒸留(MKD)モジュールを開発した。
論文 参考訳(メタデータ) (2021-07-04T08:35:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。