論文の概要: A Benchmark for Audio Reasoning Capabilities of Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2601.19673v1
- Date: Tue, 27 Jan 2026 14:54:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.354688
- Title: A Benchmark for Audio Reasoning Capabilities of Multimodal Large Language Models
- Title(参考訳): マルチモーダル大言語モデルの音響推論能力のベンチマーク
- Authors: Iwona Christop, Mateusz Czyżnikiewicz, Paweł Skórzewski, Łukasz Bondaruk, Jakub Kubiak, Marcin Lewandowski, Marek Kubis,
- Abstract要約: マルチモーダル大言語モデルの音声モダリティをテストするためのベンチマークでは、話者ダイアリゼーションやジェンダー識別といった様々な音声タスクを分離してテストすることに重点を置いている。
本稿では,マルチモーダルモデルによる音声信号の推論を必要とする問題の解決能力を評価するための新しいベンチマークであるAudio Reasoning Tasks (ART)を提案する。
- 参考スコア(独自算出の注目度): 3.770636357625305
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The present benchmarks for testing the audio modality of multimodal large language models concentrate on testing various audio tasks such as speaker diarization or gender identification in isolation. Whether a multimodal model can answer the questions that require reasoning skills to combine audio tasks of different categories, cannot be verified with their use. To address this issue, we propose Audio Reasoning Tasks (ART), a new benchmark for assessing the ability of multimodal models to solve problems that require reasoning over audio signal.
- Abstract(参考訳): マルチモーダル大言語モデルの音声モダリティをテストするためのベンチマークでは、話者ダイアリゼーションやジェンダー識別といった様々な音声タスクを分離してテストすることに重点を置いている。
様々なカテゴリーの音声タスクを組み合わせるために推論スキルを必要とする疑問に、マルチモーダルモデルが答えられるかどうかを検証できない。
この問題に対処するために,マルチモーダルモデルによる音声信号の推論を必要とする問題の解決能力を評価するための新しいベンチマークであるAudio Reasoning Tasks (ART)を提案する。
関連論文リスト
- UALM: Unified Audio Language Model for Understanding, Generation and Reasoning [124.19449187588832]
統一音声言語モデル (Unified Audio Language Model, UALM) は、音声理解、テキスト音声生成、マルチモーダル推論を単一モデルで統一することを目的としている。
最初にUALM-Genを提示する。これは音声トークンを直接予測し,最先端の拡散モデルに匹敵する言語モデルである。
UALM-Reasonは、テキストと音声の両方を中間的思考ステップで活用し、複雑な生成作業を容易にするマルチモーダル推論モデルである。
論文 参考訳(メタデータ) (2025-10-13T22:55:01Z) - Advancing Singlish Understanding: Bridging the Gap with Datasets and Multimodal Models [38.608158064184366]
我々は、MNSC(Multitask National Speech Corpus)を導入し、最大のSinglishコーパスを標準化し、注釈する。
これらのデータセットは、自動音声認識(ASR)、音声質問回答(SQA)、音声対話要約(SDS)、パラ言語質問回答(PQA)など様々なタスクをサポートする。
本稿ではマルチタスクマルチモーダルモデルであるSingAudioLLMを提案する。
論文 参考訳(メタデータ) (2025-01-02T03:28:52Z) - Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning [55.2480439325792]
大規模な音声言語モデル (LALM) は、音声および音声情報の理解と推論に優れた能力を示している。
これらのモデルは、既存の音のイベントを幻覚させ、音のイベントの順序を誤認し、誤って音源を帰属させるなど、依然として課題に直面している。
論文 参考訳(メタデータ) (2024-10-21T15:55:27Z) - Beyond Single-Audio: Advancing Multi-Audio Processing in Audio Large Language Models [56.776580717999806]
現実世界のアプリケーションは、複数のオーディオストリームを同時に処理することが多い。
11のマルチオーディオタスクから20のデータセットからなる最初のマルチオーディオ評価ベンチマークを提案する。
本稿では,複数の類似した音声間の音声コンテキストをキャプチャするマルチオーディオLLM(MALLM)を提案する。
論文 参考訳(メタデータ) (2024-09-27T12:06:53Z) - Look\&Listen: Multi-Modal Correlation Learning for Active Speaker
Detection and Speech Enhancement [18.488808141923492]
ADENetは,音声・視覚モデルの共同学習による話者検出と音声強調を実現するために提案されている。
聴覚と視覚ストリームの相互関係は,マルチタスク学習の課題に対して有望な解決法である。
論文 参考訳(メタデータ) (2022-03-04T09:53:19Z) - CTAL: Pre-training Cross-modal Transformer for Audio-and-Language
Representations [20.239063010740853]
音声と言語間のモダリティ内およびモダリティ間接続を学習することを目的としたCTAL(Cross-modal Transformer for Audio-and-Language)を提案する。
感情分類,感情分析,話者検証など,様々なタスクにまたがる顕著な改善が観察された。
論文 参考訳(メタデータ) (2021-09-01T04:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。