論文の概要: M3-SLU: Evaluating Speaker-Attributed Reasoning in Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2510.19358v1
- Date: Wed, 22 Oct 2025 08:28:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.423363
- Title: M3-SLU: Evaluating Speaker-Attributed Reasoning in Multimodal Large Language Models
- Title(参考訳): M3-SLU:マルチモーダル大言語モデルにおける話者分散推論の評価
- Authors: Yejin Kwon, Taewoo Kang, Hyunsoo Yoon, Changouk Kim,
- Abstract要約: マルチ話者・マルチターン音声言語理解のためのマルチモーダル大規模言語モデル(MLLM)ベンチマークであるM3-SLUを提案する。
M3-SLUは4つのオープンコーパス(CHiME-6、MELD、MultiDialog、AMI)から構築され、12,000以上の検証済みインスタンスとペアオーディオ、トランスクリプト、メタデータで構成されている。
結果は、モデルが発言をキャプチャできる一方で、誰が言ったかを特定するのに失敗し、話者認識の対話理解における重要なギャップを明らかにしていることを示している。
- 参考スコア(独自算出の注目度): 15.324265847938813
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present M3-SLU, a new multimodal large language model (MLLM) benchmark for evaluating multi-speaker, multi-turn spoken language understanding. While recent models show strong performance in speech and text comprehension, they still struggle with speaker-attributed reasoning, the ability to understand who said what and when in natural conversations. M3-SLU is built from four open corpora (CHiME-6, MELD, MultiDialog, and AMI) and comprises over 12,000 validated instances with paired audio, transcripts, and metadata. It includes two tasks: (1) Speaker-Attributed Question Answering and (2) Speaker Attribution via Utterance Matching. We provide baseline results for both cascaded pipelines and end-to-end MLLMs, evaluated using an LLM-as-Judge and accuracy metrics. Results show that while models can capture what was said, they often fail to identify who said it, revealing a key gap in speaker-aware dialogue understanding. M3-SLU offers as a challenging benchmark to advance research in speaker-aware multimodal understanding.
- Abstract(参考訳): マルチ話者・マルチターン音声言語理解のためのマルチモーダル大規模言語モデル(MLLM)ベンチマークであるM3-SLUを提案する。
最近のモデルでは、音声とテキストの理解において、強いパフォーマンスを示す一方で、話者による推論や、自然な会話で誰が何をいつ何を言ったかを理解する能力に苦慮している。
M3-SLUは4つのオープンコーパス(CHiME-6、MELD、MultiDialog、AMI)から構築され、12,000以上の検証済みインスタンスとペアオーディオ、トランスクリプト、メタデータで構成されている。
1)話者分散質問応答と(2)発話マッチングによる話者帰属の2つのタスクを含む。
LLM-as-Judgeと精度測定値を用いて評価し,ケースドパイプラインとエンド・ツー・エンドMLLMの両方のベースライン結果を提供する。
結果は、モデルが発言をキャプチャできる一方で、誰が言ったかを特定するのに失敗し、話者認識の対話理解における重要なギャップを明らかにしていることを示している。
M3-SLUは、話者対応マルチモーダル理解の研究を進める上で、難しいベンチマークとなる。
関連論文リスト
- AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文 参考訳(メタデータ) (2025-08-29T07:40:39Z) - Triple X: A LLM-Based Multilingual Speech Recognition System for the INTERSPEECH2025 MLC-SLM Challenge [24.966911190845817]
本稿では,MLC-SLM(Multi-Lingual Conversational Speech Language Modeling, MLC-SLM)チャレンジのタスク1に提案した3つの音声認識システムについて述べる。
本研究は,多言語対話シナリオにおける音声認識の精度を,革新的なエンコーダ・アダプタ・LLMアーキテクチャを用いて最適化することに焦点を当てる。
論文 参考訳(メタデータ) (2025-07-23T07:48:33Z) - What Makes a Good Speech Tokenizer for LLM-Centric Speech Generation? A Systematic Study [58.55905182336196]
音声言語モデル(SLM)は、音声とテキストの理解と生成を統一するための有望な経路を提供する。
LLM中心のSLMにおける音声トークン化設計の役割について検討し,音声ヘッドと話者モデルを用いて検討した。
SLMにマルチトークン予測(MTP)を導入し、各隠れ状態が複数の音声トークンを復号化できるようにする。
論文 参考訳(メタデータ) (2025-06-14T15:26:31Z) - Multimodal Conversation Structure Understanding [12.29827265137757]
大きな言語モデルでは、きめ細かい会話構造を理解する能力は未解明のままである。
我々は,話者と回答関係のための4,398の注釈付きデータセット,5,755人のアドレナリ,3,142人のサイド参加者を提示する。
音声-視覚的LLMと視覚言語モデルの評価をデータセット上で行い, 実験結果から, マルチモーダル対話構造理解は依然として困難であることが示唆された。
論文 参考訳(メタデータ) (2025-05-23T06:41:54Z) - Benchmarking Open-ended Audio Dialogue Understanding for Large Audio-Language Models [58.43486430996411]
LALM(Large Audio-Language Models)は、最近、人間との直接の音声交換を可能にする音声対話機能をアンロックした。
オープンエンド音声対話理解におけるLALMの性能を評価するための音声対話理解ベンチマーク(ADU-Bench)を提案する。
ADU-Benchには、LALMの評価のための2万以上のオープンエンドオーディオダイアログが含まれている。
論文 参考訳(メタデータ) (2024-12-06T16:34:15Z) - AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information? [65.49972312524724]
マルチモーダルな大言語モデル(MLLM)は、視覚とオーディオのモダリティを含む機能を拡張した。
提案したDeafTestは、MLLMが人間にとって簡単なタスクとよく戦っていることを示している。
AV-Odyssey Benchは、これらのMLLMが真にオーディオ視覚情報を理解できるかどうかを評価するために設計された総合的なオーディオ視覚ベンチマークである。
論文 参考訳(メタデータ) (2024-12-03T17:41:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。