Fugu-MT 論文翻訳(概要): SONIC-O1: A Real-World Benchmark for Evaluating Multimodal Large Language Models on Audio-Video Understanding

論文の概要: SONIC-O1: A Real-World Benchmark for Evaluating Multimodal Large Language Models on Audio-Video Understanding

arxiv url: http://arxiv.org/abs/2601.21666v1
Date: Thu, 29 Jan 2026 13:01:07 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-30 16:22:49.830746
Title: SONIC-O1: A Real-World Benchmark for Evaluating Multimodal Large Language Models on Audio-Video Understanding
Title（参考訳）: SONIC-O1: マルチモーダル大言語モデル評価のための実時間ベンチマーク
Authors: Ahmed Y. Radwan, Christos Emmanouilidis, Hina Tabassum, Deval Pandya, Shaina Raza,
Abstract要約: MLLM(Multimodal Large Language Models)は、最近のAI研究の主要な焦点である。我々は、13の現実世界の会話ドメインにまたがる総合的、完全な人間認証ベンチマークであるSONIC-O1を紹介する。 SONIC-O1は、オープン・エンド・サマリゼーション、MCQ(Multi-choice Questioning)応答、時間的ローカライゼーションなどの重要なタスクでMLLMを評価する。
参考スコア（独自算出の注目度）: 17.345147490428115
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multimodal Large Language Models (MLLMs) are a major focus of recent AI research. However, most prior work focuses on static image understanding, while their ability to process sequential audio-video data remains underexplored. This gap highlights the need for a high-quality benchmark to systematically evaluate MLLM performance in a real-world setting. We introduce SONIC-O1, a comprehensive, fully human-verified benchmark spanning 13 real-world conversational domains with 4,958 annotations and demographic metadata. SONIC-O1 evaluates MLLMs on key tasks, including open-ended summarization, multiple-choice question (MCQ) answering, and temporal localization with supporting rationales (reasoning). Experiments on closed- and open-source models reveal limitations. While the performance gap in MCQ accuracy between two model families is relatively small, we observe a substantial 22.6% performance difference in temporal localization between the best performing closed-source and open-source models. Performance further degrades across demographic groups, indicating persistent disparities in model behavior. Overall, SONIC-O1 provides an open evaluation suite for temporally grounded and socially robust multimodal understanding. We release SONIC-O1 for reproducibility and research: Project page: https://vectorinstitute.github.io/sonic-o1/ Dataset: https://huggingface.co/datasets/vector-institute/sonic-o1 Github: https://github.com/vectorinstitute/sonic-o1 Leaderboard: https://huggingface.co/spaces/vector-institute/sonic-o1-leaderboard
Abstract（参考訳）: MLLM(Multimodal Large Language Models)は、最近のAI研究の主要な焦点である。しかし,従来の研究のほとんどは静的な画像理解に重点を置いている。このギャップは、実世界の環境でMLLMのパフォーマンスを体系的に評価する高品質なベンチマークの必要性を強調している。我々は、13の現実世界の会話ドメインに4,958のアノテーションと人口統計メタデータを持つ包括的、完全に検証されたベンチマークであるSONIC-O1を紹介する。 SONIC-O1は、オープン・エンド・サマリゼーション(英語版)、マルチチョイス・質問(MCQ)回答、時間的局所化(英語版)など、主要なタスクにおけるMLLMを評価する。クローズドおよびオープンソースモデルの実験は制限を明らかにしている。 2つのモデルファミリ間のMCQ精度の差は比較的小さいが、最高のクローズドソースモデルとオープンソースモデル間の時間的ローカライゼーションにおける性能差は22.6%である。パフォーマンスは人口統計群全体でさらに低下し、モデル行動の相違が持続することを示している。全体として、SONIC-O1は時間的基盤と社会的に堅牢なマルチモーダル理解のためのオープンな評価スイートを提供する。プロジェクトページ: https://vectorinstitute.github.io/sonic-o1/ Dataset: https://huggingface.co/datasets/vector-institute/sonic-o1 Github: https://github.com/vectorinstitute/sonic-o1 Leaderboard: https://huggingface.co/spaces/vector-institute/sonic-o1- Leaderboard

関連論文リスト

AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。 AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文参考訳（メタデータ） (2025-08-29T07:40:39Z)
Detect Any Sound: Open-Vocabulary Sound Event Detection with Multi-Modal Queries [18.147981850263708]
マルチモーダルクエリによってガイドされるオープン語彙SEDのための問合せベースのフレームワークを提案する。 DASMはSEDをフレームレベルの検索タスクとして定式化し、音声機能はテキストやオーディオプロンプトからのクエリベクトルと一致している。 DASMは、局所化精度と新しいクラスへの一般化のバランスを効果的に保ち、オープン語彙設定においてCLAPベースの手法より優れている。
論文参考訳（メタデータ） (2025-07-22T08:24:01Z)
MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks [67.31276358668424]
AV-HaystacksQAという新しいタスクを導入し、クエリに応答して、異なるビデオにまたがる有能なセグメントを識別し、それらをリンクして最も有意義な回答を生成する。 AVHaystacksは、マルチビデオ検索および時間的グラウンドタスクにおけるLMMの能力を評価するために設計された3100の注釈付きQAペアからなるオーディオビジュアルベンチマークである。提案するAVHaystackのQAタスクにおけるBLEU@4およびGPT評価スコアの基準値よりも89%と65%の相対的な改善を実現し、モデルに依存しないマルチエージェントフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-08T06:34:29Z)
Daily-Omni: Towards Audio-Visual Reasoning with Temporal Alignment across Modalities [38.28151377285753]
MLLM(Multimodal Large Language Models)は、視覚および音声のベンチマークにおいて、独立して有望な性能を達成する。しかし、これらのモデルがクロスモーダル情報を同期的に処理する能力は、まだほとんど解明されていない。本稿では,(1)日常の生活シナリオの684の動画を多種多様なソースから収録するデイリー・オムニ,(2)自動アノテーション,QA生成,QA最適化を含むデイリー・オムニ生成パイプライン,(3)オープンソースのビジュアル言語モデル(VLM),音声言語モデル(ALM)を利用したトレーニングフリーエージェントであるデイリー・オムニ・アジェントを紹介する。
論文参考訳（メタデータ） (2025-05-23T13:13:58Z)
AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文参考訳（メタデータ） (2024-02-12T15:41:22Z)
Spacewalk-18: A Benchmark for Multimodal and Long-form Procedural Video Understanding in Novel Domains [4.9347081318119015]
本研究では,(1)ステップ認識と(2)ビデオ質問応答の2つのタスクを含むベンチマークであるSpacewalk-18を紹介する。タンデムにおいて、この2つのタスクは、(1)新しいドメインに一般化すること、(2)長期の時間的文脈とマルチモーダル(視覚的・音声的)情報を活用すること、の2つのモデルの能力の定量化である。我々は,モデル微調整を伴わずに大幅な性能向上をもたらすような要約手法により,有望な適応を見いだす。
論文参考訳（メタデータ） (2023-11-30T18:19:23Z)
End-to-End Integration of Speech Separation and Voice Activity Detection for Low-Latency Diarization of Telephone Conversations [13.020158123538138]
音声分離誘導ダイアリゼーション(SSGD)は、まず話者を分離し、各分離ストリームに音声活動検出(VAD)を適用することでダイアリゼーションを行う。 3つの最先端音声分離(SSep)アルゴリズムを検討し,その性能をオンラインおよびオフラインのシナリオで検討する。我々は,CALLHOMEの8.8%のDORを実現し,現在の最先端のニューラルダイアリゼーションモデルより優れていることを示す。
論文参考訳（メタデータ） (2023-03-21T16:33:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。