論文の概要: SONIC-O1: A Real-World Benchmark for Evaluating Multimodal Large Language Models on Audio-Video Understanding
- arxiv url: http://arxiv.org/abs/2601.21666v1
- Date: Thu, 29 Jan 2026 13:01:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.830746
- Title: SONIC-O1: A Real-World Benchmark for Evaluating Multimodal Large Language Models on Audio-Video Understanding
- Title(参考訳): SONIC-O1: マルチモーダル大言語モデル評価のための実時間ベンチマーク
- Authors: Ahmed Y. Radwan, Christos Emmanouilidis, Hina Tabassum, Deval Pandya, Shaina Raza,
- Abstract要約: MLLM(Multimodal Large Language Models)は、最近のAI研究の主要な焦点である。
我々は、13の現実世界の会話ドメインにまたがる総合的、完全な人間認証ベンチマークであるSONIC-O1を紹介する。
SONIC-O1は、オープン・エンド・サマリゼーション、MCQ(Multi-choice Questioning)応答、時間的ローカライゼーションなどの重要なタスクでMLLMを評価する。
- 参考スコア(独自算出の注目度): 17.345147490428115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) are a major focus of recent AI research. However, most prior work focuses on static image understanding, while their ability to process sequential audio-video data remains underexplored. This gap highlights the need for a high-quality benchmark to systematically evaluate MLLM performance in a real-world setting. We introduce SONIC-O1, a comprehensive, fully human-verified benchmark spanning 13 real-world conversational domains with 4,958 annotations and demographic metadata. SONIC-O1 evaluates MLLMs on key tasks, including open-ended summarization, multiple-choice question (MCQ) answering, and temporal localization with supporting rationales (reasoning). Experiments on closed- and open-source models reveal limitations. While the performance gap in MCQ accuracy between two model families is relatively small, we observe a substantial 22.6% performance difference in temporal localization between the best performing closed-source and open-source models. Performance further degrades across demographic groups, indicating persistent disparities in model behavior. Overall, SONIC-O1 provides an open evaluation suite for temporally grounded and socially robust multimodal understanding. We release SONIC-O1 for reproducibility and research: Project page: https://vectorinstitute.github.io/sonic-o1/ Dataset: https://huggingface.co/datasets/vector-institute/sonic-o1 Github: https://github.com/vectorinstitute/sonic-o1 Leaderboard: https://huggingface.co/spaces/vector-institute/sonic-o1-leaderboard
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、最近のAI研究の主要な焦点である。
しかし,従来の研究のほとんどは静的な画像理解に重点を置いている。
このギャップは、実世界の環境でMLLMのパフォーマンスを体系的に評価する高品質なベンチマークの必要性を強調している。
我々は、13の現実世界の会話ドメインに4,958のアノテーションと人口統計メタデータを持つ包括的、完全に検証されたベンチマークであるSONIC-O1を紹介する。
SONIC-O1は、オープン・エンド・サマリゼーション(英語版)、マルチチョイス・質問(MCQ)回答、時間的局所化(英語版)など、主要なタスクにおけるMLLMを評価する。
クローズドおよびオープンソースモデルの実験は制限を明らかにしている。
2つのモデルファミリ間のMCQ精度の差は比較的小さいが、最高のクローズドソースモデルとオープンソースモデル間の時間的ローカライゼーションにおける性能差は22.6%である。
パフォーマンスは人口統計群全体でさらに低下し、モデル行動の相違が持続することを示している。
全体として、SONIC-O1は時間的基盤と社会的に堅牢なマルチモーダル理解のためのオープンな評価スイートを提供する。
プロジェクトページ: https://vectorinstitute.github.io/sonic-o1/ Dataset: https://huggingface.co/datasets/vector-institute/sonic-o1 Github: https://github.com/vectorinstitute/sonic-o1 Leaderboard: https://huggingface.co/spaces/vector-institute/sonic-o1- Leaderboard
関連論文リスト
- STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 4D Intelligence [81.94084852268468]
時間と3次元空間における音波力学の推論として定義される音声4次元インテリジェンスを形式化する。
STAR-Benchは、基礎的な音響知覚設定とホロスティックな時空間推論設定を組み合わせる。
データキュレーションパイプラインは、高品質なサンプルを保証するために2つの方法を使用します。
論文 参考訳(メタデータ) (2025-10-28T17:50:34Z) - AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文 参考訳(メタデータ) (2025-08-29T07:40:39Z) - Detect Any Sound: Open-Vocabulary Sound Event Detection with Multi-Modal Queries [18.147981850263708]
マルチモーダルクエリによってガイドされるオープン語彙SEDのための問合せベースのフレームワークを提案する。
DASMはSEDをフレームレベルの検索タスクとして定式化し、音声機能はテキストやオーディオプロンプトからのクエリベクトルと一致している。
DASMは、局所化精度と新しいクラスへの一般化のバランスを効果的に保ち、オープン語彙設定においてCLAPベースの手法より優れている。
論文 参考訳(メタデータ) (2025-07-22T08:24:01Z) - MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks [67.31276358668424]
AV-HaystacksQAという新しいタスクを導入し、クエリに応答して、異なるビデオにまたがる有能なセグメントを識別し、それらをリンクして最も有意義な回答を生成する。
AVHaystacksは、マルチビデオ検索および時間的グラウンドタスクにおけるLMMの能力を評価するために設計された3100の注釈付きQAペアからなるオーディオビジュアルベンチマークである。
提案するAVHaystackのQAタスクにおけるBLEU@4およびGPT評価スコアの基準値よりも89%と65%の相対的な改善を実現し、モデルに依存しないマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-08T06:34:29Z) - VideoMolmo: Spatio-Temporal Grounding Meets Pointing [66.19964563104385]
VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。
新しい仮面融合はSAM2を双方向の点伝播に用いている。
The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
論文 参考訳(メタデータ) (2025-06-05T17:59:29Z) - Daily-Omni: Towards Audio-Visual Reasoning with Temporal Alignment across Modalities [38.28151377285753]
MLLM(Multimodal Large Language Models)は、視覚および音声のベンチマークにおいて、独立して有望な性能を達成する。
しかし、これらのモデルがクロスモーダル情報を同期的に処理する能力は、まだほとんど解明されていない。
本稿では,(1)日常の生活シナリオの684の動画を多種多様なソースから収録するデイリー・オムニ,(2)自動アノテーション,QA生成,QA最適化を含むデイリー・オムニ生成パイプライン,(3)オープンソースのビジュアル言語モデル(VLM),音声言語モデル(ALM)を利用したトレーニングフリーエージェントであるデイリー・オムニ・アジェントを紹介する。
論文 参考訳(メタデータ) (2025-05-23T13:13:58Z) - TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models [75.42002690128486]
TemporalBenchは、ビデオの微細な時間的理解を評価するための新しいベンチマークだ。
ビデオクリップの時間的ダイナミクスを詳述した2Kの高品質な人間のアノテーションから派生した10KのビデオQ&Aペアで構成されている。
GPT-4oのような最先端のモデルは、TemporalBench上で38.5%の質問応答精度しか達成していない。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z) - An Explainable Proxy Model for Multiabel Audio Segmentation [1.7611027732647493]
音声活動(SAD)、音楽(MD)、ノイズ(ND)、重畳音声検出(OSD)を同時に解くための説明可能なマルチラベルセグメンテーションモデルを提案する。
2つのデータセットで実施された実験は、トレーニング済みのブラックボックスモデルと同様のパフォーマンスを示しながら、強い説明可能性を示している。
論文 参考訳(メタデータ) (2024-01-16T10:41:33Z) - Spacewalk-18: A Benchmark for Multimodal and Long-form Procedural Video Understanding in Novel Domains [4.9347081318119015]
本研究では,(1)ステップ認識と(2)ビデオ質問応答の2つのタスクを含むベンチマークであるSpacewalk-18を紹介する。
タンデムにおいて、この2つのタスクは、(1)新しいドメインに一般化すること、(2)長期の時間的文脈とマルチモーダル(視覚的・音声的)情報を活用すること、の2つのモデルの能力の定量化である。
我々は,モデル微調整を伴わずに大幅な性能向上をもたらすような要約手法により,有望な適応を見いだす。
論文 参考訳(メタデータ) (2023-11-30T18:19:23Z) - V2A-Mapper: A Lightweight Solution for Vision-to-Audio Generation by
Connecting Foundation Models [14.538853403226751]
基礎モデル(FM)の上に人工知能システムを構築することは、AI研究の新たなパラダイムになりつつある。
本稿では,基礎モデル,特にCLIP,CLAP,AudioLDMを活用することで,この問題に対する軽量な解決策を提案する。
提案手法では,V2A-Mapperを高速に訓練し,高忠実で視覚的に整合した音を生成する。
論文 参考訳(メタデータ) (2023-08-18T04:49:38Z) - Perception Test: A Diagnostic Benchmark for Multimodal Video Models [78.64546291816117]
本稿では,事前学習したマルチモーダルモデルの知覚と推論能力を評価するために,新しいマルチモーダルビデオベンチマークを提案する。
知覚テストは、スキル(記憶、抽象化、物理学、セマンティックス)と、ビデオ、オーディオ、テキストモダリティ間の推論(記述的、説明的、予測的、反ファクト的)のタイプに焦点を当てている。
このベンチマークは、ゼロショット/少数ショットまたは限定的な微調整方式で、転送機能の事前訓練されたモデルを探索する。
論文 参考訳(メタデータ) (2023-05-23T07:54:37Z) - End-to-End Integration of Speech Separation and Voice Activity Detection for Low-Latency Diarization of Telephone Conversations [13.020158123538138]
音声分離誘導ダイアリゼーション(SSGD)は、まず話者を分離し、各分離ストリームに音声活動検出(VAD)を適用することでダイアリゼーションを行う。
3つの最先端音声分離(SSep)アルゴリズムを検討し,その性能をオンラインおよびオフラインのシナリオで検討する。
我々は,CALLHOMEの8.8%のDORを実現し,現在の最先端のニューラルダイアリゼーションモデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-03-21T16:33:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。