論文の概要: OmniPro: A Comprehensive Benchmark for Omni-Proactive Streaming Video Understanding
- arxiv url: http://arxiv.org/abs/2605.18577v1
- Date: Mon, 18 May 2026 15:55:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.991412
- Title: OmniPro: A Comprehensive Benchmark for Omni-Proactive Streaming Video Understanding
- Title(参考訳): OmniPro:Omniプロアクティブストリーミングビデオ理解のための総合ベンチマーク
- Authors: Ruixiang Zhao, Jie Yang, Zijie Xin, Tianyi Wang, Fengyun Rao, Jing LYU, Xirong Li,
- Abstract要約: オムニプロ(OmniPro)は、オムニモーダル知覚、プロアクティブ応答、多様なビデオ理解タスクを共同で評価する最初のベンチマークである。
9つのサブタスクと3つの認知レベルにまたがる2,700人の人間認証サンプルで構成されており、6つの基本的なビデオ理解機能を含んでいる。
特に、サンプルの84%は音声信号(音声または非音声)を必要とし、各サンプルは、微細なマルチモーダル解析を可能にするために、モダリティ・アイソレーションラベルで注釈付けされている。
- 参考スコア(独自算出の注目度): 17.161087166882744
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Omni-proactive streaming video understanding, i.e., autonomously deciding when to speak and what to say from continuous audio-visual streams, is an emerging capability of omni-modal large language models. Existing benchmarks fall short in three key aspects: they rely primarily on visual signals, adopt polling or fixed-timestamp protocols instead of true proactive evaluation, and cover only a limited range of tasks, preventing reliable assessment and differentiation of omni-proactive streaming models. We present OmniPro, the first benchmark to jointly evaluate omni-modal perception, proactive responding, and diverse video understanding tasks. It comprises 2,700 human-verified samples spanning 9 sub-tasks and 3 cognitive levels, covering 6 basic video understanding capabilities. Notably, 84% of samples require audio signals (speech or non-speech), and each sample is annotated with modality-isolation labels to enable fine-grained multimodal analysis. We further introduce a dual-mode evaluation protocol: Probe mode assesses content understanding by querying the model before and after each ground-truth trigger, while Online mode evaluates full proactive ability by requiring models to autonomously decide when to respond in streaming input. Evaluating 11 representative models reveals three key findings: (1) audio provides consistent gains but with highly variable utilization across models, (2) performance degrades significantly over time, indicating limited long-horizon robustness, and (3) non-speech audio perception remains the weakest dimension.
- Abstract(参考訳): Omni-proactive streaming video understanding、すなわち、いつ話すべきかを自律的に決定し、連続的な音声・視覚的ストリームから何を言おうかは、Omni-modal large language modelの出現する能力である。
既存のベンチマークは、主に視覚信号に依存し、ポーリングや固定タイムスタンププロトコルを採用し、特定のタスクのみをカバーし、オンニプロアクティブストリーミングモデルの信頼性評価と差別化を防止している。
オムニプロ(OmniPro)は、オムニモーダル知覚、プロアクティブ応答、多様なビデオ理解タスクを共同で評価する最初のベンチマークである。
9つのサブタスクと3つの認知レベルにまたがる2,700人の人間認証サンプルで構成されており、6つの基本的なビデオ理解機能を含んでいる。
特に、サンプルの84%は音声信号(音声または非音声)を必要とし、各サンプルは、微細なマルチモーダル解析を可能にするために、モダリティ・アイソレーションラベルで注釈付けされている。
さらに,2つのモード評価プロトコルを導入する: Probeモードは,各グランドトルーストリガ前後のモデルに問い合わせることにより,コンテンツ理解を評価する一方,Onlineモードは,モデルに対して,ストリーミング入力に応答するタイミングを自律的に決定させることで,完全なプロアクティブ能力を評価する。
1)音声は一貫した利得を提供するが、モデル間で高度に変動し、(2)時間とともに性能が著しく低下し、そして、(3)音声非音声知覚は最も弱い次元のままである。
関連論文リスト
- Omni-DuplexEval: Evaluating Real-time Duplex Omni-modal Interaction [18.498258537382416]
実世界のシナリオで動作するマルチモーダルAIシステムには、リアルタイムデュプレックスインタラクションが不可欠である。
Omni-DuplexEvalは,実時間二重相互作用を体系的に評価するためのベンチマークである。
論文 参考訳(メタデータ) (2026-05-17T09:57:01Z) - Boosting Omni-Modal Language Models: Staged Post-Training with Visually Debiased Evaluation [20.125825685200432]
本研究は,現在行われているOmni-modalベンチマークにおいて,真の音声-視覚-言語証拠統合と視覚的ショートカットを区別するか否かを考察する。
視覚のみの探索で9つのOmni-modalベンチマークを監査し、視覚的に解決可能なクエリを削除し、完全なサブセットを保持する。
視覚的漏洩を制御する場合,オムニモーダルな進行が容易に解釈できることが示唆された。
論文 参考訳(メタデータ) (2026-05-12T12:16:11Z) - TraceAV-Bench: Benchmarking Multi-Hop Trajectory Reasoning over Long Audio-Visual Videos [13.9567665031159]
実世界の音声・視覚的理解には、疎く、時間的に分散し、視覚と聴覚の流れにまたがる証拠の連鎖が必要である。
TraceAV-Benchは、長時間の視覚的軌跡とマルチモーダル幻覚の堅牢性に対して、マルチホップ推論を共同で評価する最初のベンチマークである。
論文 参考訳(メタデータ) (2026-05-08T11:06:43Z) - OmniACBench: A Benchmark for Evaluating Context-Grounded Acoustic Control in Omni-Modal Models [17.817469065260124]
オムニACBench(OmniACBench)は、Omni-Modalモデルにおいて、コンテキストグラウンド音響制御を評価するためのベンチマークである。
音声命令、テキストスクリプト、画像が与えられた場合、モデルは適切なトーンとやり方で読み取らなければならない。
8つのモデルでの実験では、テキスト出力評価に強い性能があるにもかかわらず、提案された設定において制限が示される。
論文 参考訳(メタデータ) (2026-03-25T05:00:51Z) - LVOmniBench: Pioneering Long Audio-Video Understanding Evaluation for Omnimodal LLMs [68.35684758116453]
このデータセットは、リッチなオーディオ視覚ダイナミクスを備えたオープンプラットフォームからソースされた高品質なビデオで構成されている。
我々は,長期記憶,時間的局所化,きめ細かい理解,マルチモーダル知覚など,ドメイン間のOmniLLMの能力について精査した。
オープンソースモデルは一般的に35%未満の精度を達成するが、Gemini 3 Proは65%のピーク精度に達する。
論文 参考訳(メタデータ) (2026-03-19T17:58:13Z) - JointAVBench: A Benchmark for Joint Audio-Visual Reasoning Evaluation [16.067014259345743]
我々は、データセット上で、視覚のみ、音声のみ、およびOmni-LLMを優先的に評価する。
最高性能のOmni-LLMでさえ平均精度は62.6%であり、ユニモーダルベースラインを上回っている。
論文 参考訳(メタデータ) (2025-12-14T17:23:21Z) - Omni-Captioner: Data Pipeline, Models, and Benchmark for Omni Detailed Perception [97.32606786622728]
我々は、データパイプライン、モデル、ベンチマークの観点から、Omniの詳細な認識を体系的で包括的に調査する。
ツールコールを統合したエージェントデータ生成パイプラインであるOmni-Detectiveを提案する。
Omni-Detectiveで生成されたデータに基づいて、2つのキャプションモデル:音声のみの詳細な知覚のためのオーディオ・キャプション・キャプション・モデルと、音声視覚による詳細な知覚のためのOmni-Captionerを訓練する。
論文 参考訳(メタデータ) (2025-10-14T17:00:09Z) - OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs [72.425061028374]
音声・視覚の相乗的理解を評価するためのベンチマークであるOmniVideoBenchを紹介する。
OmniVideoBenchは1000の高品質なQA(QA)ペアで構成され、それぞれにステップバイステップの推論トレースが付加されている。
我々はOmniVideoBenchをリリースし、より強力でより一般化可能な推論機能を持つMLLMの開発を促進する。
論文 参考訳(メタデータ) (2025-10-12T16:34:00Z) - AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文 参考訳(メタデータ) (2025-08-29T07:40:39Z) - AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information? [65.49972312524724]
マルチモーダルな大言語モデル(MLLM)は、視覚とオーディオのモダリティを含む機能を拡張した。
提案したDeafTestは、MLLMが人間にとって簡単なタスクとよく戦っていることを示している。
AV-Odyssey Benchは、これらのMLLMが真にオーディオ視覚情報を理解できるかどうかを評価するために設計された総合的なオーディオ視覚ベンチマークである。
論文 参考訳(メタデータ) (2024-12-03T17:41:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。