論文の概要: X-Stream: Exploring MLLMs as Multiplexers for Multi-Stream Understanding
- arxiv url: http://arxiv.org/abs/2606.02482v1
- Date: Mon, 01 Jun 2026 16:52:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.512806
- Title: X-Stream: Exploring MLLMs as Multiplexers for Multi-Stream Understanding
- Title(参考訳): X-Stream:マルチストリーム理解のためのマルチプレクサとしてのMLLMの探索
- Authors: Peiwen Sun, Xudong Lu, Huadai Liu, Yang Bo, Dongming Wu, Huankang Guan, Minghong Cai, Jinpeng Chen, Xintong Guo, Shuhan Li, Rui Liu, Xiangyu Yue,
- Abstract要約: マルチストリームストリーミング理解に特化した最初のベンチマークであるX-Streamを紹介する。
厳格にキュレートされた4,220のQAペアを932ビデオにコンパイルし、X-Streamはマルチウィンドウ、マルチビュー、マルチデバイスシナリオで11のサブタスクを評価している。
- 参考スコア(独自算出の注目度): 28.0847446500851
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While video streaming understanding has made significant strides, real-world applications, such as live sports broadcasting, autonomous driving, and multi-screen collaboration, inherently demand continuous, multi-stream interactions. However, existing benchmarks are confined to single-stream paradigms, leaving a critical gap in evaluating online, cross-stream reasoning. To bridge this, we introduce X-Stream, the first benchmark dedicated to multi-stream streaming understanding. Comprising 4,220 rigorously curated QA pairs across 932 videos, X-Stream evaluates 11 subtasks across multi-window, multi-view, and multi-device scenarios. Crucially, our dataset is constructed using a novel dual-verification pipeline that prevents over-reliance on a single stream. Furthermore, we pioneer the conceptualization of multi-modal large language models (MLLMs) as naive multiplexers, systematically evaluating their performance through the lens of Signal Multiplexing Theory. Our extensive online inference experiments reveal a stark reality: state-of-the-art MLLMs struggle significantly with concurrent streams, achieving only about 50% score and exhibiting poor proactive ability. Ultimately, X-Stream exposes the trade-off of current multiplexing schemes, providing both a practical evaluation protocol and empirical guidance for next-generation multi-stream agents.
- Abstract(参考訳): ビデオストリーミングの理解は大きな進歩を遂げてきたが、ライブスポーツ放送、自動運転、マルチスクリーンコラボレーションといった現実世界のアプリケーションは、本質的には連続的なマルチストリームインタラクションを必要としている。
しかし、既存のベンチマークはシングルストリームのパラダイムに限定されており、オンラインのクロスストリーム推論を評価する上で重要なギャップを残している。
これを埋めるために、マルチストリームストリーミング理解に特化した最初のベンチマークであるX-Streamを紹介します。
厳格にキュレートされた4,220のQAペアを932ビデオにコンパイルし、X-Streamはマルチウィンドウ、マルチビュー、マルチデバイスシナリオで11のサブタスクを評価している。
重要な点として、我々のデータセットは、単一のストリームにおける過度な信頼性を防止した、新しい二重検証パイプラインを使用して構築されている。
さらに,マルチモーダル大言語モデル(MLLM)の概念を,信号多重化理論(Signal Multiplexing Theory)のレンズを用いて,その性能を体系的に評価する手法を考案した。
最新のMLLMはコンカレントストリームと大きく競合し、スコアは50%程度しか達成できず、プロアクティブな能力も劣っている。
最終的に、X-Streamは現在の多重化方式のトレードオフを明らかにし、実用的な評価プロトコルと次世代マルチストリームエージェントの実証的なガイダンスを提供する。
関連論文リスト
- A Skill-augmented Agentic Framework and Benchmark for Multi-Video Understanding [69.31609753061137]
マルチモーダルな大規模言語モデルはシングルビデオ理解において高いパフォーマンスを達成しているが、複数のビデオにまたがる推論能力は依然として限られている。
既存のアプローチでは、複数のビデオを1つの入力にまとめて直接推論を行い、トレーニングと推論のミスマッチを導入する。
現在のマルチビデオベンチマークでは、主にイベントレベルの比較を強調しており、アイデンティティレベルのマッチング、きめ細かい識別、構造化されたマルチステップ推論が過小評価されている。
視覚ツール,タスク固有のスキル,コンフリクト対応検証機構を統合した,多視点理解のためのスキル強化型エージェントフレームワークSAMAを提案する。
論文 参考訳(メタデータ) (2026-03-16T02:09:48Z) - CrossVid: A Comprehensive Benchmark for Evaluating Cross-Video Reasoning in Multimodal Large Language Models [35.31011102734943]
クロスビデオ推論(CVR)は、複数のビデオの同時理解を必要とし、ビデオのグループ間で情報を集約し比較する。
既存のビデオ理解ベンチマークのほとんどはシングルビデオ分析に重点を置いており、マルチモーダルな大規模言語モデル(MLLM)が様々な動画を同時に推論できる能力の評価に失敗している。
最近のベンチマークでは、同一シーンの異なる視点を捉えたマルチビュービデオにおいてMLLMの能力を評価している。
我々は,MLLMの空間時間推論能力をクロスビデオ・コンテキストで包括的に評価する最初のベンチマークであるCrossVidを紹介する。
論文 参考訳(メタデータ) (2025-11-15T15:41:38Z) - MVU-Eval: Towards Multi-Video Understanding Evaluation for Multimodal LLMs [61.70050081221131]
MVU-EvalはMLLMのマルチビデオ理解を評価するための最初の包括的なベンチマークである。
私たちのMVU-Evalは、主に8つのコア能力を評価し、4,959本のビデオにまたがる1,824本の厳密にキュレートされた質問応答ペアを評価します。
これらの機能は、自律システムにおけるマルチセンサー合成や、クロスアングルスポーツ分析のような現実世界のアプリケーションと厳格に一致している。
論文 参考訳(メタデータ) (2025-11-10T16:02:33Z) - CFVBench: A Comprehensive Video Benchmark for Fine-grained Multimodal Retrieval-Augmented Generation [29.58444236508143]
MRAG(Multimodal Retrieval-Augmented Generation)により、MLLM(Large Language Models)は、外部のマルチモーダルエビデンスによる応答を生成することができる。
既存のベンチマークは、モダリティのカバレッジとフォーマットの多様性に制限されている。
CFVBenchは599の公開ビデオから構築された大規模で手動で検証されたベンチマークである。
論文 参考訳(メタデータ) (2025-10-10T11:05:37Z) - Perception-R1: Advancing Multimodal Reasoning Capabilities of MLLMs via Visual Perception Reward [77.34936657745578]
本稿では,MLLMに視覚内容の正確な知覚を促す新しい視覚認識報酬を導入するPerception-R1を提案する。
本稿では,Perception-R1が1,442のトレーニングデータのみを用いて,ほとんどのベンチマークで最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2025-06-08T16:48:42Z) - FairStream: Fair Multimedia Streaming Benchmark for Reinforcement Learning Agents [9.722943742118234]
本稿では,公平なマルチメディアストリーミングの課題を含む,新しいマルチエージェント環境を提案する。
我々は、5つの異なるトラフィッククラスにわたるアプローチを分析し、考慮されたエージェントの振る舞いに関する詳細な洞察を得る。
論文 参考訳(メタデータ) (2024-10-28T13:51:03Z) - Multimodal Channel-Mixing: Channel and Spatial Masked AutoEncoder on
Facial Action Unit Detection [12.509298933267225]
本稿では,MCM(Multimodal Channel-Mixing)と呼ばれる新しいマルチモーダル再構成ネットワークを提案する。
このアプローチは、Channel-Mixingモジュールを統合して、5つのうち2つをランダムにドロップする、初期の融合設定に従っている。
このモジュールはチャネルの冗長性を低下させるだけでなく、マルチモーダル学習と再構成機能も促進し、ロバストな特徴学習をもたらす。
論文 参考訳(メタデータ) (2022-09-25T15:18:56Z) - Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment
Analysis in Videos [58.93586436289648]
マルチモーダル感情分析のためのマルチスケール協調型マルチモーダルトランス (MCMulT) アーキテクチャを提案する。
本モデルは,非整合型マルチモーダル列に対する既存手法よりも優れ,整合型マルチモーダル列に対する強い性能を有する。
論文 参考訳(メタデータ) (2022-06-16T07:47:57Z) - StreaMulT: Streaming Multimodal Transformer for Heterogeneous and
Arbitrary Long Sequential Data [0.0]
StreaMulTは、クロスモーダルアテンションとメモリバンクに依存するストリーミングマルチモーダルトランスであり、トレーニング時に任意に長い入力シーケンスを処理し、推論時にストリーミング形式で実行する。
StreaMulTは、Multimodal Sentiment Analysisタスク用のCMU-MOSEIデータセットの最先端メトリクスを改善し、他のマルチモーダルモデルよりもはるかに長い入力を処理することができる。
論文 参考訳(メタデータ) (2021-10-15T11:32:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。