論文の概要: RIVER: A Real-Time Interaction Benchmark for Video LLMs
- arxiv url: http://arxiv.org/abs/2603.03985v1
- Date: Wed, 04 Mar 2026 12:29:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.296507
- Title: RIVER: A Real-Time Interaction Benchmark for Video LLMs
- Title(参考訳): RIVER:ビデオLLMのためのリアルタイムインタラクションベンチマーク
- Authors: Yansong Shi, Qingsong Zhao, Tianxiang Jiang, Xiangyu Zeng, Yi Wang, Limin Wang,
- Abstract要約: Real-tIme Video intERaction Bench (RIVER Bench)は、オンラインビデオ理解を評価するために設計された。
RIVER Bench氏はRetrospective Memory、Live-Perception、Proactive Precipationタスクからなる新しいフレームワークを紹介した。
様々なソースや長さの動画を用いて詳細なアノテーションを行い、リアルタイムのインタラクティブなフォーマットを正確に定義した。
- 参考スコア(独自算出の注目度): 14.889554695311057
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of multimodal large language models has demonstrated impressive capabilities, yet nearly all operate in an offline paradigm, hindering real-time interactivity. Addressing this gap, we introduce the Real-tIme Video intERaction Bench (RIVER Bench), designed for evaluating online video comprehension. RIVER Bench introduces a novel framework comprising Retrospective Memory, Live-Perception, and Proactive Anticipation tasks, closely mimicking interactive dialogues rather than responding to entire videos at once. We conducted detailed annotations using videos from diverse sources and varying lengths, and precisely defined the real-time interactive format. Evaluations across various model categories reveal that while offline models perform well in single question-answering tasks, they struggle with real-time processing. Addressing the limitations of existing models in online video interaction, especially their deficiencies in long-term memory and future perception, we proposed a general improvement method that enables models to interact with users more flexibly in real time. We believe this work will significantly advance the development of real-time interactive video understanding models and inspire future research in this emerging field. Datasets and code are publicly available at https://github.com/OpenGVLab/RIVER.
- Abstract(参考訳): マルチモーダルな大規模言語モデルの急速な進歩は印象的な機能を示しているが、ほぼ全てがオフラインのパラダイムで運用されており、リアルタイムの対話性を妨げている。
このギャップに対処するために、オンラインビデオ理解を評価するために設計されたReal-tIme Video intERaction Bench (RIVER Bench)を紹介する。
RIVER Bench氏はRetrospective Memory、Live-Perception、Proactive Precipationタスクを含む新しいフレームワークを紹介した。
様々なソースや長さの動画を用いて詳細なアノテーションを行い、リアルタイムのインタラクティブなフォーマットを正確に定義した。
様々なモデルカテゴリに対する評価では、オフラインモデルは単一の質問応答タスクでうまく機能するが、リアルタイム処理に苦戦している。
オンラインビデオインタラクションにおける既存モデルの限界,特に長期記憶の欠陥や今後の認識に対処するため,我々は,モデルがより柔軟にユーザと対話できる汎用的な改善手法を提案した。
この研究は、リアルタイムインタラクティブなビデオ理解モデルの開発を著しく推進し、この新興分野における将来の研究を刺激するものだと考えています。
データセットとコードはhttps://github.com/OpenGVLab/RIVERで公開されている。
関連論文リスト
- LiViBench: An Omnimodal Benchmark for Interactive Livestream Video Understanding [23.207637210563504]
LiViBenchはインタラクティブなライブストリームビデオのための全方位ベンチマークである。
24タスクの多様なセットが特徴で、知覚、推論、ライブストリーム固有の課題を強調している。
インタラクティブなライブストリームの知識を充実させたMLLMであるLiVi-LLM-7Bを開発した。
論文 参考訳(メタデータ) (2026-01-21T14:14:20Z) - MMDuet2: Enhancing Proactive Interaction of Video MLLMs with Multi-Turn Reinforcement Learning [46.07421375983852]
本稿では,プロアクティブインタラクションのための新しいテキスト・テキスト・アプローチを提案する。
我々は、SFTとRLによる2種類の対話を伴う52kビデオのデータセット上で、モデルMDDuet2を訓練する。
実験の結果,MDDuet2は既存のプロアクティブビデオMLLMベースラインよりも応答時間と品質が優れていた。
論文 参考訳(メタデータ) (2025-12-07T12:03:04Z) - IWR-Bench: Can LVLMs reconstruct interactive webpage from a user interaction video? [56.33950760097989]
IWR-Benchは、ビデオからインタラクティブなWebページ再構築におけるLVLM(Large Vision-Language Models)の機能を評価するための新しいベンチマークである。
IWR-Benchは100の現実世界のウェブサイトから1,001のアクションで1,3の精巧にキュレートされたタスクで構成されている。
このベンチマークは、ビデオとアセットからインタラクションロジックを推論する包括的なマルチモーダル推論と、このロジックを関数コードに変換するための高度なコード生成という、2つの基本的な課題に関するモデルを評価する。
論文 参考訳(メタデータ) (2025-09-29T12:38:06Z) - Matrix-Game 2.0: An Open-Source, Real-Time, and Streaming Interactive World Model [15.16063778402193]
Matrix-Game 2.0はインタラクティブな世界モデルで、数ステップの自己回帰拡散を通じて長時間の動画をオンザフライで生成する。
超高速25FPSで、さまざまなシーンで高品質のミニレベルビデオを生成することができる。
論文 参考訳(メタデータ) (2025-08-18T15:28:53Z) - Yan: Foundational Interactive Video Generation [25.398980906541524]
Yanはインタラクティブなビデオ生成の基盤となるフレームワークで、シミュレーションや生成から編集まで、パイプライン全体をカバーしている。
高圧縮低遅延3D-VAE と KV-cache-based shift-window denoising inference を併用して設計する。
本稿では,インタラクティブなメカニクスシミュレーションを視覚的レンダリングから明確に切り離すハイブリッドモデルを提案する。
論文 参考訳(メタデータ) (2025-08-12T03:34:21Z) - ARC-Hunyuan-Video-7B: Structured Video Comprehension of Real-World Shorts [56.75723197779384]
ARC-Hunyuan-Videoは、構造化理解のために視覚、音声、テキストの信号をエンドツーエンドに処理するマルチモーダルモデルである。
本モデルでは,複数粒度のタイムスタンプ付きビデオキャプションと要約,オープンなビデオ質問応答,時間的ビデオグラウンド,ビデオ推論が可能である。
論文 参考訳(メタデータ) (2025-07-28T15:52:36Z) - LoViC: Efficient Long Video Generation with Context Compression [68.22069741704158]
百万単位のオープンドメインビデオに基づいてトレーニングされたDiTベースのフレームワークであるLoViCを紹介する。
当社のアプローチの核心はFlexFormerです。ビデオとテキストを統合された潜在表現に共同で圧縮する表現型オートエンコーダです。
論文 参考訳(メタデータ) (2025-07-17T09:46:43Z) - Streaming Video Understanding and Multi-round Interaction with Memory-enhanced Knowledge [57.01131456894516]
現在のビデオ理解モデルは、長いビデオシーケンスの処理、マルチターン対話のサポート、現実の動的シナリオへの適応に苦労している。
本稿では,ストリーミングビデオ推論と対話インタラクションのためのトレーニング不要フレームワークStreamChatを提案する。
我々のフレームワークは並列システムスケジューリング戦略を取り入れており、処理速度を向上し、レイテンシを低減し、現実世界のアプリケーションで堅牢な性能を保証する。
論文 参考訳(メタデータ) (2025-01-23T08:33:10Z) - Hierarchical Banzhaf Interaction for General Video-Language Representation Learning [60.44337740854767]
マルチモーダル表現学習は人工知能領域において重要な役割を担っている。
本稿では,多変量協調ゲーム理論を用いて,ビデオテキストをゲームプレイヤーとしてモデル化する手法を提案する。
元の構造をフレキシブルなエンコーダ・デコーダ・フレームワークに拡張し、モデルが様々な下流タスクに適応できるようにする。
論文 参考訳(メタデータ) (2024-12-30T14:09:15Z) - InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions [104.90258030688256]
本研究は,ストリーミング映像とオーディオ入力とのリアルタイムインタラクションを実現するために,非絡み合いのストリーミング知覚,推論,メモリ機構を導入している。
このプロジェクトは人間のような認知をシミュレートし、多モーダルな大規模言語モデルが時間とともに継続的かつ適応的なサービスを提供できるようにする。
論文 参考訳(メタデータ) (2024-12-12T18:58:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。