論文の概要: LiViBench: An Omnimodal Benchmark for Interactive Livestream Video Understanding
- arxiv url: http://arxiv.org/abs/2601.15016v1
- Date: Wed, 21 Jan 2026 14:14:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.388787
- Title: LiViBench: An Omnimodal Benchmark for Interactive Livestream Video Understanding
- Title(参考訳): LiViBench: インタラクティブなライブストリームビデオ理解のためのOmnimodalベンチマーク
- Authors: Xiaodong Wang, Langling Huang, Zhirong Wu, Xu Zhao, Teng Xu, Xuhong Xia, Peixi Peng,
- Abstract要約: LiViBenchはインタラクティブなライブストリームビデオのための全方位ベンチマークである。
24タスクの多様なセットが特徴で、知覚、推論、ライブストリーム固有の課題を強調している。
インタラクティブなライブストリームの知識を充実させたMLLMであるLiVi-LLM-7Bを開発した。
- 参考スコア(独自算出の注目度): 23.207637210563504
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The development of multimodal large language models (MLLMs) has advanced general video understanding. However, existing video evaluation benchmarks primarily focus on non-interactive videos, such as movies and recordings. To fill this gap, this paper proposes the first omnimodal benchmark for interactive livestream videos, LiViBench. It features a diverse set of 24 tasks, highlighting the perceptual, reasoning, and livestream-specific challenges. To efficiently construct the dataset, we design a standardized semi-automatic annotation workflow that incorporates the human-in-the-loop at multiple stages. The workflow leverages multiple MLLMs to form a multi-agent system for comprehensive video description and uses a seed-question-driven method to construct high-quality annotations. All interactive videos in the benchmark include audio, speech, and real-time comments modalities. To enhance models' understanding of interactive videos, we design tailored two-stage instruction-tuning and propose a Video-to-Comment Retrieval (VCR) module to improve the model's ability to utilize real-time comments. Based on these advancements, we develop LiVi-LLM-7B, an MLLM with enhanced knowledge of interactive livestreams. Experiments show that our model outperforms larger open-source models with up to 72B parameters, narrows the gap with leading proprietary models on LiViBench, and achieves enhanced performance on general video benchmarks, including VideoMME, LongVideoBench, MLVU, and VideoEval-Pro.
- Abstract(参考訳): MLLM(Multimodal large language model)の開発は、より高度な一般的なビデオ理解をもたらした。
しかし、既存のビデオ評価ベンチマークは主に映画や録音のような非インタラクティブなビデオに焦点を当てている。
このギャップを埋めるために、インタラクティブなライブストリームビデオのための最初のオールニモーダルベンチマークLiViBenchを提案する。
24タスクの多様なセットが特徴で、知覚、推論、ライブストリーム固有の課題を強調している。
データセットを効率的に構築するために,複数段階のヒューマン・イン・ザ・ループを組み込んだ標準化されたセミ・オートマティック・アノテーション・ワークフローを設計する。
このワークフローは、複数のMLLMを活用して、包括的なビデオ記述のためのマルチエージェントシステムを構築し、高品質なアノテーションを構築するためにシードクエクション駆動方式を使用する。
ベンチマークのインタラクティブなビデオには、音声、音声、リアルタイムコメントのモダリティが含まれている。
対話型ビデオに対するモデルの理解を深めるため,2段階のインストラクションチューニングを設計し,リアルタイムコメントの活用能力を向上させるためのVCR(Video-to-Comment Retrieval)モジュールを提案する。
これらの進歩に基づき,インタラクティブなライブストリームの知識を充実させたMLLMであるLiVi-LLM-7Bを開発した。
実験の結果,最大72Bのパラメータを持つ大規模なオープンソースモデルよりも優れており,LiViBenchのプロプライエタリモデルとのギャップが狭くなり,ビデオMME,LongVideoBench,MLVU,VideoEval-Proなどの一般的なビデオベンチマークの性能向上を実現していることがわかった。
関連論文リスト
- InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling [56.130911402831906]
本稿では,LRC(Long and rich context)モデリングによるビデオ大言語モデル(LM)の性能向上を目的とする。
InternVideo2.5の新バージョンを開発し、ビデオの細かい詳細を知覚するオリジナルのMLLMの能力の向上に焦点をあてる。
実験により、このユニークな設計ML LRCは、主流理解ベンチマークにおけるビデオMLLMの結果を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-01-21T18:59:00Z) - Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis [120.67048724315619]
Video-MMEは、ビデオ解析におけるMLLMの完全なマルチモード評価ベンチマークである。
我々は,GPT-4シリーズやGemini 1.5 Pro,オープンソース画像モデルなど,最先端のMLLMを幅広く評価した。
我々の実験によると、Gemini 1.5 Proは最も優れた商用モデルであり、オープンソースモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-05-31T17:59:47Z) - Tuning Large Multimodal Models for Videos using Reinforcement Learning from AI Feedback [38.708690624594794]
ビデオとテキストのマルチモーダルアライメントは、主にマルチモーダル命令・チューンデータのボリュームと品質が不足しているため、依然として困難である。
本稿では,AIフィードバックからの強化学習(Reinforcement Learning from AI Feedback, RLAIF)と呼ばれる,マルチモーダルAIシステムを用いた新たなアライメント戦略を提案する。
具体的には、嗜好フィードバックの生成中に、詳細な映像記述を文脈として提供することによって、文脈対応報酬モデルを提案する。
論文 参考訳(メタデータ) (2024-02-06T06:27:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。