論文の概要: UFVideo: Towards Unified Fine-Grained Video Cooperative Understanding with Large Language Models
- arxiv url: http://arxiv.org/abs/2512.11336v1
- Date: Fri, 12 Dec 2025 07:17:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.68963
- Title: UFVideo: Towards Unified Fine-Grained Video Cooperative Understanding with Large Language Models
- Title(参考訳): UFVideo: 大規模言語モデルによるファイングラインドビデオの統一的理解を目指して
- Authors: Hewen Pan, Cong Wei, Dashuang Liang, Zepeng Huang, Pengfei Gao, Ziqi Zhou, Lulu Xue, Pengfei Yan, Xiaoming Wei, Minghui Li, Shengshan Hu,
- Abstract要約: UFVideoは,多粒度協調理解機能を備えた初のビデオLLMである。
我々は、単一のモデル内で、グローバル、ピクセル、時間スケールにわたる映像理解を柔軟に扱うために、統一された視覚言語案内アライメントを設計する。
GPT-4oに対するUFVideoの柔軟性とアドバンテージを示すために,UFVideo-Benchを3つの異なる協調作業で構成する。
- 参考スコア(独自算出の注目度): 35.952441992916235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the advancement of multi-modal Large Language Models (LLMs), Video LLMs have been further developed to perform on holistic and specialized video understanding. However, existing works are limited to specialized video understanding tasks, failing to achieve a comprehensive and multi-grained video perception. To bridge this gap, we introduce UFVideo, the first Video LLM with unified multi-grained cooperative understanding capabilities. Specifically, we design unified visual-language guided alignment to flexibly handle video understanding across global, pixel and temporal scales within a single model. UFVideo dynamically encodes the visual and text inputs of different tasks and generates the textual response, temporal localization, or grounded mask. Additionally, to evaluate challenging multi-grained video understanding tasks, we construct the UFVideo-Bench consisting of three distinct collaborative tasks within the scales, which demonstrates UFVideo's flexibility and advantages over GPT-4o. Furthermore, we validate the effectiveness of our model across 9 public benchmarks covering various common video understanding tasks, providing valuable insights for future Video LLMs.
- Abstract(参考訳): マルチモーダル大言語モデル(LLM)の進歩により、ビデオLLMはより総合的で専門的なビデオ理解を行うためにさらに発展してきた。
しかし、既存の作品は専門的な映像理解タスクに限られており、包括的で多義的な映像知覚を達成できなかった。
このギャップを埋めるため、UFVideoは多粒度協調理解機能を備えた最初のビデオLLMである。
具体的には、単一のモデルにおいて、大域的、ピクセル的、時間的スケールにわたる映像理解を柔軟に扱うために、統一的な視覚言語案内アライメントを設計する。
UFVideoは、異なるタスクの視覚的およびテキスト入力を動的にエンコードし、テキスト応答、時間的局所化、グラウンドドマスクを生成する。
さらに,難易度の高いビデオ理解タスクを評価するために,スケール内の3つの異なる協調タスクからなるUFVideo-Benchを構築し,GPT-4oに対するUFVideoの柔軟性とアドバンテージを示す。
さらに、様々なビデオ理解タスクをカバーする9つの公開ベンチマークにおいて、我々のモデルの有効性を検証し、将来のビデオLLMに価値ある洞察を与える。
関連論文リスト
- LLMs Meet Long Video: Advancing Long Video Question Answering with An Interactive Visual Adapter in LLMs [22.696090318037925]
長いビデオ理解は、マルチメディアと人工知能の交差において、重要かつ進行中の課題である。
大型言語モデル(LLM)における対話型ビジュアルアダプタ(IVA)を提案する。
論文 参考訳(メタデータ) (2024-02-21T05:56:52Z) - MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [63.14000659130736]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。
まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。
そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文 参考訳(メタデータ) (2023-11-28T17:59:04Z) - VidCoM: Fast Video Comprehension through Large Language Models with Multimodal Tools [44.78291853329394]
textbfVidCoMは、Large Language Models (LLM)を活用して、軽量なビジュアルツールを使用して動画を推論する高速適応フレームワークである。
InsOVERアルゴリズムは、言語命令の分解とビデオイベントの間の効率的なハンガリー語マッチングに基づいて、対応するビデオイベントを特定する。
論文 参考訳(メタデータ) (2023-10-16T17:05:56Z) - VideoLLM: Modeling Video Sequence with Large Language Models [70.32832021713864]
既存のビデオ理解モデルは、しばしばタスク固有であり、多様なタスクを扱う包括的な能力に欠ける。
我々は,事前学習したLLMのシーケンス推論機能を活用する,VideoLLMという新しいフレームワークを提案する。
VideoLLMは慎重に設計されたModality and Semantic Translatorを組み込んでおり、様々なモードからの入力を統一されたトークンシーケンスに変換する。
論文 参考訳(メタデータ) (2023-05-22T17:51:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。