論文の概要: Vidi: Large Multimodal Models for Video Understanding and Editing
- arxiv url: http://arxiv.org/abs/2504.15681v2
- Date: Thu, 24 Apr 2025 05:36:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.780339
- Title: Vidi: Large Multimodal Models for Video Understanding and Editing
- Title(参考訳): Vidi:ビデオ理解と編集のための大規模マルチモーダルモデル
- Authors: Vidi Team, Celong Liu, Chia-Wen Kuo, Dawei Du, Fan Chen, Guang Chen, Jiamin Yuan, Lingxi Zhang, Lu Guo, Lusha Li, Longyin Wen, Qingyu Chen, Rachel Deng, Sijie Zhu, Stuart Siew, Tong Jin, Wei Lu, Wen Zhong, Xiaohui Shen, Xin Gu, Xing Mei, Xueqiong Qu,
- Abstract要約: 本稿では,LMM(Large Multimodal Models)のファミリであるVidiを紹介する。
最初のリリースでは、与えられたテキストクエリに対応する入力ビデオ内の時間範囲を特定する、時間的検索に焦点を当てている。
VUE-TRベンチマークも提案する。
- 参考スコア(独自算出の注目度): 33.56852569192024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans naturally share information with those they are connected to, and video has become one of the dominant mediums for communication and expression on the Internet. To support the creation of high-quality large-scale video content, a modern pipeline requires a comprehensive understanding of both the raw input materials (e.g., the unedited footage captured by cameras) and the editing components (e.g., visual effects). In video editing scenarios, models must process multiple modalities (e.g., vision, audio, text) with strong background knowledge and handle flexible input lengths (e.g., hour-long raw videos), which poses significant challenges for traditional models. In this report, we introduce Vidi, a family of Large Multimodal Models (LMMs) for a wide range of video understand editing scenarios. The first release focuses on temporal retrieval, i.e., identifying the time ranges within the input videos corresponding to a given text query, which plays a critical role in intelligent editing. The model is capable of processing hour-long videos with strong temporal understanding capability, e.g., retrieve time ranges for certain queries. To support a comprehensive evaluation in real-world scenarios, we also present the VUE-TR benchmark, which introduces five key advancements. 1) Video duration: significantly longer than videos of existing temporal retrival datasets, 2) Audio support: includes audio-based queries, 3) Query format: diverse query lengths/formats, 4) Annotation quality: ground-truth time ranges are manually annotated. 5) Evaluation metric: a refined IoU metric to support evaluation over multiple time ranges. Remarkably, Vidi significantly outperforms leading proprietary models, e.g., GPT-4o and Gemini, on the temporal retrieval task, indicating its superiority in video editing scenarios.
- Abstract(参考訳): 人間はつながった人と情報を自然に共有し、ビデオはインターネット上でのコミュニケーションや表現において支配的な媒体の1つになっている。
高品質な大規模ビデオコンテンツの作成を支援するため、現代のパイプラインでは、生の入力材料(例えば、カメラが撮影した未編集映像)と編集コンポーネント(例えば、視覚効果)の両方を包括的に理解する必要がある。
ビデオ編集のシナリオでは、モデルは背景知識の強い複数のモード(例えば、視覚、音声、テキスト)を処理し、フレキシブルな入力長(例えば、時間単位の生ビデオ)を扱う必要がある。
本稿では,大規模なマルチモーダルモデル(LMM)のファミリーであるVidiを紹介する。
最初のリリースは、時間的検索、すなわち、与えられたテキストクエリに対応する入力ビデオ内の時間範囲を特定することに焦点を当て、インテリジェントな編集において重要な役割を果たす。
このモデルは、例えば特定のクエリの時間範囲を検索するなど、時間長の動画を強い時間的理解能力で処理することができる。
実世界のシナリオにおける包括的評価を支援するため,VUE-TRベンチマークを提示する。
1)ビデオの長さ:既存の時間的検索データセットのビデオよりもかなり長い。
2) 音声サポート: 音声ベースのクエリを含む。
3)クエリフォーマット:多様なクエリ長/フォーマット、
4) アノテーションの品質: 接地時間帯を手動でアノテートする。
5)評価基準:複数の時間範囲における評価を支援する改良されたIoU尺度。
注目すべきなのは、Vdiは時間的検索タスクにおいてプロプライエタリなモデルであるGPT-4oやGeminiよりも優れており、ビデオ編集のシナリオにおいてその優位性を示していることだ。
関連論文リスト
- SynopGround: A Large-Scale Dataset for Multi-Paragraph Video Grounding from TV Dramas and Synopses [58.488812405557]
ビデオグラウンディングは、特定の自然言語クエリを、トリミングされていないビデオにローカライズすることを目的としている。
本稿では,SynopGroundという大規模ビデオグラウンドデータセットを提案する。
我々はMPVG(Multi-Paragraph Video Grounding)と呼ばれるより複雑なビデオグラウンドについて紹介する。
論文 参考訳(メタデータ) (2024-08-03T05:35:13Z) - LongVideoBench: A Benchmark for Long-context Interleaved Video-Language Understanding [41.9477837230283]
LongVideoBenchは質問に答えるベンチマークで、最大1時間までビデオ言語によるインターリーブされたインプットを特徴としている。
私たちのベンチマークには、さまざまなテーマにまたがるサブタイトルを持つ3,763種類のウェブコレクトビデオが含まれています。
我々は、推論を参照する新しいビデオ質問応答タスクを定式化する。
論文 参考訳(メタデータ) (2024-07-22T16:00:55Z) - Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis [118.08008540513596]
Video-MMEは、ビデオ解析におけるMLLMの完全なマルチモード評価ベンチマークである。
我々は,GPT-4シリーズやGemini 1.5 Pro,オープンソース画像モデルなど,最先端のMLLMを幅広く評価した。
我々の実験によると、Gemini 1.5 Proは最も優れた商用モデルであり、オープンソースモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-05-31T17:59:47Z) - InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。
私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文 参考訳(メタデータ) (2024-03-22T17:57:42Z) - TimeChat: A Time-sensitive Multimodal Large Language Model for Long Video Understanding [20.037781644877388]
TimeChatは、長いビデオ理解のために特別に設計された、時間に敏感なマルチモーダルな大規模言語モデルである。
本モデルは,(1) フレームのタイムスタンプに視覚的コンテンツをバインドするタイムスタンプ対応フレームエンコーダ,(2) 長さの異なるビデオトークンシーケンスを生成するスライドビデオQ-Formerの2つの重要なアーキテクチャ的コントリビューションを含む。
論文 参考訳(メタデータ) (2023-12-04T17:09:52Z) - QVHighlights: Detecting Moments and Highlights in Videos via Natural
Language Queries [89.24431389933703]
Query-based Video Highlights (QVHighlights) データセットを提示する。
これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。
データセット内の各ビデオには、(1)人書き自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5ポイントスケールのサリエンシスコアが注釈付けされている。
論文 参考訳(メタデータ) (2021-07-20T16:42:58Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。