論文の概要: Vidi2: Large Multimodal Models for Video Understanding and Creation
- arxiv url: http://arxiv.org/abs/2511.19529v1
- Date: Mon, 24 Nov 2025 07:58:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.078018
- Title: Vidi2: Large Multimodal Models for Video Understanding and Creation
- Title(参考訳): Vidi2:ビデオ理解と創造のための大規模マルチモーダルモデル
- Authors: Vidi Team, Celong Liu, Chia-Wen Kuo, Chuang Huang, Dawei Du, Fan Chen, Guang Chen, Haoji Zhang, Haojun Zhao, Lingxi Zhang, Lu Guo, Lusha Li, Longyin Wen, Qihang Fan, Qingyu Chen, Rachel Deng, Sijie Zhu, Stuart Siew, Tong Jin, Weiyan Tao, Wen Zhong, Xiaohui Shen, Xin Gu, Zhenfang Chen, Zuhua Lin,
- Abstract要約: 微粒な時間的接地(STG)によるVdi2ビデオ理解とビデオ質問応答能力の向上(ビデオQA)
テキストクエリが与えられた場合、Vidi2は対応するタイムスタンプだけでなく、出力時間範囲内の対象オブジェクトのバウンディングボックスも識別できる。
このエンドツーエンドの時間的グラウンド機能は、複雑な編集シナリオにおける潜在的なアプリケーションを可能にする。
- 参考スコア(独自算出の注目度): 39.82972197371385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video has emerged as the primary medium for communication and creativity on the Internet, driving strong demand for scalable, high-quality video production. Vidi models continue to evolve toward next-generation video creation and have achieved state-of-the-art performance in multimodal temporal retrieval (TR). In its second release, Vidi2 advances video understanding with fine-grained spatio-temporal grounding (STG) and extends its capability to video question answering (Video QA), enabling comprehensive multimodal reasoning. Given a text query, Vidi2 can identify not only the corresponding timestamps but also the bounding boxes of target objects within the output time ranges. This end-to-end spatio-temporal grounding capability enables potential applications in complex editing scenarios, such as plot or character understanding, automatic multi-view switching, and intelligent, composition-aware reframing and cropping. To enable comprehensive evaluation of STG in practical settings, we introduce a new benchmark, VUE-STG, which offers four key improvements over existing STG datasets: 1) Video duration: spans from roughly 10s to 30 mins, enabling long-context reasoning; 2) Query format: queries are mostly converted into noun phrases while preserving sentence-level expressiveness; 3) Annotation quality: all ground-truth time ranges and bounding boxes are manually annotated with high accuracy; 4) Evaluation metric: a refined vIoU/tIoU/vIoU-Intersection scheme. In addition, we upgrade the previous VUE-TR benchmark to VUE-TR-V2, achieving a more balanced video-length distribution and more user-style queries. Remarkably, the Vidi2 model substantially outperforms leading proprietary systems, such as Gemini 3 Pro (Preview) and GPT-5, on both VUE-TR-V2 and VUE-STG, while achieving competitive results with popular open-source models with similar scale on video QA benchmarks.
- Abstract(参考訳): インターネット上でのコミュニケーションとクリエイティビティの主要なメディアとしてビデオが登場し、スケーラブルで高品質なビデオ制作への強い需要が高まっている。
バイディモデルは、次世代のビデオ制作に向けて進化を続け、マルチモーダル時間検索(TR)において最先端のパフォーマンスを達成した。
第2のリリースでは、Vdi2は詳細な時空間グラウンド(STG)によるビデオ理解を推進し、ビデオ質問応答(ビデオQA)に拡張し、包括的なマルチモーダル推論を可能にする。
テキストクエリが与えられた場合、Vidi2は対応するタイムスタンプだけでなく、出力時間範囲内の対象オブジェクトのバウンディングボックスも識別できる。
このエンドツーエンドの時空間グラウンド機能により、プロットや文字理解、自動多視点切替、インテリジェントで構成対応のリフレーミングとトリミングといった複雑な編集シナリオに潜在的な応用が可能になる。
実運用環境でのSTGの総合評価を可能にするため,既存のSTGデータセットに対して4つの重要な改善点を提供する新しいベンチマークであるVUE-STGを導入する。
1)ビデオの長さ:約10秒から30分の範囲で,長文推論を可能にする。
2)クエリフォーマット:クエリは、文レベルの表現性を維持しながら、名詞句に変換される。
3) 注釈の質:すべての接地時間帯及び有界箱を高精度で手動で注釈付けする。
4) 評価基準:vIoU/tIoU/vIoU-インターセクション方式を改良した。
さらに,従来のVUE-TRベンチマークをVUE-TR-V2にアップグレードし,よりバランスの取れたビデオ長分布とユーザスタイルのクエリを実現する。
Vidi2モデルは、VUE-TR-V2とVUE-STGの両方で、Gemini 3 Pro (Preview) や GPT-5のような主要なプロプライエタリシステムよりも大幅に優れており、ビデオQAベンチマークで同様のスケールの人気のあるオープンソースモデルと競合する結果を得た。
関連論文リスト
- Open-o3 Video: Grounded Video Reasoning with Explicit Spatio-Temporal Evidence [70.2803680525165]
我々は、明示的な証拠をビデオ推論に統合する非エージェントフレームワークであるOpen-o3 Videoを紹介した。
このモデルは、キーオブジェクトとバウンディングボックスをその答えとともに強調し、推論を具体的な視覚的な観察で基礎付けることができる。
V-STARベンチマークでは、Open-o3 Videoは最先端のパフォーマンスを達成し、mAMを14.4%、mLタイムスタンプを24.2%向上させた。
論文 参考訳(メタデータ) (2025-10-23T14:05:56Z) - Universal Video Temporal Grounding with Generative Multi-modal Large Language Models [59.781211641591405]
本稿では,自然言語クエリに基づいて映像中の時間的モーメントを正確に局所化する,ユニバーサルビデオ時間的グラウンドの計算モデルを提案する。
生成型マルチモーダル大言語モデル(MLLM)の強力な視覚言語理解機能を活用した,堅牢で普遍的なビデオグラウンドモデルUniTimeを提案する。
我々のモデルは、複雑な言語クエリを解釈しながら、多様なビュー、ジャンル、長さの動画を効果的に処理する。
論文 参考訳(メタデータ) (2025-06-23T17:53:18Z) - TextVidBench: A Benchmark for Long Video Scene Text Understanding [60.94150574231576]
TextVidBenchは、長ビデオテキスト質問応答用に設計された最初のベンチマークである(>3分)。
TextVidBenchは3つの重要な貢献をしている: 9つのカテゴリ(ニュース、スポーツ、ゲームなど)を平均2306秒で拡大し、より現実的な長ビデオ理解を可能にする。
i)IT-ロープ機構と時間的プロンプトエンジニアリングを導入し、時間的知覚を高めること、(ii)非一様位置符号化を採用して長いビデオシーケンスをよりよく扱うこと、(iii)軽量な微調整を施すことにより、大規模モデルを改善するための効率的なパラダイムを提案する。
論文 参考訳(メタデータ) (2025-06-05T12:54:56Z) - SAMA: Towards Multi-Turn Referential Grounded Video Chat with Large Language Models [93.73583158211115]
ビデオにおけるきめ細かい時間的理解の獲得は、現在のビデオ大マルチモデル(ビデオLMM)にとって大きな課題である。
私たちは、データセット、モデル、ベンチマークの3つの中核的な側面に貢献しています。
まず,ビデオ理解,グラウンドニング,マルチターンビデオチャットの共用学習を実現するため、15Kビデオからなる大規模データセットであるSAMA-239Kを紹介する。
第2に,広義の時間的コンテキストアグリゲータとセグメンションモデルを組み合わせたSAMAモデルを提案する。
論文 参考訳(メタデータ) (2025-05-24T18:13:16Z) - Vidi: Large Multimodal Models for Video Understanding and Editing [38.391725386019324]
本稿では,LMM(Large Multimodal Models)のファミリであるVidiを紹介する。
最初のリリースでは、与えられたテキストクエリに対応する入力ビデオ内の時間範囲を特定する、時間的検索に焦点を当てている。
VUE-TRベンチマークも提案する。
論文 参考訳(メタデータ) (2025-04-22T08:04:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。