論文の概要: VideoLoom: A Video Large Language Model for Joint Spatial-Temporal Understanding
- arxiv url: http://arxiv.org/abs/2601.07290v1
- Date: Mon, 12 Jan 2026 07:51:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.272008
- Title: VideoLoom: A Video Large Language Model for Joint Spatial-Temporal Understanding
- Title(参考訳): VideoLoom: 共同空間時間理解のためのビデオ大言語モデル
- Authors: Jiapeng Shi, Junke Wang, Zuyao You, Bo He, Zuxuan Wu,
- Abstract要約: VideoLoomはビデオ大言語モデル (Video Large Language Model, ビデオ大言語モデル) である。
時間的接地と空間的局所的なキャプションを備えた人間中心のビデオデータセットであるLoomData-8.7kを紹介する。
また、時間的、空間的、構成的なビデオ検索ペアからなる新しいベンチマークであるLoomBenchを紹介する。
- 参考スコア(独自算出の注目度): 46.97966072048103
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents VideoLoom, a unified Video Large Language Model (Video LLM) for joint spatial-temporal understanding. To facilitate the development of fine-grained spatial and temporal localization capabilities, we curate LoomData-8.7k, a human-centric video dataset with temporally grounded and spatially localized captions. With this, VideoLoom achieves state-of-the-art or highly competitive performance across a variety of spatial and temporal benchmarks (e.g., 63.1 J&F on ReVOS for referring video object segmentation, and 48.3 R1@0.7 on Charades-STA for temporal grounding). In addition, we introduce LoomBench, a novel benchmark consisting of temporal, spatial, and compositional video-question pairs, enabling a comprehensive evaluation of Video LLMs from diverse aspects. Collectively, these contributions offer a universal and effective suite for joint spatial-temporal video understanding, setting a new standard in multimodal intelligence.
- Abstract(参考訳): 本稿では,共同空間的時間的理解のための統合ビデオ大言語モデル(ビデオLLM)であるVideoLoomを提案する。
微粒な空間的局所化機能と時間的局所化機能の開発を容易にするため,時間的背景と空間的局所化キャプションを備えた人間中心のビデオデータセットであるLoomData-8.7kをキュレートする。
これにより、VideoLoomは、様々な空間的および時間的ベンチマーク(ビデオオブジェクトのセグメンテーションを参照するReVOSの63.1 J&F、時間的グラウンドのためのCharades-STAの48.3 R1@0.7など)で最先端または高い競争性能を達成する。
さらに,時間的,空間的,構成的なビデオ探索ペアからなる新しいベンチマークであるLoomBenchを導入し,多様な側面からビデオLLMの総合的な評価を可能にする。
これらのコントリビューションは、共同空間的時間的ビデオ理解のための普遍的で効果的なスイートを提供し、マルチモーダルインテリジェンスにおける新しい標準を設定している。
関連論文リスト
- Strefer: Empowering Video LLMs with Space-Time Referring and Reasoning via Synthetic Instruction Data [100.5266292850922]
Streferはビデオ大モデルに参照と推論機能を持たせるために設計された合成データ生成フレームワークである。
Streferは、時間的に密度が高くきめ細かなビデオメタデータを擬似アノテーションするデータエンジンを使用して、多様な命令生成データを生成する。
我々のアプローチは、ビデオLLMが空間的および時間的参照を解釈する能力を高め、現実のAIコンパニオンに不可欠な、より汎用的で時空間対応の推論を育む。
論文 参考訳(メタデータ) (2025-09-03T17:33:20Z) - Universal Video Temporal Grounding with Generative Multi-modal Large Language Models [59.781211641591405]
本稿では,自然言語クエリに基づいて映像中の時間的モーメントを正確に局所化する,ユニバーサルビデオ時間的グラウンドの計算モデルを提案する。
生成型マルチモーダル大言語モデル(MLLM)の強力な視覚言語理解機能を活用した,堅牢で普遍的なビデオグラウンドモデルUniTimeを提案する。
我々のモデルは、複雑な言語クエリを解釈しながら、多様なビュー、ジャンル、長さの動画を効果的に処理する。
論文 参考訳(メタデータ) (2025-06-23T17:53:18Z) - SpaceVLLM: Endowing Multimodal Large Language Model with Spatio-Temporal Video Grounding Capability [58.46310813774538]
大規模言語モデル (LMLM) は時間的あるいは空間的局所化において顕著な進歩を遂げた。
しかし、彼らは時間的なビデオグラウンドの実行に苦慮している。
この制限は2つの大きな課題に起因している。
時間的ビデオグラウンドティングを具備したMLLMVLであるSpaceLMを紹介する。
論文 参考訳(メタデータ) (2025-03-18T07:40:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。