論文の概要: Number it: Temporal Grounding Videos like Flipping Manga
- arxiv url: http://arxiv.org/abs/2411.10332v2
- Date: Thu, 28 Nov 2024 02:57:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:16:13.458023
- Title: Number it: Temporal Grounding Videos like Flipping Manga
- Title(参考訳): 数字:マンガを滑らせるような時間的グラウンドビデオ
- Authors: Yongliang Wu, Xinting Hu, Yuyang Sun, Yizhou Zhou, Wenbo Zhu, Fengyun Rao, Bernt Schiele, Xu Yang,
- Abstract要約: Number-Prompt (NumPro) は、Vid-LLMに時間的接地による視覚的理解をブリッジする手法である。
NumProは動画をフレーム画像のシーケンスとして扱い、VTGを直感的なプロセスに変換します。
実験により、NumProは計算コストを伴わずに最上位のVid-LLMのVTG性能を大幅に向上することが示された。
- 参考スコア(独自算出の注目度): 45.50403831692172
- License:
- Abstract: Video Large Language Models (Vid-LLMs) have made remarkable advancements in comprehending video content for QA dialogue. However, they struggle to extend this visual understanding to tasks requiring precise temporal localization, known as Video Temporal Grounding (VTG). To address this gap, we introduce Number-Prompt (NumPro), a novel method that empowers Vid-LLMs to bridge visual comprehension with temporal grounding by adding unique numerical identifiers to each video frame. Treating a video as a sequence of numbered frame images, NumPro transforms VTG into an intuitive process: flipping through manga panels in sequence. This allows Vid-LLMs to "read" event timelines, accurately linking visual content with corresponding temporal information. Our experiments demonstrate that NumPro significantly boosts VTG performance of top-tier Vid-LLMs without additional computational cost. Furthermore, fine-tuning on a NumPro-enhanced dataset defines a new state-of-the-art for VTG, surpassing previous top-performing methods by up to 6.9\% in mIoU for moment retrieval and 8.5\% in mAP for highlight detection. The code will be available at https://github.com/yongliang-wu/NumPro.
- Abstract(参考訳): ビデオ大言語モデル(Vid-LLMs)は,QA対話のためのビデオコンテンツの理解において顕著な進歩を遂げている。
しかし、彼らはこの視覚的理解を、VTG(Video Temporal Grounding)として知られる正確な時間的局所化を必要とするタスクにまで拡張するのに苦労している。
このギャップに対処するために、Vid-LLMsに時間的グラウンドで視覚的理解をブリッジする新しい方法であるNumber-Prompt(NumPro)を導入し、各ビデオフレームにユニークな数値識別子を追加する。
NumProは動画をフレーム画像のシーケンスとして扱い、VTGを直感的なプロセスに変換します。
これにより、Vid-LLMsはイベントタイムラインを「読む」ことができ、視覚コンテンツを対応する時間情報と正確にリンクすることができる。
実験により,NumProは計算コストを増大させることなく,最上位のVid-LLMのVTG性能を大幅に向上させることを示した。
さらに、NumProで強化されたデータセットの微調整では、VTGの新たな最先端技術が定義されており、モーメント検索のmIoUが6.9倍、ハイライト検出のmAPが8.5倍となっている。
コードはhttps://github.com/yongliang-wu/NumProで入手できる。
関連論文リスト
- PPLLaVA: Varied Video Sequence Understanding With Prompt Guidance [44.08446730529495]
トークン圧縮と命令対応の視覚的特徴集約を同時に実現する新しいプーリング戦略を提案する。
我々のモデルはPPLLaVA(Prompt-guided Pooling LLaVA)と呼ばれる。
論文 参考訳(メタデータ) (2024-11-04T17:50:36Z) - VTG-LLM: Integrating Timestamp Knowledge into Video LLMs for Enhanced Video Temporal Grounding [7.907951246007355]
ビデオ時間グラウンド(VTG)は、言語クエリに基づいて、特定のビデオ内のイベントタイムスタンプを正確に識別することに焦点を当てている。
ビデオ大言語モデル(ビデオLLM)は、ビデオコンテンツを理解する上で大きな進歩を遂げてきたが、ビデオ内のタイムスタンプを正確に特定する上で、しばしば課題に直面している。
本稿では,VTGタスクのための特殊なビデオLLMモデルであるVTG-LLMを提案し,タイムスタンプの知識を視覚トークンに効果的に統合する。
論文 参考訳(メタデータ) (2024-05-22T06:31:42Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - Spatio-temporal Prompting Network for Robust Video Feature Extraction [74.54597668310707]
フレームテンポラリ(Frametemporal)は、ビデオ理解の分野における大きな課題の1つだ。
最近のアプローチでは、トランスフォーマーベースの統合モジュールを活用して、時間的品質情報を得る。
N-Temporal Prompting Network (NNSTP) という,クリーンで統一されたフレームワークを提案する。
ネットワークバックボーン内の入力特徴を調整することで,映像特徴の抽出を効率的に行うことができる。
論文 参考訳(メタデータ) (2024-02-04T17:52:04Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - ControlVideo: Conditional Control for One-shot Text-driven Video Editing
and Beyond [45.188722895165505]
ControlVideoは、ソースビデオの構造を保持しながら、所定のテキストと整列するビデオを生成する。
トレーニング済みのテキスト・ツー・イメージ拡散モデルに基づいて構築されたコントロールビデオは、忠実度と時間的一貫性を高める。
論文 参考訳(メタデータ) (2023-05-26T17:13:55Z) - VicTR: Video-conditioned Text Representations for Activity Recognition [73.09929391614266]
より優れたビデオVLMは、視覚情報よりもテキストの強化に重点を置くことで設計できる、と我々は主張する。
本稿では,ビデオ条件付きテキスト表現(VicTR)を紹介する。
我々のモデルは、視覚的に接地された補助テキストという形で、自由に利用できるセマンティック情報を利用することができる。
論文 参考訳(メタデータ) (2023-04-05T16:30:36Z) - VIOLET : End-to-End Video-Language Transformers with Masked Visual-token
Modeling [88.30109041658618]
ビデオ言語(VidL)モデリングにおける大きな課題は、画像/映像理解モデルから抽出された固定されたビデオ表現と、下流のVidLデータとの切り離しにある。
我々は、ビデオ入力の時間的ダイナミクスを明示的にモデル化するビデオトランスを採用した、完全なエンドツーエンドVIdeO-LanguagE変換器であるVIOLETを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:31:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。