論文の概要: HawkEye: Training Video-Text LLMs for Grounding Text in Videos
- arxiv url: http://arxiv.org/abs/2403.10228v1
- Date: Fri, 15 Mar 2024 11:58:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 17:20:54.851629
- Title: HawkEye: Training Video-Text LLMs for Grounding Text in Videos
- Title(参考訳): HawkEye:ビデオのテキストをグラウンディングするためのビデオテキストLLMのトレーニング
- Authors: Yueqian Wang, Xiaojun Meng, Jianxin Liang, Yuxuan Wang, Qun Liu, Dongyan Zhao,
- Abstract要約: 我々は,HawkEyeを提案する。HawkEyeは,時間的ビデオグラウンドディングをテキストからテキストまで完全に行う最初のビデオテキストLLMの1つである。
時間的ビデオグラウンドイングに適用可能なトレーニングデータを収集するために,セグメントレベルのキャプションと負のスパンを持つ大規模ビデオテキストコーパスであるInternVid-Gを構築した。
また,ビデオ中のセグメントを粗い粒度で表現する手法を提案する。
- 参考スコア(独自算出の注目度): 44.870165050047355
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Video-text Large Language Models (video-text LLMs) have shown remarkable performance in answering questions and holding conversations on simple videos. However, they perform almost the same as random on grounding text queries in long and complicated videos, having little ability to understand and reason about temporal information, which is the most fundamental difference between videos and images. In this paper, we propose HawkEye, one of the first video-text LLMs that can perform temporal video grounding in a fully text-to-text manner. To collect training data that is applicable for temporal video grounding, we construct InternVid-G, a large-scale video-text corpus with segment-level captions and negative spans, with which we introduce two new time-aware training objectives to video-text LLMs. We also propose a coarse-grained method of representing segments in videos, which is more robust and easier for LLMs to learn and follow than other alternatives. Extensive experiments show that HawkEye is better at temporal video grounding and comparable on other video-text tasks with existing video-text LLMs, which verifies its superior video-text multi-modal understanding abilities.
- Abstract(参考訳): ビデオテキスト大言語モデル(ビデオテキストLLM)は、質問に答え、単純なビデオで会話を行う際に顕著なパフォーマンスを示した。
しかし、ビデオと画像の最も根本的な違いである時間的情報を理解し、推論する能力がほとんどない、長く複雑なビデオにおけるテキストクエリのグラウンド化において、ランダムに実行するのとほとんど同じである。
本稿では,HawkEyeを提案する。HawkEyeは,時間的ビデオグラウンドディングをテキストからテキストまで完全に行う最初のビデオテキストLLMの1つである。
時間的ビデオグラウンドティングに適用可能なトレーニングデータを収集するために,セグメントレベルのキャプションと負のスパンを持つ大規模ビデオテキストコーパスであるInternVid-Gを構築し,ビデオテキストLLMに2つの新たなタイムアウェアトレーニング目標を導入する。
また,ビデオ中のセグメントを粗い粒度で表現する手法を提案する。
大規模な実験により、HawkEyeは時間的ビデオグラウンドニングに優れており、既存のビデオテキストLLMによる他のビデオテキストタスクに匹敵する性能を示し、その優れたビデオテキストマルチモーダル理解能力を検証している。
関連論文リスト
- 2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining [86.76706820098867]
本稿では,VLM事前学習のための基礎知識を充実させた高品質な教科書コーパスについて紹介する。
2.5年以上の授業ビデオを集め、クラス時間は22,000時間である。
ビデオ中心の教科書は、それと比較すると、より一貫性のあるコンテキスト、より豊かな知識、より優れた画像テキストアライメントを提供する。
論文 参考訳(メタデータ) (2025-01-01T21:29:37Z) - SCBench: A Sports Commentary Benchmark for Video LLMs [19.13963551534595]
我々は,ビデオ大言語モデル(ビデオLLM)のためのスポーツビデオ解説生成のためのベンチマークを開発する。
$textbfSCBench$はタスク用に特別に設計された6次元計量であり、GPTに基づく評価手法を提案する。
結果,InternVL-Chat-2は5.44で最高の性能を示し,1.04で2位となった。
論文 参考訳(メタデータ) (2024-12-23T15:13:56Z) - TOPA: Extending Large Language Models for Video Understanding via Text-Only Pre-Alignment [42.557643515992005]
ビデオの理解は、相当量のWebビデオテキストデータが利用できるにもかかわらず、依然として課題である。
ビデオ理解のための大規模言語モデル(LLM)を拡張する新しいアプローチであるテキストオンリー・プレアライメント(TOPA)を導入する。
論文 参考訳(メタデータ) (2024-05-22T18:35:10Z) - VTimeLLM: Empower LLM to Grasp Video Moments [43.51980030572101]
大規模言語モデル(LLM)は、顕著なテキスト理解能力を示している。
ビデオLLMはビデオ全体の粗い記述しか提供できない。
微細な映像モーメント理解のためのビデオLLMであるVTimeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-30T10:49:56Z) - VidCoM: Fast Video Comprehension through Large Language Models with Multimodal Tools [44.78291853329394]
textbfVidCoMは、Large Language Models (LLM)を活用して、軽量なビジュアルツールを使用して動画を推論する高速適応フレームワークである。
InsOVERアルゴリズムは、言語命令の分解とビデオイベントの間の効率的なハンガリー語マッチングに基づいて、対応するビデオイベントを特定する。
論文 参考訳(メタデータ) (2023-10-16T17:05:56Z) - HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [72.69268311756082]
本稿では,大言語モデル(LLM)の能力を活用して,大規模ビデオに対応する高品質な映像記述を実現することを提案する。
本稿では,より長い字幕テキストを考慮に入れたプロンプト手法を提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z) - InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding
and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。
InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文 参考訳(メタデータ) (2023-07-13T17:58:32Z) - VideoLLM: Modeling Video Sequence with Large Language Models [70.32832021713864]
既存のビデオ理解モデルは、しばしばタスク固有であり、多様なタスクを扱う包括的な能力に欠ける。
我々は,事前学習したLLMのシーケンス推論機能を活用する,VideoLLMという新しいフレームワークを提案する。
VideoLLMは慎重に設計されたModality and Semantic Translatorを組み込んでおり、様々なモードからの入力を統一されたトークンシーケンスに変換する。
論文 参考訳(メタデータ) (2023-05-22T17:51:22Z) - Learning Transferable Spatiotemporal Representations from Natural Script
Knowledge [65.40899722211726]
本稿では,ASR(TVTS)のためのビデオトランスクリプト(Turning to Video Transcript for ASR)を提案する。
この利点により、我々のモデルは人間のように起きていることを文脈化し、現実世界の大規模未計算ビデオデータにシームレスに適用することができる。
論文 参考訳(メタデータ) (2022-09-30T07:39:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。