Fugu-MT 論文翻訳(概要): HawkEye: Training Video-Text LLMs for Grounding Text in Videos

論文の概要: HawkEye: Training Video-Text LLMs for Grounding Text in Videos

arxiv url: http://arxiv.org/abs/2403.10228v1
Date: Fri, 15 Mar 2024 11:58:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-18 17:20:54.851629
Title: HawkEye: Training Video-Text LLMs for Grounding Text in Videos
Title（参考訳）: HawkEye:ビデオのテキストをグラウンディングするためのビデオテキストLLMのトレーニング
Authors: Yueqian Wang, Xiaojun Meng, Jianxin Liang, Yuxuan Wang, Qun Liu, Dongyan Zhao,
Abstract要約: 我々は,HawkEyeを提案する。HawkEyeは,時間的ビデオグラウンドディングをテキストからテキストまで完全に行う最初のビデオテキストLLMの1つである。時間的ビデオグラウンドイングに適用可能なトレーニングデータを収集するために,セグメントレベルのキャプションと負のスパンを持つ大規模ビデオテキストコーパスであるInternVid-Gを構築した。また,ビデオ中のセグメントを粗い粒度で表現する手法を提案する。
参考スコア（独自算出の注目度）: 44.870165050047355
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Video-text Large Language Models (video-text LLMs) have shown remarkable performance in answering questions and holding conversations on simple videos. However, they perform almost the same as random on grounding text queries in long and complicated videos, having little ability to understand and reason about temporal information, which is the most fundamental difference between videos and images. In this paper, we propose HawkEye, one of the first video-text LLMs that can perform temporal video grounding in a fully text-to-text manner. To collect training data that is applicable for temporal video grounding, we construct InternVid-G, a large-scale video-text corpus with segment-level captions and negative spans, with which we introduce two new time-aware training objectives to video-text LLMs. We also propose a coarse-grained method of representing segments in videos, which is more robust and easier for LLMs to learn and follow than other alternatives. Extensive experiments show that HawkEye is better at temporal video grounding and comparable on other video-text tasks with existing video-text LLMs, which verifies its superior video-text multi-modal understanding abilities.
Abstract（参考訳）: ビデオテキスト大言語モデル(ビデオテキストLLM)は、質問に答え、単純なビデオで会話を行う際に顕著なパフォーマンスを示した。しかし、ビデオと画像の最も根本的な違いである時間的情報を理解し、推論する能力がほとんどない、長く複雑なビデオにおけるテキストクエリのグラウンド化において、ランダムに実行するのとほとんど同じである。本稿では,HawkEyeを提案する。HawkEyeは,時間的ビデオグラウンドディングをテキストからテキストまで完全に行う最初のビデオテキストLLMの1つである。時間的ビデオグラウンドティングに適用可能なトレーニングデータを収集するために,セグメントレベルのキャプションと負のスパンを持つ大規模ビデオテキストコーパスであるInternVid-Gを構築し,ビデオテキストLLMに2つの新たなタイムアウェアトレーニング目標を導入する。また,ビデオ中のセグメントを粗い粒度で表現する手法を提案する。大規模な実験により、HawkEyeは時間的ビデオグラウンドニングに優れており、既存のビデオテキストLLMによる他のビデオテキストタスクに匹敵する性能を示し、その優れたビデオテキストマルチモーダル理解能力を検証している。

関連論文リスト

SiLVR: A Simple Language-based Video Reasoning Framework [71.77141065418238]
簡単な言語ベースのビデオ推論フレームワークであるSiLVRについて紹介する。第一段階では、SiLVRは生動画を多感覚入力を用いて言語ベースの表現に変換する。第2段階では、複雑なビデオ言語理解タスクを解決するために、言語記述を強力な理由付けLLMに入力する。
論文参考訳（メタデータ） (2025-05-30T17:59:19Z)
VideoRAG: Retrieval-Augmented Generation over Video Corpus [57.68536380621672]
VideoRAGは、クエリによる関連性に基づいて、動的にビデオを取得するフレームワークである。 VideoRAGは近年のLVLM(Large Video Language Models)を利用している。我々は,ビデオRAGの有効性を実験的に検証し,関連するベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2025-01-10T11:17:15Z)
2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining [86.76706820098867]
本稿では,VLM事前学習のための基礎知識を充実させた高品質な教科書コーパスについて紹介する。 2.5年以上の授業ビデオを集め、クラス時間は22,000時間である。ビデオ中心の教科書は、それと比較すると、より一貫性のあるコンテキスト、より豊かな知識、より優れた画像テキストアライメントを提供する。
論文参考訳（メタデータ） (2025-01-01T21:29:37Z)
Grounded-VideoLLM: Sharpening Fine-grained Temporal Grounding in Video Large Language Models [53.235170710385006]
我々は,特定の映像モーメントをきめ細かな方法で知覚・推論できる新しいビデオLLMであるGrounded-VideoLLMを紹介した。我々は,(1)フレーム間の関係を符号化する追加の時間的ストリームと(2)特定の時間的知識に富んだ離散的な時間的トークンを組み込むことで,モデルを洗練する。実験では, 時間文の接地, ビデオキャプションの密接化, ビデオQAの接地といった, きめ細かい接地作業に優れていた。
論文参考訳（メタデータ） (2024-10-04T10:04:37Z)
TOPA: Extending Large Language Models for Video Understanding via Text-Only Pre-Alignment [42.557643515992005]
ビデオの理解は、相当量のWebビデオテキストデータが利用できるにもかかわらず、依然として課題である。ビデオ理解のための大規模言語モデル(LLM)を拡張する新しいアプローチであるテキストオンリー・プレアライメント(TOPA)を導入する。
論文参考訳（メタデータ） (2024-05-22T18:35:10Z)
TempCompass: Do Video LLMs Really Understand Videos? [36.28973015469766]
既存のベンチマークでは、ビデオLLMの時間知覚能力に関する包括的なフィードバックが得られていない。質の高い時間的側面とタスク形式を多様に導入した textbfTemp ベンチマークを提案する。
論文参考訳（メタデータ） (2024-03-01T12:02:19Z)
Long Video Understanding with Learnable Retrieval in Video-Language Models [36.793956806567834]
本稿では,学習可能な検索ベースビデオ言語モデル(R-VLM)を提案する。具体的には、質問(クエリ)と長いビデオから、我々のモデルは最も関連性の高いKビデオチャンクを特定し、選択する。これにより、ビデオトークンの数を効果的に減らし、ノイズ干渉をなくし、システム性能を高めることができる。
論文参考訳（メタデータ） (2023-12-08T09:48:36Z)
VTimeLLM: Empower LLM to Grasp Video Moments [43.51980030572101]
大規模言語モデル(LLM)は、顕著なテキスト理解能力を示している。ビデオLLMはビデオ全体の粗い記述しか提供できない。微細な映像モーメント理解のためのビデオLLMであるVTimeLLMを提案する。
論文参考訳（メタデータ） (2023-11-30T10:49:56Z)
VidCoM: Fast Video Comprehension through Large Language Models with Multimodal Tools [44.78291853329394]
textbfVidCoMは、Large Language Models (LLM)を活用して、軽量なビジュアルツールを使用して動画を推論する高速適応フレームワークである。 InsOVERアルゴリズムは、言語命令の分解とビデオイベントの間の効率的なハンガリー語マッチングに基づいて、対応するビデオイベントを特定する。
論文参考訳（メタデータ） (2023-10-16T17:05:56Z)
HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [72.69268311756082]
本稿では,大言語モデル(LLM)の能力を活用して,大規模ビデオに対応する高品質な映像記述を実現することを提案する。本稿では,より長い字幕テキストを考慮に入れたプロンプト手法を提案する。我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
論文参考訳（メタデータ） (2023-10-07T19:32:55Z)
InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。 InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文参考訳（メタデータ） (2023-07-13T17:58:32Z)
ICSVR: Investigating Compositional and Syntactic Understanding in Video Retrieval Models [6.073813559982129]
ビデオ検索は、テキストキャプションまたはリバーサが与えられたビデオデータベースから、地上の真実のビデオを取得することを含む。我々は,MSRVTT,MSVD,DIDEMOなどの標準ベンチマークを用いて,ビデオ検索モデルの合成と構文的理解を評価する。ビデオ理解におけるオブジェクトや属性と比較して,アクションや構文が軽微な役割を担っていることが明らかとなった。
論文参考訳（メタデータ） (2023-06-28T20:06:36Z)
VideoLLM: Modeling Video Sequence with Large Language Models [70.32832021713864]
既存のビデオ理解モデルは、しばしばタスク固有であり、多様なタスクを扱う包括的な能力に欠ける。我々は,事前学習したLLMのシーケンス推論機能を活用する,VideoLLMという新しいフレームワークを提案する。 VideoLLMは慎重に設計されたModality and Semantic Translatorを組み込んでおり、様々なモードからの入力を統一されたトークンシーケンスに変換する。
論文参考訳（メタデータ） (2023-05-22T17:51:22Z)
Learning Transferable Spatiotemporal Representations from Natural Script Knowledge [65.40899722211726]
本稿では,ASR(TVTS)のためのビデオトランスクリプト(Turning to Video Transcript for ASR)を提案する。この利点により、我々のモデルは人間のように起きていることを文脈化し、現実世界の大規模未計算ビデオデータにシームレスに適用することができる。
論文参考訳（メタデータ） (2022-09-30T07:39:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。