論文の概要: VideoLLM: Modeling Video Sequence with Large Language Models
- arxiv url: http://arxiv.org/abs/2305.13292v2
- Date: Tue, 23 May 2023 07:48:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 10:53:03.002501
- Title: VideoLLM: Modeling Video Sequence with Large Language Models
- Title(参考訳): videollm: 大きな言語モデルによるビデオシーケンスのモデリング
- Authors: Guo Chen, Yin-Dong Zheng, Jiahao Wang, Jilan Xu, Yifei Huang, Junting
Pan, Yi Wang, Yali Wang, Yu Qiao, Tong Lu, Limin Wang
- Abstract要約: 既存のビデオ理解モデルは、しばしばタスク固有であり、多様なタスクを扱う包括的な能力に欠ける。
我々は,事前学習したLLMのシーケンス推論機能を活用する,VideoLLMという新しいフレームワークを提案する。
VideoLLMは慎重に設計されたModality and Semantic Translatorを組み込んでおり、様々なモードからの入力を統一されたトークンシーケンスに変換する。
- 参考スコア(独自算出の注目度): 70.32832021713864
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With the exponential growth of video data, there is an urgent need for
automated technology to analyze and comprehend video content. However, existing
video understanding models are often task-specific and lack a comprehensive
capability of handling diverse tasks. The success of large language models
(LLMs) like GPT has demonstrated their impressive abilities in sequence causal
reasoning. Building upon this insight, we propose a novel framework called
VideoLLM that leverages the sequence reasoning capabilities of pre-trained LLMs
from natural language processing (NLP) for video sequence understanding.
VideoLLM incorporates a carefully designed Modality Encoder and Semantic
Translator, which convert inputs from various modalities into a unified token
sequence. This token sequence is then fed into a decoder-only LLM.
Subsequently, with the aid of a simple task head, our VideoLLM yields an
effective unified framework for different kinds of video understanding tasks.
To evaluate the efficacy of VideoLLM, we conduct extensive experiments using
multiple LLMs and fine-tuning methods. We evaluate our VideoLLM on eight tasks
sourced from four different datasets. The experimental results demonstrate that
the understanding and reasoning capabilities of LLMs can be effectively
transferred to video understanding tasks. We release the code at
https://github.com/cg1177/VideoLLM.
- Abstract(参考訳): ビデオデータの指数的増加に伴い、ビデオコンテンツを分析・理解する自動化技術が緊急に必要となる。
しかし、既存のビデオ理解モデルは、しばしばタスク固有のものであり、多様なタスクを扱う包括的な能力に欠ける。
GPTのような大規模言語モデル(LLM)の成功は、シーケンス因果推論におけるその印象的な能力を示している。
この知見に基づいて,ビデオシーケンス理解のための自然言語処理(NLP)から学習済みLLMのシーケンス推論機能を活用する,VideoLLMという新しいフレームワークを提案する。
VideoLLMは慎重に設計されたModality EncoderとSemantic Translatorを組み込んでおり、様々なモードからの入力を統一トークンシーケンスに変換する。
このトークンシーケンスはデコーダのみのLLMに入力される。
その後、簡単なタスクヘッドの助けを借りて、ビデオLLMは様々な種類のビデオ理解タスクに対して効果的な統合フレームワークを提供する。
ビデオLLMの有効性を評価するため,複数のLCMと微調整法を用いて広範囲な実験を行った。
我々は,4つの異なるデータセットから得られた8つのタスクに対して,ビデオLLMを評価する。
実験結果から,LLMの理解と推論能力は,映像理解タスクに効果的に移行できることが示唆された。
コードはhttps://github.com/cg1177/videollmでリリースします。
関連論文リスト
- ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。
ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。
LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T10:11:26Z) - VURF: A General-purpose Reasoning and Self-refinement Framework for Video Understanding [65.12464615430036]
本稿では,Large Language Models (LLM) の推論能力に基づくビデオ理解・推論フレームワーク (VURF) を提案する。
ビデオタスクの文脈でLLMの実用性を拡張するための新しいアプローチである。
我々は,その文脈学習能力を利用して,映像理解のための実行可能な視覚プログラムを生成する。
論文 参考訳(メタデータ) (2024-03-21T18:00:00Z) - Video Understanding with Large Language Models: A Survey [97.29126722004949]
言語・マルチモーダルタスクにおける大規模言語モデル(LLM)の顕著な機能を考えると,近年の映像理解の進歩について概観する。
Vid-LLMの創発的能力は驚くほど進歩しており、特にオープンな多粒性推論能力がある。
本調査は,Vid-LLMのタスク,データセット,ベンチマーク,評価方法論に関する総合的研究である。
論文 参考訳(メタデータ) (2023-12-29T01:56:17Z) - Retrieval-based Video Language Model for Efficient Long Video Question
Answering [39.474247695753725]
本稿では,検索型ビデオ言語モデル(R-VLM)を提案する。
具体的には、質問(クエリ)と長いビデオから、我々のモデルは最も関連性の高い$K$のビデオチャンクを特定し、選択する。
実験の結果,長編動画の編集におけるフレームワークの有効性が検証された。
論文 参考訳(メタデータ) (2023-12-08T09:48:36Z) - MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [63.14000659130736]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。
まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。
そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文 参考訳(メタデータ) (2023-11-28T17:59:04Z) - Frozen Transformers in Language Models Are Effective Visual Encoder Layers [26.759544759745648]
大きな言語モデル(LLM)は、言語がないときに純粋に視覚的なタスクに対して驚くほど強力なエンコーダである。
我々の研究は、コンピュータビジョンタスクにLLMを活用することの限界を推し進めている。
視覚符号化における事前学習LLMの有効性を説明するために,情報フィルタリング仮説を提案する。
論文 参考訳(メタデータ) (2023-10-19T17:59:05Z) - Valley: Video Assistant with Large Language model Enhanced abilitY [41.79449203718827]
大規模言語モデル強化型ビデオアシスタントであるValleyを紹介した。
映像理解と指示追従能力でバレーを強化するため,映像指導データセットを構築した。
タスク指向会話データの構築を容易にするためにChatGPTを用いる。
論文 参考訳(メタデータ) (2023-06-12T16:11:10Z) - LAVENDER: Unifying Video-Language Understanding as Masked Language
Modeling [102.42424022921243]
Masked Language Modeling (MLM) は、すべての事前学習および下流タスクの共通インターフェースとして使用される。
実験により、この統合フレームワークは14のVidLベンチマークで競合性能を達成することが示された。
論文 参考訳(メタデータ) (2022-06-14T20:43:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。