Fugu-MT 論文翻訳(概要): VideoLLM: Modeling Video Sequence with Large Language Models

論文の概要: VideoLLM: Modeling Video Sequence with Large Language Models

arxiv url: http://arxiv.org/abs/2305.13292v2
Date: Tue, 23 May 2023 07:48:15 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-24 10:53:03.002501
Title: VideoLLM: Modeling Video Sequence with Large Language Models
Title（参考訳）: videollm: 大きな言語モデルによるビデオシーケンスのモデリング
Authors: Guo Chen, Yin-Dong Zheng, Jiahao Wang, Jilan Xu, Yifei Huang, Junting Pan, Yi Wang, Yali Wang, Yu Qiao, Tong Lu, Limin Wang
Abstract要約: 既存のビデオ理解モデルは、しばしばタスク固有であり、多様なタスクを扱う包括的な能力に欠ける。我々は,事前学習したLLMのシーケンス推論機能を活用する,VideoLLMという新しいフレームワークを提案する。 VideoLLMは慎重に設計されたModality and Semantic Translatorを組み込んでおり、様々なモードからの入力を統一されたトークンシーケンスに変換する。
参考スコア（独自算出の注目度）: 70.32832021713864
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: With the exponential growth of video data, there is an urgent need for automated technology to analyze and comprehend video content. However, existing video understanding models are often task-specific and lack a comprehensive capability of handling diverse tasks. The success of large language models (LLMs) like GPT has demonstrated their impressive abilities in sequence causal reasoning. Building upon this insight, we propose a novel framework called VideoLLM that leverages the sequence reasoning capabilities of pre-trained LLMs from natural language processing (NLP) for video sequence understanding. VideoLLM incorporates a carefully designed Modality Encoder and Semantic Translator, which convert inputs from various modalities into a unified token sequence. This token sequence is then fed into a decoder-only LLM. Subsequently, with the aid of a simple task head, our VideoLLM yields an effective unified framework for different kinds of video understanding tasks. To evaluate the efficacy of VideoLLM, we conduct extensive experiments using multiple LLMs and fine-tuning methods. We evaluate our VideoLLM on eight tasks sourced from four different datasets. The experimental results demonstrate that the understanding and reasoning capabilities of LLMs can be effectively transferred to video understanding tasks. We release the code at https://github.com/cg1177/VideoLLM.
Abstract（参考訳）: ビデオデータの指数的増加に伴い、ビデオコンテンツを分析・理解する自動化技術が緊急に必要となる。しかし、既存のビデオ理解モデルは、しばしばタスク固有のものであり、多様なタスクを扱う包括的な能力に欠ける。 GPTのような大規模言語モデル(LLM)の成功は、シーケンス因果推論におけるその印象的な能力を示している。この知見に基づいて,ビデオシーケンス理解のための自然言語処理(NLP)から学習済みLLMのシーケンス推論機能を活用する,VideoLLMという新しいフレームワークを提案する。 VideoLLMは慎重に設計されたModality EncoderとSemantic Translatorを組み込んでおり、様々なモードからの入力を統一トークンシーケンスに変換する。このトークンシーケンスはデコーダのみのLLMに入力される。その後、簡単なタスクヘッドの助けを借りて、ビデオLLMは様々な種類のビデオ理解タスクに対して効果的な統合フレームワークを提供する。ビデオLLMの有効性を評価するため,複数のLCMと微調整法を用いて広範囲な実験を行った。我々は,4つの異なるデータセットから得られた8つのタスクに対して,ビデオLLMを評価する。実験結果から,LLMの理解と推論能力は,映像理解タスクに効果的に移行できることが示唆された。コードはhttps://github.com/cg1177/videollmでリリースします。

関連論文リスト

Thinking With Videos: Multimodal Tool-Augmented Reinforcement Learning for Long Video Reasoning [29.811030252357195]
マルチモーダル大言語モデル(MLLM)は、ビデオ質問応答や時間的接地といった下流タスクに不可欠である。本稿では,ツール・アグリゲード・ラーニング(VITAL)による映像インテリジェンスを提案する。
論文参考訳（メタデータ） (2025-08-06T13:03:21Z)
SiLVR: A Simple Language-based Video Reasoning Framework [71.77141065418238]
簡単な言語ベースのビデオ推論フレームワークであるSiLVRについて紹介する。第一段階では、SiLVRは生動画を多感覚入力を用いて言語ベースの表現に変換する。第2段階では、複雑なビデオ言語理解タスクを解決するために、言語記述を強力な理由付けLLMに入力する。
論文参考訳（メタデータ） (2025-05-30T17:59:19Z)
TRACE: Temporal Grounding Video LLM via Causal Event Modeling [6.596327795743185]
ビデオ時間グラウンド(VTG)は、ビデオ理解モデルにとって重要な機能であり、ビデオブラウジングや編集などの下流タスクにおいて重要な役割を果たす。現在のビデオLLMは自然言語生成のみに依存しており、ビデオに固有の明確な構造をモデル化する能力がない。本稿では、ビデオLLM出力をイベントのシーケンスとして表現し、過去のイベント、ビデオ入力、テキスト命令を用いて現在のイベントを予測する因果イベントモデリングフレームワークを提案する。本稿では,TRACE と呼ばれるタスクインターリーブビデオ LLM を提案し,実際に因果イベントモデリングフレームワークを効果的に実装する。
論文参考訳（メタデータ） (2024-10-08T02:46:30Z)
From Image to Video, what do we need in multimodal LLMs? [17.847011311716077]
本稿では、ロバストなビデオLLMを構築するリソース効率開発パイプラインRED-VILLMを紹介する。我々は、時間情報を把握する能力を備えたバックボーン画像LLMを具現化して、時間適応型プラグアンドプレイ構造を考案する。我々のアプローチは、よりコスト効率が高くスケーラブルなマルチモーダルモデルの進歩の可能性を強調します。
論文参考訳（メタデータ） (2024-04-18T02:43:37Z)
ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。 LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文参考訳（メタデータ） (2024-03-30T10:11:26Z)
VURF: A General-purpose Reasoning and Self-refinement Framework for Video Understanding [65.12464615430036]
本稿では,Large Language Models (LLM) の推論能力に基づくビデオ理解・推論フレームワーク (VURF) を提案する。ビデオタスクの文脈でLLMの実用性を拡張するための新しいアプローチである。我々は,その文脈学習能力を利用して,映像理解のための実行可能な視覚プログラムを生成する。
論文参考訳（メタデータ） (2024-03-21T18:00:00Z)
Video Understanding with Large Language Models: A Survey [97.29126722004949]
言語・マルチモーダルタスクにおける大規模言語モデル(LLM)の顕著な機能を考えると,近年の映像理解の進歩について概観する。 Vid-LLMの創発的能力は驚くほど進歩しており、特にオープンな多粒性推論能力がある。本調査は,Vid-LLMのタスク,データセット,ベンチマーク,評価方法論に関する総合的研究である。
論文参考訳（メタデータ） (2023-12-29T01:56:17Z)
Retrieval-based Video Language Model for Efficient Long Video Question Answering [39.474247695753725]
本稿では,検索型ビデオ言語モデル(R-VLM)を提案する。具体的には、質問(クエリ)と長いビデオから、我々のモデルは最も関連性の高い$K$のビデオチャンクを特定し、選択する。実験の結果,長編動画の編集におけるフレームワークの有効性が検証された。
論文参考訳（メタデータ） (2023-12-08T09:48:36Z)
MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [63.14000659130736]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文参考訳（メタデータ） (2023-11-28T17:59:04Z)
Frozen Transformers in Language Models Are Effective Visual Encoder Layers [26.759544759745648]
大きな言語モデル(LLM)は、言語がないときに純粋に視覚的なタスクに対して驚くほど強力なエンコーダである。我々の研究は、コンピュータビジョンタスクにLLMを活用することの限界を推し進めている。視覚符号化における事前学習LLMの有効性を説明するために,情報フィルタリング仮説を提案する。
論文参考訳（メタデータ） (2023-10-19T17:59:05Z)
Valley: Video Assistant with Large Language model Enhanced abilitY [41.79449203718827]
大規模言語モデル強化型ビデオアシスタントであるValleyを紹介した。映像理解と指示追従能力でバレーを強化するため,映像指導データセットを構築した。タスク指向会話データの構築を容易にするためにChatGPTを用いる。
論文参考訳（メタデータ） (2023-06-12T16:11:10Z)
A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文参考訳（メタデータ） (2023-05-16T19:13:11Z)
LAVENDER: Unifying Video-Language Understanding as Masked Language Modeling [102.42424022921243]
Masked Language Modeling (MLM) は、すべての事前学習および下流タスクの共通インターフェースとして使用される。実験により、この統合フレームワークは14のVidLベンチマークで競合性能を達成することが示された。
論文参考訳（メタデータ） (2022-06-14T20:43:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。