論文の概要: Loong: Generating Minute-level Long Videos with Autoregressive Language Models
- arxiv url: http://arxiv.org/abs/2410.02757v1
- Date: Thu, 3 Oct 2024 17:59:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-03 06:04:22.278913
- Title: Loong: Generating Minute-level Long Videos with Autoregressive Language Models
- Title(参考訳): Loong: 自動回帰言語モデルによる分レベルのロングビデオの生成
- Authors: Yuqing Wang, Tianwei Xiong, Daquan Zhou, Zhijie Lin, Yang Zhao, Bingyi Kang, Jiashi Feng, Xihui Liu,
- Abstract要約: そこで我々は,Longという自動回帰型大言語モデル (LLM) ベースのビデオジェネレータを提案する。
具体的には,テキストトークンとビデオトークンを自己回帰LDMの統一シーケンスとしてモデル化し,スクラッチからモデルをトレーニングする。
提案したLoongは10秒のビデオでトレーニングでき、テキストプロンプトで調整されたミニレベル長ビデオを生成するよう拡張できる。
- 参考スコア(独自算出の注目度): 76.59124981781602
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It is desirable but challenging to generate content-rich long videos in the scale of minutes. Autoregressive large language models (LLMs) have achieved great success in generating coherent and long sequences of tokens in the domain of natural language processing, while the exploration of autoregressive LLMs for video generation is limited to generating short videos of several seconds. In this work, we conduct a deep analysis of the challenges that prevent autoregressive LLM-based video generators from generating long videos. Based on the observations and analysis, we propose Loong, a new autoregressive LLM-based video generator that can generate minute-long videos. Specifically, we model the text tokens and video tokens as a unified sequence for autoregressive LLMs and train the model from scratch. We propose progressive short-to-long training with a loss re-weighting scheme to mitigate the loss imbalance problem for long video training. We further investigate inference strategies, including video token re-encoding and sampling strategies, to diminish error accumulation during inference. Our proposed Loong can be trained on 10-second videos and be extended to generate minute-level long videos conditioned on text prompts, as demonstrated by the results. More samples are available at: https://epiphqny.github.io/Loong-video.
- Abstract(参考訳): コンテンツに富んだ長いビデオを数分で生成することは望ましいが、難しい。
自己回帰型大言語モデル(LLM)は、自然言語処理の領域において、コヒーレントで長いトークン列を生成することに成功し、ビデオ生成のための自己回帰型LLMの探索は、数秒の短いビデオを生成することに限られている。
本研究では,自己回帰型LLMビデオジェネレータが長いビデオを生成するのを防ぐための課題を深く分析する。
この観測と解析に基づいて,我々はLongという自動回帰式ビデオジェネレータを提案する。
具体的には,テキストトークンとビデオトークンを自己回帰LDMの統一シーケンスとしてモデル化し,スクラッチからモデルをトレーニングする。
本稿では,長期ビデオトレーニングにおける損失不均衡問題を軽減するために,損失再重み付け方式によるプログレッシブ・ショート・ツー・ロングトレーニングを提案する。
さらに,ビデオトークンの復号化やサンプリングなど,推論時のエラー蓄積を低減するための推論戦略についても検討する。
提案したLoongは10秒の動画でトレーニングでき、テキストプロンプトで調整されたミニレベル長ビデオを生成するよう拡張することができる。
より詳細なサンプルは、https://epiphqny.github.io/Loong-video.comで公開されている。
関連論文リスト
- ReVisionLLM: Recursive Vision-Language Model for Temporal Grounding in Hour-Long Videos [25.988212332357545]
ReVisionLLMは、1時間ビデオ中のイベントを見つけるために設計された視覚言語モデルである。
人間の検索戦略にインスパイアされた私たちのモデルは、当初は幅広い関心領域をターゲットとしていました。
私たちのモデルは、数分から数時間の間、非常に異なる長さの動画をシームレスに処理することができます。
論文 参考訳(メタデータ) (2024-11-22T12:46:50Z) - Video-XL: Extra-Long Vision Language Model for Hour-Scale Video Understanding [26.72068455284472]
Video-XLは、時間スケールの効率的なビデオ理解のために設計された、超長い視覚言語モデルである。
我々のモデルは、人気のある長大映像理解ベンチマークにおいて有望な結果を得る。
論文 参考訳(メタデータ) (2024-09-22T15:13:31Z) - Scaling Up Video Summarization Pretraining with Large Language Models [73.74662411006426]
本稿では,大規模ビデオ要約データセットを生成するための,自動化されたスケーラブルなパイプラインを提案する。
我々は既存のアプローチの限界を分析し、それらに効果的に対処する新しいビデオ要約モデルを提案する。
我々の研究は、プロが注釈付けした高品質の要約を持つ1200本の長編ビデオを含む新しいベンチマークデータセットも提示した。
論文 参考訳(メタデータ) (2024-04-04T11:59:06Z) - LongVLM: Efficient Long Video Understanding via Large Language Models [55.813206751150716]
LongVLMはビデオ理解のためのシンプルだが強力なビデオLLMである。
ローカル情報とグローバル情報の両方を含むビデオ表現をエンコードする。
我々のモデルは、長いビデオ理解のためのより正確な応答を生成する。
論文 参考訳(メタデータ) (2024-04-04T11:33:29Z) - ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。
ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。
LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T10:11:26Z) - LVCHAT: Facilitating Long Video Comprehension [25.395689904747965]
本稿では,Long Video Chat (LVChat) を提案する。
LVは、長ビデオのQAデータセットと長ビデオのキャプションベンチマークにおいて、既存の手法を最大27%上回っている。
論文 参考訳(メタデータ) (2024-02-19T11:59:14Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - Retrieval-based Video Language Model for Efficient Long Video Question
Answering [39.474247695753725]
本稿では,検索型ビデオ言語モデル(R-VLM)を提案する。
具体的には、質問(クエリ)と長いビデオから、我々のモデルは最も関連性の高い$K$のビデオチャンクを特定し、選択する。
実験の結果,長編動画の編集におけるフレームワークの有効性が検証された。
論文 参考訳(メタデータ) (2023-12-08T09:48:36Z) - VideoLLM: Modeling Video Sequence with Large Language Models [70.32832021713864]
既存のビデオ理解モデルは、しばしばタスク固有であり、多様なタスクを扱う包括的な能力に欠ける。
我々は,事前学習したLLMのシーケンス推論機能を活用する,VideoLLMという新しいフレームワークを提案する。
VideoLLMは慎重に設計されたModality and Semantic Translatorを組み込んでおり、様々なモードからの入力を統一されたトークンシーケンスに変換する。
論文 参考訳(メタデータ) (2023-05-22T17:51:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。