論文の概要: PPLLaVA: Varied Video Sequence Understanding With Prompt Guidance
- arxiv url: http://arxiv.org/abs/2411.02327v2
- Date: Tue, 05 Nov 2024 09:43:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 15:00:03.626080
- Title: PPLLaVA: Varied Video Sequence Understanding With Prompt Guidance
- Title(参考訳): PPLLaVA: Prompt Guidanceによるビデオシーケンス理解
- Authors: Ruyang Liu, Haoran Tang, Haibo Liu, Yixiao Ge, Ying Shan, Chen Li, Jiankun Yang,
- Abstract要約: トークン圧縮と命令対応の視覚的特徴集約を同時に実現する新しいプーリング戦略を提案する。
我々のモデルはPPLLaVA(Prompt-guided Pooling LLaVA)と呼ばれる。
- 参考スコア(独自算出の注目度): 44.08446730529495
- License:
- Abstract: The past year has witnessed the significant advancement of video-based large language models. However, the challenge of developing a unified model for both short and long video understanding remains unresolved. Most existing video LLMs cannot handle hour-long videos, while methods custom for long videos tend to be ineffective for shorter videos and images. In this paper, we identify the key issue as the redundant content in videos. To address this, we propose a novel pooling strategy that simultaneously achieves token compression and instruction-aware visual feature aggregation. Our model is termed Prompt-guided Pooling LLaVA, or PPLLaVA for short. Specifically, PPLLaVA consists of three core components: the CLIP-based visual-prompt alignment that extracts visual information relevant to the user's instructions, the prompt-guided pooling that compresses the visual sequence to arbitrary scales using convolution-style pooling, and the clip context extension designed for lengthy prompt common in visual dialogue. Moreover, our codebase also integrates the most advanced video Direct Preference Optimization (DPO) and visual interleave training. Extensive experiments have validated the performance of our model. With superior throughput and only 1024 visual context, PPLLaVA achieves better results on image benchmarks as a video LLM, while achieving state-of-the-art performance across various video benchmarks, excelling in tasks ranging from caption generation to multiple-choice questions, and handling video lengths from seconds to hours. Codes have been available at https://github.com/farewellthree/PPLLaVA.
- Abstract(参考訳): この1年で、ビデオベースの大規模言語モデルの大幅な進歩が見られた。
しかし,短時間・長時間の映像理解のための統一モデルを開発するという課題は未解決のままである。
既存のビデオLLMは1時間のビデオを扱うことができないが、長いビデオのカスタムな方法は短いビデオや画像では効果がない。
本稿では,重要な問題をビデオの冗長なコンテンツとして認識する。
そこで本稿では,トークン圧縮と命令対応の視覚的特徴集約を同時に実現する新しいプール方式を提案する。
我々のモデルはPPLLaVA(Prompt-guided Pooling LLaVA)と呼ばれる。
PPLLaVAは、ユーザの指示に関連する視覚情報を抽出するCLIPベースのビジュアルプロンプトアライメント、畳み込みスタイルのプーリングを用いて視覚シーケンスを任意のスケールに圧縮するプロンプト誘導プーリング、視覚対話で一般的な長めのプロンプトのために設計されたクリップコンテキスト拡張の3つのコアコンポーネントで構成されている。
さらに、我々のコードベースは、DPO(Direct Preference Optimization)とビジュアルインターリーブトレーニングを統合しています。
大規模な実験により、我々のモデルの性能が検証された。
優れたスループットと1024の視覚的コンテキストを持つPPLLaVAは、ビデオLLMとしての画像ベンチマークでより良い結果を得ると同時に、様々なビデオベンチマークで最先端のパフォーマンスを実現し、キャプション生成からマルチチョイス質問までのタスクに優れ、ビデオ長を秒から数時間で処理する。
コードはhttps://github.com/farewell Three/PPLLaVAで公開されている。
関連論文リスト
- Visual Context Window Extension: A New Perspective for Long Video Understanding [45.134271969594614]
我々は、コンテキストウィンドウの観点から、長いビデオ理解の課題に取り組む。
視覚的コンテキストウィンドウを拡張し,LMMを長時間の映像理解タスクに適用することを提案する。
ビデオフレーム数の増加に伴い,本手法は連続的に性能を向上する。
論文 参考訳(メタデータ) (2024-09-30T07:25:16Z) - Vript: A Video Is Worth Thousands of Words [54.815686588378156]
Vriptは12Kの高解像度ビデオの注釈付きコーパスで、420Kのクリップで詳細な、密度の高い、スクリプトのようなキャプションを提供する。
各クリップには145ワードのキャプションがあり、ほとんどのビデオテキストデータセットの10倍以上の長さである。
Vriptは、長いビデオのための高密度で詳細なキャプションをエンドツーエンドに生成できる強力なモデルである。
論文 参考訳(メタデータ) (2024-06-10T06:17:55Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - VLAB: Enhancing Video Language Pre-training by Feature Adapting and
Blending [78.1399386935455]
CLIPのような大規模画像テキストコントラスト事前学習モデルは、高品質なマルチモーダル表現を効果的に学習することが実証されている。
本稿では,VLAB(VLAB: Video Language pre-training by feature generativeality and Blending)という新しいビデオテキスト事前学習手法を提案する。
VLABはCLIP表現をビデオ事前訓練タスクに転送し、幅広いビデオテキストタスクのための統合ビデオマルチモーダルモデルを開発する。
論文 参考訳(メタデータ) (2023-05-22T15:54:22Z) - HierVL: Learning Hierarchical Video-Language Embeddings [108.77600799637172]
HierVLは階層的なビデオ言語埋め込みであり、長期および短期の関連を同時に扱う。
クリップレベルとビデオレベルの両方でテキストと視覚のアライメントを促進する階層的なコントラストトレーニングの目標を導入する。
我々の階層的スキームは、SotAを達成した長期的なビデオ表現と同様に、その単一レベルよりも優れたクリップ表現をもたらす。
論文 参考訳(メタデータ) (2023-01-05T21:53:19Z) - Frame-wise Action Representations for Long Videos via Sequence
Contrastive Learning [44.412145665354736]
本稿では,フレームワイドな行動表現を学習するための,新しいコントラッシブな行動表現学習フレームワークを提案する。
自己教師型学習の最近の進歩に触発されて,2つの相関する視点に適用した新しいシーケンス・コントラッシブ・ロス(SCL)を提案する。
提案手法は,映像アライメントや細かなフレーム検索作業において,優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-28T17:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。