論文の概要: PG-Video-LLaVA: Pixel Grounding Large Video-Language Models
- arxiv url: http://arxiv.org/abs/2311.13435v2
- Date: Wed, 13 Dec 2023 17:24:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 20:03:14.655961
- Title: PG-Video-LLaVA: Pixel Grounding Large Video-Language Models
- Title(参考訳): pg-video-llava: 大型ビデオ言語モデルのためのピクセル
- Authors: Shehan Munasinghe, Rusiru Thushara, Muhammad Maaz, Hanoona Abdul
Rasheed, Salman Khan, Mubarak Shah, Fahad Khan
- Abstract要約: PG-Video-LLaVA は画素レベルのグラウンド機能を持つ最初の LMM であり,映像内容の理解を深めるためにテキストに書き起こして音声キューを統合する。
我々のフレームワークは、SoTAイメージベースのLLaVAモデルに基づいており、その利点をビデオ領域に拡張し、ビデオベースの会話と接地タスクに有望な利益をもたらす。
- 参考スコア(独自算出の注目度): 52.83065081926238
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Extending image-based Large Multimodal Models (LMMs) to videos is challenging
due to the inherent complexity of video data. The recent approaches extending
image-based LMMs to videos either lack the grounding capabilities (e.g.,
VideoChat, Video-ChatGPT, Video-LLaMA) or do not utilize the audio-signals for
better video understanding (e.g., Video-ChatGPT). Addressing these gaps, we
propose PG-Video-LLaVA, the first LMM with pixel-level grounding capability,
integrating audio cues by transcribing them into text to enrich video-context
understanding. Our framework uses an off-the-shelf tracker and a novel
grounding module, enabling it to spatially localize objects in videos following
user instructions. We evaluate PG-Video-LLaVA using video-based generative and
question-answering benchmarks and introduce new benchmarks specifically
designed to measure prompt-based object grounding performance in videos.
Further, we propose the use of Vicuna over GPT-3.5, as utilized in
Video-ChatGPT, for video-based conversation benchmarking, ensuring
reproducibility of results which is a concern with the proprietary nature of
GPT-3.5. Our framework builds on SoTA image-based LLaVA model and extends its
advantages to the video domain, delivering promising gains on video-based
conversation and grounding tasks. Project Page:
https://github.com/mbzuai-oryx/Video-LLaVA
- Abstract(参考訳): 画像に基づくLMM(Large Multimodal Models)をビデオに拡張することは、ビデオデータの本質的な複雑さのために困難である。
画像ベースのLMMをビデオに拡張する最近のアプローチは、グラウンド機能(例えば、VideoChat、Video-ChatGPT、Video-LLaMA)や、より良いビデオ理解のためにオーディオ信号を使用しない(例えば、Video-ChatGPT)。
これらのギャップに対処するため, PG-Video-LLaVA は画素レベルのグラウンド機能を持つ最初の LMM であり, 音声キューをテキストに書き起こし, 映像内容の理解を深める。
本フレームワークでは,既製のトラッカーと新しい接地モジュールを用いて,ユーザの指示に従って映像中のオブジェクトを空間的ローカライズする。
pg-video-llavaをビデオベース生成および質問応答ベンチマークを用いて評価し,ビデオ中のプロンプトベースオブジェクトの接地性能を測定するためのベンチマークを新たに導入した。
さらに,ビデオチャットgptにおけるvicuna over gpt-3.5の使用をビデオベースの会話ベンチマークに適用し,gpt-3.5のプロプライエタリな性質と関係する結果の再現性を確保する。
我々のフレームワークは、SoTAイメージベースのLLaVAモデルに基づいており、その利点をビデオ領域に拡張し、ビデオベースの会話と接地タスクに有望な利益をもたらす。
プロジェクトページ: https://github.com/mbzuai-oryx/video-llava
関連論文リスト
- VideoPrism: A Foundational Visual Encoder for Video Understanding [91.33490377573166]
VideoPrismは、単一の凍結モデルで多様なビデオ理解タスクに取り組む汎用ビデオエンコーダである。
我々は,36Mの高品質ビデオキャプチャ対と582Mの動画クリップを含む異種コーパス上で,VoicePrismを事前訓練した。
我々は、Webビデオ質問応答から科学用CVまで、ビデオ理解タスクの4つのグループでビデオPrismを広範囲にテストし、33の動画理解ベンチマークのうち30で最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-02-20T18:29:49Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled
Visual-Motional Tokenization [53.92519123600325]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video
Understanding [61.80870130860662]
Video-LLaMAは、ビデオ内の視覚的および聴覚的コンテンツの両方を理解する能力を備えた、大規模言語モデル(LLM)を強化するフレームワークである。
Video-LLaMAブートストラップは、凍結された事前訓練されたビジュアルおよびオーディオエンコーダと凍結されたLCMからのクロスモーダルトレーニングである。
Video-LLaMAは,映像コンテンツを知覚し,理解し,意味のある応答を生成する能力を示す。
論文 参考訳(メタデータ) (2023-06-05T13:17:27Z) - MagicVideo: Efficient Video Generation With Latent Diffusion Models [76.95903791630624]
我々はMagicVideoと呼ばれる遅延拡散モデルに基づく効率的なテキスト・ビデオ生成フレームワークを提案する。
低次元空間における映像の配布をモデル化する新しい3次元U-Netの設計により、MagicVideoは1枚のGPUカード上で256×256の空間解像度でビデオクリップを合成できる。
我々は広範な実験を行い、MagicVideoが現実的または虚構的なコンテンツで高品質なビデオクリップを作成できることを実証した。
論文 参考訳(メタデータ) (2022-11-20T16:40:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。