論文の概要: VideoLLaMA 3: Frontier Multimodal Foundation Models for Image and Video Understanding
- arxiv url: http://arxiv.org/abs/2501.13106v3
- Date: Tue, 28 Jan 2025 11:05:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-29 13:21:30.361107
- Title: VideoLLaMA 3: Frontier Multimodal Foundation Models for Image and Video Understanding
- Title(参考訳): VideoLLaMA 3: 画像とビデオ理解のためのフロンティアマルチモーダルファンデーションモデル
- Authors: Boqiang Zhang, Kehan Li, Zesen Cheng, Zhiqiang Hu, Yuqian Yuan, Guanzheng Chen, Sicong Leng, Yuming Jiang, Hang Zhang, Xin Li, Peng Jin, Wenqi Zhang, Fan Wang, Lidong Bing, Deli Zhao,
- Abstract要約: VideoLLaMA3は、画像とビデオの理解のためのより高度なマルチモーダル基盤モデルである。
VideoLLaMA3には、視覚適応、視覚言語調整、ファインチューニング、ビデオ中心のファインチューニングの4つのトレーニングステージがある。
VideoLLaMA3は、画像理解ベンチマークとビデオ理解ベンチマークの両方で魅力的なパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 59.020450264301026
- License:
- Abstract: In this paper, we propose VideoLLaMA3, a more advanced multimodal foundation model for image and video understanding. The core design philosophy of VideoLLaMA3 is vision-centric. The meaning of "vision-centric" is two-fold: the vision-centric training paradigm and vision-centric framework design. The key insight of our vision-centric training paradigm is that high-quality image-text data is crucial for both image and video understanding. Instead of preparing massive video-text datasets, we focus on constructing large-scale and high-quality image-text datasets. VideoLLaMA3 has four training stages: 1) Vision Encoder Adaptation, which enables vision encoder to accept images of variable resolutions as input; 2) Vision-Language Alignment, which jointly tunes the vision encoder, projector, and LLM with large-scale image-text data covering multiple types (including scene images, documents, charts) as well as text-only data. 3) Multi-task Fine-tuning, which incorporates image-text SFT data for downstream tasks and video-text data to establish a foundation for video understanding. 4) Video-centric Fine-tuning, which further improves the model's capability in video understanding. As for the framework design, to better capture fine-grained details in images, the pretrained vision encoder is adapted to encode images of varying sizes into vision tokens with corresponding numbers, rather than a fixed number of tokens. For video inputs, we reduce the number of vision tokens according to their similarity so that the representation of videos will be more precise and compact. Benefit from vision-centric designs, VideoLLaMA3 achieves compelling performances in both image and video understanding benchmarks.
- Abstract(参考訳): 本稿では,より高度なマルチモーダル基盤モデルであるVideoLLaMA3を提案する。
VideoLLaMA3のコアデザイン哲学はビジョン中心である。
ビジョン中心"の意味は2つあります。ビジョン中心のトレーニングパラダイムとビジョン中心のフレームワーク設計です。
ビジョン中心のトレーニングパラダイムにおける重要な洞察は、画像とビデオの理解において高品質な画像テキストデータが不可欠であることです。
大規模なビデオテキストデータセットを作成する代わりに、大規模で高品質な画像テキストデータセットの構築に重点を置いています。
VideoLLaMA3には4つのトレーニングステージがある。
1)視覚エンコーダ適応(Vision Encoder Adaptation)は、視覚エンコーダが可変解像度の画像を入力として受け入れることを可能にする。
2)映像エンコーダ,プロジェクタ,LLMを複数種類の画像テキストデータ(シーン画像,文書,チャートなど)とテキストのみのデータとの共同調整を行うビジョン言語アライメント。
3)下流タスクのための画像テキストSFTデータとビデオテキストデータを組み込んだマルチタスクファインチューニングにより,映像理解の基礎を確立する。
4)ビデオ中心ファインチューニングは,映像理解におけるモデルの能力をさらに向上させる。
フレームワークの設計では、画像のきめ細かい細部をより正確に捉えるために、事前訓練されたビジョンエンコーダは、一定数のトークンではなく、様々な大きさの画像を対応する数で視覚トークンにエンコードする。
映像入力では、映像の表現がより正確でコンパクトになるように、その類似性に応じて視覚トークンの数を減らす。
VideoLLaMA3は視覚中心の設計に特化して、画像とビデオの理解ベンチマークの両方で魅力的なパフォーマンスを実現している。
関連論文リスト
- Unifying Specialized Visual Encoders for Video Language Models [38.89164471290503]
Video Large Language Models (VideoLLMs) は、視覚処理の全てを単一の視覚エンコーダに頼っている。
提案手法であるMERV(Multi-Encoder Representation of Videos)では,複数の凍結した映像エンコーダを用いて映像の統一表現を作成する。
MERVは、標準のスイートビデオ理解ベンチマークにおいて、Video-LLaVAよりも3.7%精度が良い。
論文 参考訳(メタデータ) (2025-01-02T18:59:45Z) - Lexicon3D: Probing Visual Foundation Models for Complex 3D Scene Understanding [41.59673370285659]
本稿では,3次元シーン理解のための様々な視覚符号化モデルを探索する総合的研究について述べる。
評価は,映像ベース,映像ベース,3Dファウンデーションモデルを含む,7つのビジョンファウンデーションエンコーダにまたがる。
DINOv2は優れた性能を示し、ビデオモデルはオブジェクトレベルのタスクに優れ、幾何学的拡散モデルはタスクに有益であり、言語予測モデルは言語関連のタスクに予期せぬ制限を示す。
論文 参考訳(メタデータ) (2024-09-05T17:59:56Z) - How Well Can Vision Language Models See Image Details? [53.036922527685064]
視覚言語モデルはどのようにして画像の詳細を見ることができるのか」を探求するために画素値予測タスクを導入する。
我々の研究は、VLM事前学習タスクと視覚エンコーダ適応の1つとして画素値予測を組み込むことで、下流画像言語理解タスクにおけるVLM性能が著しく向上することを明らかにする。
論文 参考訳(メタデータ) (2024-08-07T17:59:40Z) - OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding [112.87441334765693]
OMG-LLaVAは、強力なピクセルレベルの視覚理解と推論能力を組み合わせた新しいフレームワークである。
フレキシブルなユーザインタラクションのために、さまざまな視覚的およびテキストプロンプトを受け入れることができる。
OMG-LLaVAは1つのモデルで画像レベル、オブジェクトレベル、ピクセルレベルの推論と理解を実現する。
論文 参考訳(メタデータ) (2024-06-27T17:59:01Z) - VisionGPT-3D: A Generalized Multimodal Agent for Enhanced 3D Vision Understanding [47.58359136198136]
VisionGPT-3Dはマルチモーダル基盤モデルの強みを基盤として多目的なマルチモーダルフレームワークを提供する。
様々なSOTAビジョンモデルをシームレスに統合し、SOTAビジョンモデルの選択に自動化をもたらす。
2次元深度マップ解析に対応する適切な3次元メッシュ生成アルゴリズムを特定し、多様なマルチモーダル入力に基づいて最適な結果を生成する。
論文 参考訳(メタデータ) (2024-03-14T16:13:00Z) - NPF-200: A Multi-Modal Eye Fixation Dataset and Method for
Non-Photorealistic Videos [51.409547544747284]
NPF-200は、視線を固定した純粋にフォトリアリスティックでないビデオの大規模なマルチモーダルデータセットである。
私たちは一連の分析を行い、このタスクについてより深い洞察を得ます。
NPSNetと呼ばれる広帯域周波数対応マルチモーダル非フォトリアリスティックサリエンシ検出モデルを提案する。
論文 参考訳(メタデータ) (2023-08-23T14:25:22Z) - Let's Think Frame by Frame with VIP: A Video Infilling and Prediction
Dataset for Evaluating Video Chain-of-Thought [62.619076257298204]
我々は、少数のビデオ推論のシーケンシャルな理解として、フレーミングビデオ推論を動機付けている。
VIPは、ビデオチェーンオブ思考を通してモデルの推論能力を調べるために設計された、推論時の課題データセットである。
我々は、VIP上でGPT-4、GPT-3、VICUNAをベンチマークし、複雑なビデオ推論タスクのパフォーマンスギャップを実証し、今後の作業を促進する。
論文 参考訳(メタデータ) (2023-05-23T10:26:42Z) - VLMAE: Vision-Language Masked Autoencoder [21.97700040013084]
視覚言語事前学習のための視覚言語マスク付きオートエンコーダフレームワーク(VLMAE)を提案する。
VLMAEは視覚的生成学習を採用しており、モデルが細粒度で偏りのない特徴を取得するのを容易にする。
論文 参考訳(メタデータ) (2022-08-19T14:39:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。