論文の概要: VideoLLaMA 3: Frontier Multimodal Foundation Models for Image and Video Understanding
- arxiv url: http://arxiv.org/abs/2501.13106v1
- Date: Wed, 22 Jan 2025 18:59:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 13:29:32.444872
- Title: VideoLLaMA 3: Frontier Multimodal Foundation Models for Image and Video Understanding
- Title(参考訳): VideoLLaMA 3: 画像とビデオ理解のためのフロンティアマルチモーダルファンデーションモデル
- Authors: Boqiang Zhang, Kehan Li, Zesen Cheng, Zhiqiang Hu, Yuqian Yuan, Guanzheng Chen, Sicong Leng, Yuming Jiang, Hang Zhang, Xin Li, Peng Jin, Wenqi Zhang, Fan Wang, Lidong Bing, Deli Zhao,
- Abstract要約: VideoLLaMA3は、画像およびビデオ理解のためのより高度なマルチモーダル基盤モデルである。
VideoLLaMA3には、視覚中心のアライメントステージ、視覚言語事前訓練ステージ、マルチタスクのファインチューニングステージ、ビデオ中心のファインチューニングステージの4つのトレーニングステージがある。
VideoLLaMA3は、画像理解ベンチマークとビデオ理解ベンチマークの両方で魅力的なパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 59.020450264301026
- License:
- Abstract: In this paper, we propose VideoLLaMA3, a more advanced multimodal foundation model for image and video understanding. The core design philosophy of VideoLLaMA3 is vision-centric. The meaning of "vision-centric" is two-fold: the vision-centric training paradigm and vision-centric framework design. The key insight of our vision-centric training paradigm is that high-quality image-text data is crucial for both image and video understanding. Instead of preparing massive video-text datasets, we focus on constructing large-scale and high-quality image-text datasets. VideoLLaMA3 has four training stages: 1) vision-centric alignment stage, which warms up the vision encoder and projector; 2) vision-language pretraining stage, which jointly tunes the vision encoder, projector, and LLM with large-scale image-text data covering multiple types (including scene images, documents, charts) as well as text-only data. 3) multi-task fine-tuning stage, which incorporates image-text SFT data for downstream tasks and video-text data to establish a foundation for video understanding. 4) video-centric fine-tuning, which further improves the model's capability in video understanding. As for the framework design, to better capture fine-grained details in images, the pretrained vision encoder is adapted to encode images of varying sizes into vision tokens with corresponding numbers, rather than a fixed number of tokens. For video inputs, we reduce the number of vision tokens according to their similarity so that the representation of videos will be more precise and compact. Benefit from vision-centric designs, VideoLLaMA3 achieves compelling performances in both image and video understanding benchmarks.
- Abstract(参考訳): 本稿では,より高度なマルチモーダル基盤モデルであるVideoLLaMA3を提案する。
VideoLLaMA3のコアデザイン哲学はビジョン中心である。
ビジョン中心"の意味は2つあります。ビジョン中心のトレーニングパラダイムとビジョン中心のフレームワーク設計です。
ビジョン中心のトレーニングパラダイムにおける重要な洞察は、画像とビデオの理解において高品質な画像テキストデータが不可欠であることです。
大規模なビデオテキストデータセットを作成する代わりに、大規模で高品質な画像テキストデータセットの構築に重点を置いています。
VideoLLaMA3には4つのトレーニングステージがある。
1) 映像エンコーダ及びプロジェクタを暖める視覚中心アライメントステージ
2)映像エンコーダ,プロジェクタ,LLMを複数種類の画像テキストデータ(シーン画像,文書,チャートなど)とテキストのみのデータとの共同調整を行う。
3) ダウンストリームタスクのための画像テキストSFTデータとビデオテキストデータを組み込んだマルチタスク微調整ステージにより,映像理解の基礎を確立した。
4) ビデオ中心の微調整により、ビデオ理解におけるモデルの能力がさらに向上する。
フレームワークの設計では、画像のきめ細かい細部をより正確に捉えるために、事前訓練されたビジョンエンコーダは、一定数のトークンではなく、様々な大きさの画像を対応する数で視覚トークンにエンコードする。
映像入力では、映像の表現がより正確でコンパクトになるように、その類似性に応じて視覚トークンの数を減らす。
VideoLLaMA3は視覚中心の設計に特化して、画像とビデオの理解ベンチマークの両方で魅力的なパフォーマンスを実現している。
関連論文リスト
- Lexicon3D: Probing Visual Foundation Models for Complex 3D Scene Understanding [41.59673370285659]
本稿では,3次元シーン理解のための様々な視覚符号化モデルを探索する総合的研究について述べる。
評価は,映像ベース,映像ベース,3Dファウンデーションモデルを含む,7つのビジョンファウンデーションエンコーダにまたがる。
DINOv2は優れた性能を示し、ビデオモデルはオブジェクトレベルのタスクに優れ、幾何学的拡散モデルはタスクに有益であり、言語予測モデルは言語関連のタスクに予期せぬ制限を示す。
論文 参考訳(メタデータ) (2024-09-05T17:59:56Z) - How Well Can Vision Language Models See Image Details? [53.036922527685064]
視覚言語モデルはどのようにして画像の詳細を見ることができるのか」を探求するために画素値予測タスクを導入する。
我々の研究は、VLM事前学習タスクと視覚エンコーダ適応の1つとして画素値予測を組み込むことで、下流画像言語理解タスクにおけるVLM性能が著しく向上することを明らかにする。
論文 参考訳(メタデータ) (2024-08-07T17:59:40Z) - OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding [112.87441334765693]
OMG-LLaVAは、強力なピクセルレベルの視覚理解と推論能力を組み合わせた新しいフレームワークである。
フレキシブルなユーザインタラクションのために、さまざまな視覚的およびテキストプロンプトを受け入れることができる。
OMG-LLaVAは1つのモデルで画像レベル、オブジェクトレベル、ピクセルレベルの推論と理解を実現する。
論文 参考訳(メタデータ) (2024-06-27T17:59:01Z) - VisionGPT-3D: A Generalized Multimodal Agent for Enhanced 3D Vision Understanding [47.58359136198136]
VisionGPT-3Dはマルチモーダル基盤モデルの強みを基盤として多目的なマルチモーダルフレームワークを提供する。
様々なSOTAビジョンモデルをシームレスに統合し、SOTAビジョンモデルの選択に自動化をもたらす。
2次元深度マップ解析に対応する適切な3次元メッシュ生成アルゴリズムを特定し、多様なマルチモーダル入力に基づいて最適な結果を生成する。
論文 参考訳(メタデータ) (2024-03-14T16:13:00Z) - NPF-200: A Multi-Modal Eye Fixation Dataset and Method for
Non-Photorealistic Videos [51.409547544747284]
NPF-200は、視線を固定した純粋にフォトリアリスティックでないビデオの大規模なマルチモーダルデータセットである。
私たちは一連の分析を行い、このタスクについてより深い洞察を得ます。
NPSNetと呼ばれる広帯域周波数対応マルチモーダル非フォトリアリスティックサリエンシ検出モデルを提案する。
論文 参考訳(メタデータ) (2023-08-23T14:25:22Z) - GPT4Image: Can Large Pre-trained Models Help Vision Models on Perception
Tasks? [51.22096780511165]
本稿では,大規模な事前学習モデルから抽出した知識を利用して,CNN や ViT などのモデルが拡張表現を学習するのを支援する新しい学習パラダイムを提案する。
我々は、詳細な記述を事前訓練されたエンコーダに入力し、画像の内容をエンコードするリッチなセマンティック情報でテキスト埋め込みを抽出する。
論文 参考訳(メタデータ) (2023-06-01T14:02:45Z) - Linearly Mapping from Image to Text Space [22.290431852705662]
テキストのみのモデルで学習した概念表現は、視覚タスクで学習したモデルと機能的に等価であることを示す。
3つの画像エンコーダと事前訓練中に見られる言語指導量の増大を比較した。
3つのエンコーダはいずれも、視覚特性情報を言語モデルに転送する際にも等しく機能することがわかった。
論文 参考訳(メタデータ) (2022-09-30T01:17:18Z) - VLMAE: Vision-Language Masked Autoencoder [21.97700040013084]
視覚言語事前学習のための視覚言語マスク付きオートエンコーダフレームワーク(VLMAE)を提案する。
VLMAEは視覚的生成学習を採用しており、モデルが細粒度で偏りのない特徴を取得するのを容易にする。
論文 参考訳(メタデータ) (2022-08-19T14:39:18Z) - Boosting Video Representation Learning with Multi-Faceted Integration [112.66127428372089]
ビデオコンテンツは多面的であり、オブジェクト、シーン、インタラクション、アクションで構成されている。
既存のデータセットは、主にモデルトレーニングのファセットの1つだけをラベル付けする。
我々は,ビデオコンテンツの全スペクトルを反映した表現を学習するために,異なるデータセットから顔データを集約する,MUFI(MUlti-Faceted Integration)という新たな学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-11T16:14:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。