論文の概要: LLaVA-OneVision: Easy Visual Task Transfer
- arxiv url: http://arxiv.org/abs/2408.03326v2
- Date: Sat, 14 Sep 2024 16:39:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 01:06:42.670625
- Title: LLaVA-OneVision: Easy Visual Task Transfer
- Title(参考訳): LLaVA-OneVision: 簡単なビジュアルタスク転送
- Authors: Bo Li, Yuanhan Zhang, Dong Guo, Renrui Zhang, Feng Li, Hao Zhang, Kaichen Zhang, Yanwei Li, Ziwei Liu, Chunyuan Li,
- Abstract要約: LLaVA-OneVisionは、オープンな大規模マルチモーダルモデル(LMM)のファミリーであり、データ、モデル、視覚表現に関する洞察を統合することで開発されている。
実験の結果,LLaVA-OneVisionはオープンLMMの性能境界を同時に押し上げることのできる最初の単一モデルであることがわかった。
- 参考スコア(独自算出の注目度): 79.97351196461386
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present LLaVA-OneVision, a family of open large multimodal models (LMMs) developed by consolidating our insights into data, models, and visual representations in the LLaVA-NeXT blog series. Our experimental results demonstrate that LLaVA-OneVision is the first single model that can simultaneously push the performance boundaries of open LMMs in three important computer vision scenarios: single-image, multi-image, and video scenarios. Importantly, the design of LLaVA-OneVision allows strong transfer learning across different modalities/scenarios, yielding new emerging capabilities. In particular, strong video understanding and cross-scenario capabilities are demonstrated through task transfer from images to videos.
- Abstract(参考訳): LLaVA-OneVisionは、LLaVA-NeXTブログシリーズにおいて、データ、モデル、視覚表現に関する洞察を集約して開発されたオープンな大規模マルチモーダルモデル(LMM)のファミリーである。
実験の結果、LLaVA-OneVisionは、オープンLMMの性能境界を3つの重要なコンピュータビジョンシナリオ(シングルイメージ、マルチイメージ、ビデオシナリオ)で同時に押し上げることができる最初の単一モデルであることがわかった。
重要なのは、LLaVA-OneVisionの設計により、さまざまなモダリティ/シナリオをまたいだ強力なトランスファー学習が可能となり、新たな能力が得られることだ。
特に、画像からビデオへのタスク転送を通じて、強力なビデオ理解とクロスシナリオ機能を示す。
関連論文リスト
- LLaVA-NeXT-Interleave: Tackling Multi-image, Video, and 3D in Large Multimodal Models [70.2997884478129]
LMMにおけるマルチイメージ、マルチフレーム(ビデオ)、マルチビュー(3D)、マルチパッチ(シングルイメージ)シナリオを同時に扱うLLaVA-NeXT-Interleaveを紹介する。
また,LMMのマルチイメージ性能を総合的に評価するために,LLaVA-Interleave Benchをキュレートする。
論文 参考訳(メタデータ) (2024-07-10T17:59:43Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks [89.24440488456405]
VisionLLM v2は、エンドツーエンドの汎用マルチモーダル大モデル(MLLM)である。
単一のフレームワーク内で視覚的知覚、理解、生成を統一する。
論文 参考訳(メタデータ) (2024-06-12T16:44:50Z) - Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models [87.47400128150032]
本稿では,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。
ルーメンはまず、きめ細かい視覚言語の概念のアライメントを促進する。
そして、共有表現を軽量なタスクデコーダに柔軟にルーティングすることで、タスク固有のデコーダを実行する。
論文 参考訳(メタデータ) (2024-03-12T04:13:45Z) - InternVL: Scaling up Vision Foundation Models and Aligning for Generic
Visual-Linguistic Tasks [92.03764152132315]
我々は、視覚基盤モデルを60億のパラメータにスケールアップする大規模視覚言語基盤モデル(InternVL)を設計する。
このモデルは、32の汎用視覚言語ベンチマークにおいて、最先端のパフォーマンスを広く適用し、達成することができる。
強力な視覚能力を備え、ViT-22Bの代替となる。
論文 参考訳(メタデータ) (2023-12-21T18:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。