論文の概要: Griffon-G: Bridging Vision-Language and Vision-Centric Tasks via Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2410.16163v1
- Date: Mon, 21 Oct 2024 16:30:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:18:18.719326
- Title: Griffon-G: Bridging Vision-Language and Vision-Centric Tasks via Large Multimodal Models
- Title(参考訳): Griffon-G:大規模マルチモーダルモデルによるブリッジングビジョンランゲージとビジョン中心タスク
- Authors: Yufei Zhan, Hongyin Zhao, Yousong Zhu, Fan Yang, Ming Tang, Jinqiao Wang,
- Abstract要約: CCMD-8Mを導入し、視覚中心のタスクと視覚言語タスクを統一する際のデータ障壁を克服する。
また、Griffon-Gは、単一のエンドツーエンドパラダイム内の視覚中心タスクと視覚言語タスクの両方に対処する一般的な大規模マルチモーダルモデルである。
- 参考スコア(独自算出の注目度): 27.45225442048711
- License:
- Abstract: Large Multimodal Models (LMMs) have achieved significant breakthroughs in various vision-language and vision-centric tasks based on auto-regressive modeling. However, these models typically focus on either vision-centric tasks, such as visual grounding and region description, or vision-language tasks, like image caption and multi-scenario VQAs. None of the LMMs have yet comprehensively unified both types of tasks within a single model, as seen in Large Language Models in the natural language processing field. Furthermore, even with abundant multi-task instruction-following data, directly stacking these data for universal capabilities extension remains challenging. To address these issues, we introduce a novel multi-dimension curated and consolidated multimodal dataset, named CCMD-8M, which overcomes the data barriers of unifying vision-centric and vision-language tasks through multi-level data curation and multi-task consolidation. More importantly, we present Griffon-G, a general large multimodal model that addresses both vision-centric and vision-language tasks within a single end-to-end paradigm. Griffon-G resolves the training collapse issue encountered during the joint optimization of these tasks, achieving better training efficiency. Evaluations across multimodal benchmarks, general Visual Question Answering (VQA) tasks, scene text-centric VQA tasks, document-related VQA tasks, Referring Expression Comprehension, and object detection demonstrate that Griffon-G surpasses the advanced LMMs and achieves expert-level performance in complicated vision-centric tasks.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は、自動回帰モデルに基づく様々な視覚言語および視覚中心のタスクにおいて大きなブレークスルーを達成している。
しかしながら、これらのモデルは一般的に、視覚的な接地や地域記述のような視覚中心のタスクや、イメージキャプションやマルチシナリオVQAのような視覚言語タスクに焦点を当てている。
LMMのいずれも、自然言語処理分野の大規模言語モデルに見られるように、単一のモデル内で両方のタスクを包括的に統合していない。
さらに、豊富なマルチタスク命令追跡データであっても、これらのデータをユニバーサル機能拡張のために直接積み重ねることは困難である。
これらの課題に対処するために, CCMD-8Mという, マルチレベルデータキュレーションとマルチタスク統合による視覚中心タスクと視覚言語タスクの統合というデータバリアを克服する, 新たなマルチディメンジョンキュレーションと統合型マルチモーダルデータセットを導入する。
さらに重要なことは、Griffon-Gは、単一のエンドツーエンドパラダイム内の視覚中心タスクと視覚言語タスクの両方に対処する、一般的な大規模マルチモーダルモデルである。
Griffon-Gは、これらのタスクの共同最適化中に発生するトレーニングの崩壊問題を解決し、より良いトレーニング効率を実現する。
マルチモーダルベンチマーク、一般的なVisual Question Answering (VQA)タスク、シーンテキスト中心のVQAタスク、文書関連VQAタスク、Referring Expression Comprehension、オブジェクト検出による評価は、Griffon-Gが高度なLMMを超え、複雑な視覚中心のタスクで専門家レベルのパフォーマンスを達成することを示す。
関連論文リスト
- VL-GLUE: A Suite of Fundamental yet Challenging Visuo-Linguistic Reasoning Tasks [48.67062958311173]
VL-GLUEは、自然言語理解のためのマルチタスクベンチマークである。
既存の大規模視覚言語モデルでは,このベンチマークは非常に難しい。
論文 参考訳(メタデータ) (2024-10-17T15:27:17Z) - UnifiedMLLM: Enabling Unified Representation for Multi-modal Multi-tasks With Large Language Model [11.885204227946549]
統一表現を用いて様々なタスクを表現するために設計された包括的モデルを提案する。
本モデルは,ユーザ指示の暗黙的な意図を理解する上で,強力な能力を示す。
私たちのアプローチは、例外的なスケーラビリティと汎用性を示します。
論文 参考訳(メタデータ) (2024-08-05T14:27:39Z) - VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks [89.24440488456405]
VisionLLM v2は、エンドツーエンドの汎用マルチモーダル大モデル(MLLM)である。
単一のフレームワーク内で視覚的知覚、理解、生成を統一する。
論文 参考訳(メタデータ) (2024-06-12T16:44:50Z) - Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models [87.47400128150032]
本稿では,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。
ルーメンはまず、きめ細かい視覚言語の概念のアライメントを促進する。
そして、共有表現を軽量なタスクデコーダに柔軟にルーティングすることで、タスク固有のデコーダを実行する。
論文 参考訳(メタデータ) (2024-03-12T04:13:45Z) - Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - Enhancing Visual Grounding and Generalization: A Multi-Task Cycle Training Approach for Vision-Language Models [41.64717254672843]
視覚接地は多モード視覚言語モデルにおいて重要な位置を占める。
本稿では,VGのマルチタスクをサポートする大規模なマルチモーダリティモデルであるViLaMを提案する。
ViLaMは幅広い命令を拡張し、一般化と相互作用ポテンシャルを大幅に強化する。
論文 参考訳(メタデータ) (2023-11-21T03:40:09Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - Uni-Perceiver v2: A Generalist Model for Large-Scale Vision and
Vision-Language Tasks [86.66733026149892]
大規模ビジョンと視覚非依存タスクを扱える最初のジェネラリストモデルであるUni-Perceiver v2を提案する。
具体的には、画像は一般領域の提案としてエンコードされ、テキストはTransformerベースの言語モデルを介してエンコードされる。
Uni-Perceiver v2は、幅広いビジョンとビジョン言語タスクで競争力を発揮する。
論文 参考訳(メタデータ) (2022-11-17T18:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。