論文の概要: Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2403.07304v2
- Date: Tue, 28 May 2024 12:32:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 01:09:03.773223
- Title: Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models
- Title(参考訳): Lumen: 大規模マルチモーダルモデルの可視光中心能力の解放
- Authors: Yang Jiao, Shaoxiang Chen, Zequn Jie, Jingjing Chen, Lin Ma, Yu-Gang Jiang,
- Abstract要約: 本稿では,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。
ルーメンはまず、きめ細かい視覚言語の概念のアライメントを促進する。
そして、共有表現を軽量なタスクデコーダに柔軟にルーティングすることで、タスク固有のデコーダを実行する。
- 参考スコア(独自算出の注目度): 87.47400128150032
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Multimodal Model (LMM) is a hot research topic in the computer vision area and has also demonstrated remarkable potential across multiple disciplinary fields. A recent trend is to further extend and enhance the perception capabilities of LMMs. The current methods follow the paradigm of adapting the visual task outputs to the format of the language model, which is the main component of a LMM. This adaptation leads to convenient development of such LMMs with minimal modifications, however, it overlooks the intrinsic characteristics of diverse visual tasks and hinders the learning of perception capabilities. To address this issue, we propose a novel LMM architecture named Lumen, a Large multimodal model with versatile vision-centric capability enhancement. We decouple the LMM's learning of perception capabilities into task-agnostic and task-specific stages. Lumen first promotes fine-grained vision-language concept alignment, which is the fundamental capability for various visual tasks. Thus the output of the task-agnostic stage is a shared representation for all the tasks we address in this paper. Then the task-specific decoding is carried out by flexibly routing the shared representation to lightweight task decoders with negligible training efforts. Comprehensive experimental results on a series of vision-centric and VQA benchmarks indicate that our Lumen model not only achieves or surpasses the performance of existing LMM-based approaches in a range of vision-centric tasks while maintaining general visual understanding and instruction following capabilities. The code will be released at https://github.com/SxJyJay/Lumen.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)はコンピュータビジョン領域におけるホットな研究課題であり、また複数の分野にまたがる顕著な可能性を示した。
最近のトレンドは、LMMの知覚能力をさらに拡張し、強化することである。
現在の手法は、視覚的タスク出力をLMMの主成分である言語モデルの形式に適応するパラダイムに従っている。
この適応により、最小限の修正を施したLMMの簡便な開発がもたらされるが、多様な視覚タスクの本質的な特徴を見落とし、知覚能力の学習を妨げる。
この問題に対処するために,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。
我々はLMMの知覚能力の学習をタスク非依存およびタスク特化段階に分離する。
ルーメンはまず、様々な視覚タスクの基本的な能力である、きめ細かい視覚言語概念のアライメントを促進する。
したがって、タスク非依存段階の出力は、本稿で扱う全てのタスクの共有表現である。
そして、共有表現を無視可能な訓練努力を伴う軽量タスクデコーダに柔軟にルーティングすることで、タスク固有のデコーダを実行する。
一連の視覚中心およびVQAベンチマークにおける総合的な実験結果から、我々のルーメンモデルは、視覚中心のタスクにおいて既存のLMMベースのアプローチの性能を達成または超越するだけでなく、一般的な視覚的理解と指示追従能力を維持しつつも、様々な視覚中心のタスクを達成または超越していることが示された。
コードはhttps://github.com/SxJyJay/Lumen.comでリリースされる。
関連論文リスト
- Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment [58.94611347128066]
タスク選好最適化(TPO)は、典型的なきめ細かい視覚的タスクから派生した微分可能なタスク選好を利用する新しい手法である。
トレーニング中にリッチなビジュアルラベルを活用することで、TPOはMLLMのマルチモーダル能力とタスク固有のパフォーマンスを大幅に向上させる。
VideoChatとLLaVAによるこのアプローチのインスタンス化は、ベースラインモデルと比較して、総合的に14.6%のマルチモーダル性能の向上を示している。
論文 参考訳(メタデータ) (2024-12-26T18:56:05Z) - Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。
この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。
テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文 参考訳(メタデータ) (2024-12-26T05:41:31Z) - Sparse Attention Vectors: Generative Multimodal Model Features Are Discriminative Vision-Language Classifiers [79.45405711339322]
生成型大規模マルチモーダルモデル(LMM)は、画像キャプションや視覚的質問応答など、様々な視覚言語(VL)タスクに優れる。
本稿では,LMMを識別タスクに効果的に活用する手法を提案する。
論文 参考訳(メタデータ) (2024-11-28T18:55:41Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks [89.24440488456405]
VisionLLM v2は、エンドツーエンドの汎用マルチモーダル大モデル(MLLM)である。
単一のフレームワーク内で視覚的知覚、理解、生成を統一する。
論文 参考訳(メタデータ) (2024-06-12T16:44:50Z) - u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model [17.3535277338312]
u-LLaVAは、MLLMの知覚能力を改善するためにピクセル、地域、グローバル機能を統合する革新的な統合マルチタスクフレームワークである。
この研究は、277Kサンプルからなるマスクベースの新しいマルチタスクデータセットに貢献し、MLLMの微粒化知覚能力に挑戦し評価する。
論文 参考訳(メタデータ) (2023-11-09T13:18:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。