論文の概要: Vitron: A Unified Pixel-level Vision LLM for Understanding, Generating, Segmenting, Editing
- arxiv url: http://arxiv.org/abs/2412.19806v1
- Date: Tue, 08 Oct 2024 08:39:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-02 13:13:00.809520
- Title: Vitron: A Unified Pixel-level Vision LLM for Understanding, Generating, Segmenting, Editing
- Title(参考訳): Vitron: 理解、生成、セグメンテーション、編集のための統一されたピクセルレベルのビジョンLLM
- Authors: Hao Fei, Shengqiong Wu, Hanwang Zhang, Tat-Seng Chua, Shuicheng Yan,
- Abstract要約: 本稿では,静的画像とダイナミックビデオの両方の包括的理解,セグメンテーション,クラスタ化のために設計された,ユニバーサルピクセルレベルのビジョンLLMであるVITRONを紹介する。
LLMの上に構築されているVITRONは、画像、ビデオ、ピクセルレベルの地域視覚のエンコーダをモジュール内に組み込んでおり、最先端のビジュアルスペシャリストをバックエンドとして採用している。
- 参考スコア(独自算出の注目度): 150.0380447353081
- License:
- Abstract: Recent developments of vision large language models (LLMs) have seen remarkable progress, yet still encounter challenges towards multimodal generalists, such as coarse-grained instance-level understanding, lack of unified support for both images and videos, and insufficient coverage across various vision tasks. In this paper, we present VITRON, a universal pixel-level vision LLM designed for comprehensive understanding, generating, segmenting, and editing of both static images and dynamic videos. Building on top of an LLM backbone, VITRON incorporates encoders for images, videos, and pixel-level regional visuals within its frontend modules, while employing state-of-the-art visual specialists as its backend, via which VITRON supports a spectrum of vision end tasks, spanning visual comprehension to visual generation, from low level to high level. To ensure an effective and precise message passing from LLM to backend modules for function invocation, we propose a novel hybrid method by simultaneously integrating discrete textual instructions and continuous signal embeddings. Further, we design various pixel-level spatiotemporal vision-language alignment learning for VITRON to reach the best fine-grained visual capability. Finally, a cross-task synergy module is advised to learn to maximize the task-invariant fine-grained visual features, enhancing the synergy between different visual tasks. Demonstrated over 12 visual tasks and evaluated across 22 datasets, VITRON showcases its extensive capabilities in the four main vision task clusters. Overall, this work illuminates the great potential of developing a more unified multimodal generalist. Project homepage: https://vitron-llm.github.io/
- Abstract(参考訳): 近年の視覚大言語モデル(LLM)の発展は目覚ましい進歩を遂げているが、大まかなインスタンスレベルの理解、画像とビデオの統一サポートの欠如、様々な視覚タスクにおけるカバー不足など、マルチモーダル・ジェネラリストに対する課題に直面している。
本稿では,静的な画像と動的ビデオの両方を包括的に理解し,生成し,セグメンテーションし,編集するために設計された,ユニバーサルピクセルレベルのビジョンLLMであるVITRONを提案する。
LLMバックボーン上に構築されているVITRONは、画像、ビデオ、ピクセルレベルの地域視覚のエンコーダをフロントエンドモジュール内に組み込むとともに、最先端のビジュアルスペシャリストをバックエンドとして採用する。
関数実行のためのLLMからバックエンドモジュールへのメッセージパッシングを効果的かつ正確に行うために,個別のテキスト命令と連続的な信号埋め込みを同時に統合して,新しいハイブリッド手法を提案する。
さらに,VITRONの高精細化を実現するために,様々な画素レベルの時空間視覚言語アライメント学習を設計する。
最後に、タスク不変のきめ細かい視覚的特徴を最大化し、異なる視覚的タスク間のシナジーを高めるために、クロスタスクのシナジーモジュールを推奨する。
12以上の視覚タスクをデモし、22のデータセットで評価されたVITRONは、4つの主要な視覚タスククラスタにその広範な機能を示す。
全体として、この研究はより統一されたマルチモーダル・ジェネラリストを開発する大きな可能性を照らしている。
プロジェクトホームページ:https://vitron-llm.github.io/
関連論文リスト
- Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。
この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。
テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文 参考訳(メタデータ) (2024-12-26T05:41:31Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks [89.24440488456405]
VisionLLM v2は、エンドツーエンドの汎用マルチモーダル大モデル(MLLM)である。
単一のフレームワーク内で視覚的知覚、理解、生成を統一する。
論文 参考訳(メタデータ) (2024-06-12T16:44:50Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - InternVL: Scaling up Vision Foundation Models and Aligning for Generic
Visual-Linguistic Tasks [92.03764152132315]
我々は、視覚基盤モデルを60億のパラメータにスケールアップする大規模視覚言語基盤モデル(InternVL)を設計する。
このモデルは、32の汎用視覚言語ベンチマークにおいて、最先端のパフォーマンスを広く適用し、達成することができる。
強力な視覚能力を備え、ViT-22Bの代替となる。
論文 参考訳(メタデータ) (2023-12-21T18:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。