論文の概要: VisionLLM: Large Language Model is also an Open-Ended Decoder for
Vision-Centric Tasks
- arxiv url: http://arxiv.org/abs/2305.11175v2
- Date: Thu, 25 May 2023 15:02:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 19:39:13.432673
- Title: VisionLLM: Large Language Model is also an Open-Ended Decoder for
Vision-Centric Tasks
- Title(参考訳): VisionLLM: 大規模言語モデルはビジョン中心タスクのためのオープンエンディングデコーダでもある
- Authors: Wenhai Wang, Zhe Chen, Xiaokang Chen, Jiannan Wu, Xizhou Zhu, Gang
Zeng, Ping Luo, Tong Lu, Jie Zhou, Yu Qiao, Jifeng Dai
- Abstract要約: VisionLLMは視覚中心のタスクのためのフレームワークで、柔軟に定義され、言語命令を使って管理できる。
検出固有モデルと同等の精度で,COCO上で60%以上のmAPを達成できる。
- 参考スコア(独自算出の注目度): 81.32968995346775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have notably accelerated progress towards
artificial general intelligence (AGI), with their impressive zero-shot capacity
for user-tailored tasks, endowing them with immense potential across a range of
applications. However, in the field of computer vision, despite the
availability of numerous powerful vision foundation models (VFMs), they are
still restricted to tasks in a pre-defined form, struggling to match the
open-ended task capabilities of LLMs. In this work, we present an LLM-based
framework for vision-centric tasks, termed VisionLLM. This framework provides a
unified perspective for vision and language tasks by treating images as a
foreign language and aligning vision-centric tasks with language tasks that can
be flexibly defined and managed using language instructions. An LLM-based
decoder can then make appropriate predictions based on these instructions for
open-ended tasks. Extensive experiments show that the proposed VisionLLM can
achieve different levels of task customization through language instructions,
from fine-grained object-level to coarse-grained task-level customization, all
with good results. It's noteworthy that, with a generalist LLM-based framework,
our model can achieve over 60\% mAP on COCO, on par with detection-specific
models. We hope this model can set a new baseline for generalist vision and
language models. The demo shall be released based on
https://github.com/OpenGVLab/InternGPT. The code shall be released at
https://github.com/OpenGVLab/VisionLLM.
- Abstract(参考訳): 大規模言語モデル(LLM)は、人工知能(AGI)への進歩を顕著に加速しており、ユーザに適したタスクに対して印象的なゼロショット能力を備えており、幅広いアプリケーションに対して大きな可能性を秘めている。
しかしながら、コンピュータビジョンの分野では、多数の強力なビジョン基盤モデル(VFM)が利用可能であるにもかかわらず、それらはまだ事前に定義された形式のタスクに限定されており、LLMのオープンなタスク能力に匹敵しない。
本稿では,視覚中心タスクのための llm ベースのフレームワークである visionllm を提案する。
このフレームワークは、画像を外国語として扱い、視覚中心のタスクを柔軟に定義し、言語命令を使って管理できる言語タスクと整合させることにより、視覚と言語タスクの統一的な視点を提供する。
LLMベースのデコーダは、オープンなタスクに対してこれらの命令に基づいて適切な予測を行うことができる。
広範な実験により、提案する visionllm は、細粒度オブジェクトレベルから粗粒度タスクレベルのカスタマイズまで、言語命令を通じて異なるレベルのタスクカスタマイズを達成できることを示した。
注目すべきなのは、一般のLLMベースのフレームワークによって、私たちのモデルは、検出固有のモデルと同等に、COCO上で60倍のmAPを達成することができることです。
このモデルがジェネラリストビジョンと言語モデルの新たなベースラインを設定できることを願っています。
デモはhttps://github.com/OpenGVLab/InternGPTに基づいてリリースされる。
コードはhttps://github.com/OpenGVLab/VisionLLMで公開される。
関連論文リスト
- VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks [89.24440488456405]
VisionLLM v2は、エンドツーエンドの汎用マルチモーダル大モデル(MLLM)である。
単一のフレームワーク内で視覚的知覚、理解、生成を統一する。
論文 参考訳(メタデータ) (2024-06-12T16:44:50Z) - LM4LV: A Frozen Large Language Model for Low-level Vision Tasks [25.3601306724822]
$textbfLM4LV$は、大規模な言語モデルで、マルチモーダルデータや事前データなしで、さまざまな低レベルの視覚タスクを解決できるフレームワークである。
これは低レベルのビジョンにおけるLLMの強い可能性を示し、MLLMと低レベルのビジョンタスクの間のギャップを埋める。
論文 参考訳(メタデータ) (2024-05-24T17:25:00Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - InternVL: Scaling up Vision Foundation Models and Aligning for Generic
Visual-Linguistic Tasks [92.03764152132315]
我々は、視覚基盤モデルを60億のパラメータにスケールアップする大規模視覚言語基盤モデル(InternVL)を設計する。
このモデルは、32の汎用視覚言語ベンチマークにおいて、最先端のパフォーマンスを広く適用し、達成することができる。
強力な視覚能力を備え、ViT-22Bの代替となる。
論文 参考訳(メタデータ) (2023-12-21T18:59:31Z) - Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models [50.653838482083614]
本稿では,IT-LVLMの基本的なコンピュータビジョンタスクにおける能力を評価するために,スケーラブルなテストベッドを提案する。
MERLIMには300K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
論文 参考訳(メタデータ) (2023-12-03T16:39:36Z) - InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。
この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。
InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-12T09:58:16Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。