論文の概要: VisionLLM: Large Language Model is also an Open-Ended Decoder for
Vision-Centric Tasks
- arxiv url: http://arxiv.org/abs/2305.11175v2
- Date: Thu, 25 May 2023 15:02:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 19:39:13.432673
- Title: VisionLLM: Large Language Model is also an Open-Ended Decoder for
Vision-Centric Tasks
- Title(参考訳): VisionLLM: 大規模言語モデルはビジョン中心タスクのためのオープンエンディングデコーダでもある
- Authors: Wenhai Wang, Zhe Chen, Xiaokang Chen, Jiannan Wu, Xizhou Zhu, Gang
Zeng, Ping Luo, Tong Lu, Jie Zhou, Yu Qiao, Jifeng Dai
- Abstract要約: VisionLLMは視覚中心のタスクのためのフレームワークで、柔軟に定義され、言語命令を使って管理できる。
検出固有モデルと同等の精度で,COCO上で60%以上のmAPを達成できる。
- 参考スコア(独自算出の注目度): 81.32968995346775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have notably accelerated progress towards
artificial general intelligence (AGI), with their impressive zero-shot capacity
for user-tailored tasks, endowing them with immense potential across a range of
applications. However, in the field of computer vision, despite the
availability of numerous powerful vision foundation models (VFMs), they are
still restricted to tasks in a pre-defined form, struggling to match the
open-ended task capabilities of LLMs. In this work, we present an LLM-based
framework for vision-centric tasks, termed VisionLLM. This framework provides a
unified perspective for vision and language tasks by treating images as a
foreign language and aligning vision-centric tasks with language tasks that can
be flexibly defined and managed using language instructions. An LLM-based
decoder can then make appropriate predictions based on these instructions for
open-ended tasks. Extensive experiments show that the proposed VisionLLM can
achieve different levels of task customization through language instructions,
from fine-grained object-level to coarse-grained task-level customization, all
with good results. It's noteworthy that, with a generalist LLM-based framework,
our model can achieve over 60\% mAP on COCO, on par with detection-specific
models. We hope this model can set a new baseline for generalist vision and
language models. The demo shall be released based on
https://github.com/OpenGVLab/InternGPT. The code shall be released at
https://github.com/OpenGVLab/VisionLLM.
- Abstract(参考訳): 大規模言語モデル(LLM)は、人工知能(AGI)への進歩を顕著に加速しており、ユーザに適したタスクに対して印象的なゼロショット能力を備えており、幅広いアプリケーションに対して大きな可能性を秘めている。
しかしながら、コンピュータビジョンの分野では、多数の強力なビジョン基盤モデル(VFM)が利用可能であるにもかかわらず、それらはまだ事前に定義された形式のタスクに限定されており、LLMのオープンなタスク能力に匹敵しない。
本稿では,視覚中心タスクのための llm ベースのフレームワークである visionllm を提案する。
このフレームワークは、画像を外国語として扱い、視覚中心のタスクを柔軟に定義し、言語命令を使って管理できる言語タスクと整合させることにより、視覚と言語タスクの統一的な視点を提供する。
LLMベースのデコーダは、オープンなタスクに対してこれらの命令に基づいて適切な予測を行うことができる。
広範な実験により、提案する visionllm は、細粒度オブジェクトレベルから粗粒度タスクレベルのカスタマイズまで、言語命令を通じて異なるレベルのタスクカスタマイズを達成できることを示した。
注目すべきなのは、一般のLLMベースのフレームワークによって、私たちのモデルは、検出固有のモデルと同等に、COCO上で60倍のmAPを達成することができることです。
このモデルがジェネラリストビジョンと言語モデルの新たなベースラインを設定できることを願っています。
デモはhttps://github.com/OpenGVLab/InternGPTに基づいてリリースされる。
コードはhttps://github.com/OpenGVLab/VisionLLMで公開される。
関連論文リスト
- CODIS: Benchmarking Context-Dependent Visual Comprehension for
Multimodal Large Language Models [60.27894243926344]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - InternVL: Scaling up Vision Foundation Models and Aligning for Generic
Visual-Linguistic Tasks [92.03764152132315]
我々は、視覚基盤モデルを60億のパラメータにスケールアップする大規模視覚言語基盤モデル(InternVL)を設計する。
このモデルは、32の汎用視覚言語ベンチマークにおいて、最先端のパフォーマンスを広く適用し、達成することができる。
強力な視覚能力を備え、ViT-22Bの代替となる。
論文 参考訳(メタデータ) (2023-12-21T18:59:31Z) - VCoder: Versatile Vision Encoders for Multimodal Large Language Models [46.95488342139727]
MLLM(Multimodal Large Language Models)は近年,視覚言語タスクにおける優れたパフォーマンスを実現している。
しかし、ある画像内のエンティティを識別またはカウントするよう促された場合、既存のMLLMシステムは失敗する。
We propose using Versatile vision enCoders (VCoder) as perception eyes for Multimodal LLMs。
論文 参考訳(メタデータ) (2023-12-21T18:49:47Z) - Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large
Image-Language Models [55.06726432948678]
本稿では,IT-LVLMの性能をコンピュータビジョンの基本的なタスクで評価するためのスケーラブルなテストベッドを提案する。
MERLIMには279K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
この結果から,最先端のIT-LVMLは細かな視覚概念の特定に依然として限界があることが示唆された。
論文 参考訳(メタデータ) (2023-12-03T16:39:36Z) - InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。
この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。
InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-12T09:58:16Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual
Tokenization [53.946191253524766]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - mBLIP: Efficient Bootstrapping of Multilingual Vision-LLMs [57.56695651370155]
我々は、コンシューマハードウェア上で、数百万のトレーニング例を使用して、最初の多言語ビジョン-LLMであるmBLIPを提示する。
我々は視覚と言語を混合したタスクから多言語データを活用し、機械翻訳による高品質な英語データを95言語に翻訳する。
IGLUEベンチマークでは、mBLIPは最先端のモデルと競合する結果を得る。
論文 参考訳(メタデータ) (2023-07-13T17:51:58Z) - Towards Language Models That Can See: Computer Vision Through the LENS
of Natural Language [38.37066741766843]
大規模言語モデル(LLM)のパワーを活用して,コンピュータビジョン問題に対処するためのモジュール型アプローチであるLENSを提案する。
我々のシステムは言語モデルを用いて、独立かつ高度に記述された視覚モジュールの集合からの出力を推論する。
我々は、ゼロショットや少数ショットのオブジェクト認識のような純粋コンピュータビジョン設定に対するアプローチと、視覚と言語の問題について評価する。
論文 参考訳(メタデータ) (2023-06-28T17:57:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。