論文の概要: VisionLLaMA: A Unified LLaMA Interface for Vision Tasks
- arxiv url: http://arxiv.org/abs/2403.00522v1
- Date: Fri, 1 Mar 2024 13:30:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 17:15:27.944701
- Title: VisionLLaMA: A Unified LLaMA Interface for Vision Tasks
- Title(参考訳): VisionLLaMA: ビジョンタスクのための統一LLaMAインターフェース
- Authors: Xiangxiang Chu and Jianlin Su and Bo Zhang and Chunhua Shen
- Abstract要約: 我々は,LLaMAライクな視覚トランスフォーマーを,この目的のために設計されたVisionLLaMAと呼ばれる,平らでピラミッド的な形状で披露する。
VisionLLaMAは、ほとんどのビジョンタスクを解決するための統一的で汎用的なモデリングフレームワークである。
- 参考スコア(独自算出の注目度): 65.78760592058268
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models are built on top of a transformer-based architecture to
process textual inputs. For example, the LLaMA stands out among many
open-source implementations. Can the same transformer be used to process 2D
images? In this paper, we answer this question by unveiling a LLaMA-like vision
transformer in plain and pyramid forms, termed VisionLLaMA, which is tailored
for this purpose. VisionLLaMA is a unified and generic modelling framework for
solving most vision tasks. We extensively evaluate its effectiveness using
typical pre-training paradigms in a good portion of downstream tasks of image
perception and especially image generation. In many cases, VisionLLaMA have
exhibited substantial gains over the previous state-of-the-art vision
transformers. We believe that VisionLLaMA can serve as a strong new baseline
model for vision generation and understanding. Our code will be released at
https://github.com/Meituan-AutoML/VisionLLaMA.
- Abstract(参考訳): 大規模な言語モデルは、テキスト入力を処理するトランスフォーマティブベースのアーキテクチャ上に構築されている。
例えば、LLaMAは多くのオープンソース実装の中でも際立っている。
同じトランスを使って2D画像を処理できますか?
本稿では,LLaMAライクな視覚変換器を平面およびピラミッド形状で発表し,その目的に合わせた視覚変換器であるVisionLLaMAについて述べる。
VisionLLaMAは、ほとんどのビジョンタスクを解決するための統一的で汎用的なモデリングフレームワークである。
画像認識の下流タスク,特に画像生成において,典型的な事前学習パラダイムを用いてその効果を広く評価する。
多くの場合、VisionLLaMAは以前の最先端のビジョントランスよりも大幅に向上している。
VisionLLaMAは、視覚生成と理解のための強力なベースラインモデルとして機能すると考えています。
私たちのコードはhttps://github.com/Meituan-AutoML/VisionLLaMAでリリースされます。
関連論文リスト
- PUMA: Empowering Unified MLLM with Multi-granular Visual Generation [62.747751204215916]
統一MLLMと多言語視覚生成を併用したPUMAを提案する。
PUMAはMLLMの入力と出力の両方としてマルチグラニュラ視覚特徴を統一する。
この研究は、様々な視覚的タスクの粒度要求に適応できる真に統一されたMLLMに向けた重要なステップである。
論文 参考訳(メタデータ) (2024-10-17T17:59:57Z) - Adapting LLaMA Decoder to Vision Transformer [65.47663195233802]
本研究は,LLaMAなどのデコーダのみのトランスフォーマーをコンピュータビジョン分野に適用できるかどうかを検討する。
まず、LLaMAのアーキテクチャと整合する標準的なViTを「LLaMAfy」と呼び、自己注意に因果マスクを直接適用することで、注意崩壊の問題が生じる。
我々は,訓練開始時の自己注意に因果マスクを徐々に導入し,最適化行動を容易にするソフトマスク戦略を開発する。
論文 参考訳(メタデータ) (2024-04-10T06:30:08Z) - InternVL: Scaling up Vision Foundation Models and Aligning for Generic
Visual-Linguistic Tasks [92.03764152132315]
我々は、視覚基盤モデルを60億のパラメータにスケールアップする大規模視覚言語基盤モデル(InternVL)を設計する。
このモデルは、32の汎用視覚言語ベンチマークにおいて、最先端のパフォーマンスを広く適用し、達成することができる。
強力な視覚能力を備え、ViT-22Bの代替となる。
論文 参考訳(メタデータ) (2023-12-21T18:59:31Z) - Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - Masked Vision-Language Transformer in Fashion [85.6143169850834]
ファッション特化マルチモーダル表現のためのマスク付き視覚言語変換器(MVLT)
MVLTは、追加の事前処理モデルなしで生のマルチモーダル入力を許容する、便利で便利なアーキテクチャである。
さらに重要なこととして、MVLTは様々なマッチングおよび生成タスクに容易に一般化できる。
論文 参考訳(メタデータ) (2022-10-27T01:44:08Z) - Architecture-Agnostic Masked Image Modeling -- From ViT back to CNN [38.87225202482656]
自己教師型事前学習手法であるマスク付き画像モデリングは、ビジョントランスフォーマーを用いた多くの下流視覚タスクで驚くべき成功を収めた。
本稿では,トランスフォーマーとCNNの両方に統一的に対応可能なアーキテクチャ非依存型マスケ画像モデリングフレームワーク (A$2$MIM) を提案する。
論文 参考訳(メタデータ) (2022-05-27T12:42:02Z) - On Vision Features in Multimodal Machine Translation [34.41229863267296]
我々は,マルチモーダル機械翻訳における画像のパッチレベルの寄与を研究するために,選択的アテンションモデルを開発する。
この結果から,MMTモデル,特に現在のベンチマークが小規模でバイアスのある場合,慎重に検討する必要があることが示唆された。
論文 参考訳(メタデータ) (2022-03-17T08:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。