論文の概要: Florence: A New Foundation Model for Computer Vision
- arxiv url: http://arxiv.org/abs/2111.11432v1
- Date: Mon, 22 Nov 2021 18:59:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-23 14:15:23.820768
- Title: Florence: A New Foundation Model for Computer Vision
- Title(参考訳): Florence: コンピュータビジョンのための新しい基礎モデル
- Authors: Lu Yuan and Dongdong Chen and Yi-Ling Chen and Noel Codella and Xiyang
Dai and Jianfeng Gao and Houdong Hu and Xuedong Huang and Boxin Li and
Chunyuan Li and Ce Liu and Mengchen Liu and Zicheng Liu and Yumao Lu and Yu
Shi and Lijuan Wang and Jianfeng Wang and Bin Xiao and Zhen Xiao and Jianwei
Yang and Michael Zeng and Luowei Zhou and Pengchuan Zhang
- Abstract要約: 我々は、粗い(シーン)から細かい(オブジェクト)への表現を拡大するために、新しいコンピュータビジョン基盤モデルであるFlorenceを導入する。
Webスケールの画像テキストデータから普遍的な視覚言語表現を組み込むことで、フローレンスモデルは様々なコンピュータビジョンタスクに容易に適応できる。
Florenceは44の代表的なベンチマークの過半数において、最先端の新たな結果を達成する。
- 参考スコア(独自算出の注目度): 97.26333007250142
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated visual understanding of our diverse and open world demands computer
vision models to generalize well with minimal customization for specific tasks,
similar to human vision. Computer vision foundation models, which are trained
on diverse, large-scale dataset and can be adapted to a wide range of
downstream tasks, are critical for this mission to solve real-world computer
vision applications. While existing vision foundation models such as CLIP,
ALIGN, and Wu Dao 2.0 focus mainly on mapping images and textual
representations to a cross-modal shared representation, we introduce a new
computer vision foundation model, Florence, to expand the representations from
coarse (scene) to fine (object), from static (images) to dynamic (videos), and
from RGB to multiple modalities (caption, depth). By incorporating universal
visual-language representations from Web-scale image-text data, our Florence
model can be easily adapted for various computer vision tasks, such as
classification, retrieval, object detection, VQA, image caption, video
retrieval and action recognition. Moreover, Florence demonstrates outstanding
performance in many types of transfer learning: fully sampled fine-tuning,
linear probing, few-shot transfer and zero-shot transfer for novel images and
objects. All of these properties are critical for our vision foundation model
to serve general purpose vision tasks. Florence achieves new state-of-the-art
results in majority of 44 representative benchmarks, e.g., ImageNet-1K
zero-shot classification with top-1 accuracy of 83.74 and the top-5 accuracy of
97.18, 62.4 mAP on COCO fine tuning, 80.36 on VQA, and 87.8 on Kinetics-600.
- Abstract(参考訳): 我々の多様でオープンな世界に対する視覚的理解の自動化は、人間の視覚と同様、特定のタスクの最小限のカスタマイズでコンピュータビジョンモデルを一般化することを要求する。
多様な大規模データセットでトレーニングされ、幅広い下流タスクに適応できるコンピュータビジョン基盤モデルは、このミッションにおいて現実世界のコンピュータビジョンアプリケーションを解決するために重要である。
CLIP,ALIGN,Wu Dao 2.0などの既存のビジョン基盤モデルは画像とテキスト表現を相互共有表現にマッピングすることに重点を置いているが、我々は新しいコンピュータビジョン基盤モデルであるFlorenceを導入し、粗い(シーン)から細い(オブジェクト)へ、静的(イメージ)から動的(ビデオ)へ、そしてRGBから複数のモード(キャプション、深さ)へ表現を拡張する。
Webスケールの画像テキストデータから普遍的な視覚言語表現を組み込むことで、分類、検索、オブジェクト検出、VQA、画像キャプション、ビデオ検索、行動認識などの様々なコンピュータビジョンタスクに容易に適用できる。
さらに、フローレンスは、完全な微調整、線形探索、少数ショット転送、新しい画像やオブジェクトのゼロショット転送など、多くの種類の転写学習において優れた性能を示す。
これらの特性はすべて、汎用的なビジョンタスクを提供するために、vision foundationモデルにとって重要です。
フィレンツェは44の代表的なベンチマーク(例えば、ImageNet-1Kゼロショット分類でトップ1の精度は83.74、トップ5の精度は97.18、COCOの微調整では62.4 mAP、VQAでは80.36、キネティクス600では87.8)で新しい最先端の結果を達成した。
関連論文リスト
- InternVL: Scaling up Vision Foundation Models and Aligning for Generic
Visual-Linguistic Tasks [92.03764152132315]
我々は、視覚基盤モデルを60億のパラメータにスケールアップする大規模視覚言語基盤モデル(InternVL)を設計する。
このモデルは、32の汎用視覚言語ベンチマークにおいて、最先端のパフォーマンスを広く適用し、達成することができる。
強力な視覚能力を備え、ViT-22Bの代替となる。
論文 参考訳(メタデータ) (2023-12-21T18:59:31Z) - Q-Instruct: Improving Low-level Visual Abilities for Multi-modality
Foundation Models [81.20804369985376]
我々は,低レベルの視覚に対する多数の人間のフィードバックを収集する大規模主観的実験を行う。
構築された**Q-Pathway**データセットには、18,973イメージに関する58万の詳細な人間のフィードバックが含まれている。
我々は、GPT参加型変換を設計し、これらのフィードバックを多種多様な200K命令応答対に処理する。
論文 参考訳(メタデータ) (2023-11-12T09:10:51Z) - Florence-2: Advancing a Unified Representation for a Variety of Vision
Tasks [94.49801814314435]
本稿では,様々なコンピュータビジョンと視覚言語タスクを対象とした,統一的,即時的な表現を備えた新しい視覚基盤モデルであるFlorence-2を紹介する。
われわれはFLD-5Bを共同開発し、1億2600万枚の画像に540億個の包括的な視覚アノテーションを付加した。
我々は,フローレンス2を訓練し,汎用的で総合的な視覚タスクを実行するためにシーケンス・ツー・シーケンス構造を採用した。
論文 参考訳(メタデータ) (2023-11-10T18:59:08Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - GPT4Image: Can Large Pre-trained Models Help Vision Models on Perception
Tasks? [51.22096780511165]
本稿では,大規模な事前学習モデルから抽出した知識を利用して,CNN や ViT などのモデルが拡張表現を学習するのを支援する新しい学習パラダイムを提案する。
我々は、詳細な記述を事前訓練されたエンコーダに入力し、画像の内容をエンコードするリッチなセマンティック情報でテキスト埋め込みを抽出する。
論文 参考訳(メタデータ) (2023-06-01T14:02:45Z) - Advancing Plain Vision Transformer Towards Remote Sensing Foundation
Model [97.9548609175831]
約1億のパラメータを持つプレーンビジョントランスフォーマーを利用して、リモートセンシングタスク用にカスタマイズされた大規模なビジョンモデルを提案する。
具体的には、RS画像における大きな画像サイズと様々な向きのオブジェクトを扱うために、回転する様々なウィンドウアテンションを提案する。
検出タスクの実験は、DOTA-V1.0データセット上で81.16%のmAPを達成したすべての最先端モデルよりも、我々のモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-08-08T09:08:40Z) - MaxViT: Multi-Axis Vision Transformer [19.192826213493838]
多軸アテンションと呼ばれる効率的でスケーラブルなアテンションモデルを導入する。
提案するアテンションモデルと畳み込みを効果的に組み合わせることで,新しいアーキテクチャ要素を提案する。
視覚タスクの幅広い範囲におけるモデルの有効性を実証する。
論文 参考訳(メタデータ) (2022-04-04T17:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。