論文の概要: ViM: Vision Middleware for Unified Downstream Transferring
- arxiv url: http://arxiv.org/abs/2303.06911v1
- Date: Mon, 13 Mar 2023 08:02:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 16:05:52.651705
- Title: ViM: Vision Middleware for Unified Downstream Transferring
- Title(参考訳): ViM: 統合下流転送のためのビジョンミドルウェア
- Authors: Yutong Feng, Biao Gong, Jianwen Jiang, Yiliang Lv, Yujun Shen, Deli
Zhao, Jingren Zhou
- Abstract要約: この研究は、単一の基礎モデルからさまざまな下流タスクへの統一的な移行を目標とする新しい学習パラダイムであるViM(Vision Middleware)を提示する。
ViMは軽量なプラグインモジュールの動物園で構成されており、それぞれが、共有された冷凍バックボーンを備えたミッドストリームデータセットで独立して学習されている。
- 参考スコア(独自算出の注目度): 47.05211472427265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models are pre-trained on massive data and transferred to
downstream tasks via fine-tuning. This work presents Vision Middleware (ViM), a
new learning paradigm that targets unified transferring from a single
foundation model to a variety of downstream tasks. ViM consists of a zoo of
lightweight plug-in modules, each of which is independently learned on a
midstream dataset with a shared frozen backbone. Downstream tasks can then
benefit from an adequate aggregation of the module zoo thanks to the rich
knowledge inherited from midstream tasks. There are three major advantages of
such a design. From the efficiency aspect, the upstream backbone can be trained
only once and reused for all downstream tasks without tuning. From the
scalability aspect, we can easily append additional modules to ViM with no
influence on existing modules. From the performance aspect, ViM can include as
many midstream tasks as possible, narrowing the task gap between upstream and
downstream. Considering these benefits, we believe that ViM, which the
community could maintain and develop together, would serve as a powerful tool
to assist foundation models.
- Abstract(参考訳): 基礎モデルは大量のデータに基づいて事前トレーニングされ、微調整によって下流タスクに転送される。
この研究は、単一の基礎モデルからさまざまな下流タスクへの統一的な移行を目標とする新しい学習パラダイムであるViM(Vision Middleware)を提示する。
vimは、軽量なプラグインモジュールの動物園で構成されており、それぞれが、共有凍結されたバックボーンを持つミッドストリームデータセットで独立に学習される。
下流タスクは、下流タスクから受け継いだ豊富な知識のおかげで、モジュール動物園の適切な集約の恩恵を受けることができる。
このような設計には3つの大きな利点がある。
効率の面では、上流のバックボーンは一度しかトレーニングできず、チューニングなしですべての下流タスクで再利用できる。
スケーラビリティの観点から、既存のモジュールに影響を与えずに、VIMに追加のモジュールを簡単に追加できます。
パフォーマンス面では、ViMは可能な限り多くの中流タスクを含むことができ、上流と下流の間のタスクギャップを狭めることができる。
これらの利点を考えると、コミュニティが共同で維持・発展できるViMは、基礎モデルを支援する強力なツールとなると信じています。
関連論文リスト
- VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks [89.24440488456405]
VisionLLM v2は、エンドツーエンドの汎用マルチモーダル大モデル(MLLM)である。
単一のフレームワーク内で視覚的知覚、理解、生成を統一する。
論文 参考訳(メタデータ) (2024-06-12T16:44:50Z) - Vim-F: Visual State Space Model Benefiting from Learning in the Frequency Domain [9.458951424465605]
Mambaディープラーニングモデルとして知られる、効率的なハードウェア対応設計のステートスペースモデル(SSM)は、長いシーケンスのモデリングにおいて大きな進歩を遂げた。
周波数領域と空間領域の両方で純粋なマンバエンコーダとスキャンを利用するVim-Fと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-05-29T01:01:19Z) - Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models [87.47400128150032]
本稿では,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。
ルーメンはまず、きめ細かい視覚言語の概念のアライメントを促進する。
そして、共有表現を軽量なタスクデコーダに柔軟にルーティングすることで、タスク固有のデコーダを実行する。
論文 参考訳(メタデータ) (2024-03-12T04:13:45Z) - Merging Vision Transformers from Different Tasks and Domains [46.40701388197936]
この作業は、異なるタスク(オブジェクトカテゴリの異なるデータセット)やドメイン(同じカテゴリの異なるデータセット)でトレーニングされたさまざまなビジョントランスフォーマー(ViT)を1つの統一モデルにマージすることを目的としている。
これまでのモデルマージ作業はCNNまたはNLPモデルに重点を置いており、ViTsのマージ研究は未修正のままである。
論文 参考訳(メタデータ) (2023-12-25T09:32:28Z) - Exploring Plain ViT Reconstruction for Multi-class Unsupervised Anomaly Detection [128.40330044868293]
Vision Transformer (ViT) では、より単純なアーキテクチャが複数のドメインで有効であることが証明されている。
ViTADはMVTec AD、VisA、Uni-Medicalデータセット上で最先端の結果と効率を達成する。
論文 参考訳(メタデータ) (2023-12-12T18:28:59Z) - Plug n' Play: Channel Shuffle Module for Enhancing Tiny Vision
Transformers [15.108494142240993]
視覚変換器(ViT)は様々なコンピュータビジョンタスクにおいて顕著な性能を示した。
高い計算複雑性は、ViTsのメモリとコンピューティングリソースの制限のあるデバイスへの適用性を妨げている。
小型VTを改良するための新しいチャネルシャッフルモジュールを提案する。
論文 参考訳(メタデータ) (2023-10-09T11:56:35Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality [95.76661165594884]
mPLUG-Owlは、大規模言語モデル(LLM)にマルチモーダル能力を持たせる訓練パラダイムである。
トレーニングパラダイムは、LLMの助けを借りて視覚知識を学ぶ、画像とテキストの整列のための2段階の手法を含む。
実験の結果,本モデルは既存のマルチモーダルモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-04-27T13:27:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。