論文の概要: ViM: Vision Middleware for Unified Downstream Transferring
- arxiv url: http://arxiv.org/abs/2303.06911v1
- Date: Mon, 13 Mar 2023 08:02:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 16:05:52.651705
- Title: ViM: Vision Middleware for Unified Downstream Transferring
- Title(参考訳): ViM: 統合下流転送のためのビジョンミドルウェア
- Authors: Yutong Feng, Biao Gong, Jianwen Jiang, Yiliang Lv, Yujun Shen, Deli
Zhao, Jingren Zhou
- Abstract要約: この研究は、単一の基礎モデルからさまざまな下流タスクへの統一的な移行を目標とする新しい学習パラダイムであるViM(Vision Middleware)を提示する。
ViMは軽量なプラグインモジュールの動物園で構成されており、それぞれが、共有された冷凍バックボーンを備えたミッドストリームデータセットで独立して学習されている。
- 参考スコア(独自算出の注目度): 47.05211472427265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models are pre-trained on massive data and transferred to
downstream tasks via fine-tuning. This work presents Vision Middleware (ViM), a
new learning paradigm that targets unified transferring from a single
foundation model to a variety of downstream tasks. ViM consists of a zoo of
lightweight plug-in modules, each of which is independently learned on a
midstream dataset with a shared frozen backbone. Downstream tasks can then
benefit from an adequate aggregation of the module zoo thanks to the rich
knowledge inherited from midstream tasks. There are three major advantages of
such a design. From the efficiency aspect, the upstream backbone can be trained
only once and reused for all downstream tasks without tuning. From the
scalability aspect, we can easily append additional modules to ViM with no
influence on existing modules. From the performance aspect, ViM can include as
many midstream tasks as possible, narrowing the task gap between upstream and
downstream. Considering these benefits, we believe that ViM, which the
community could maintain and develop together, would serve as a powerful tool
to assist foundation models.
- Abstract(参考訳): 基礎モデルは大量のデータに基づいて事前トレーニングされ、微調整によって下流タスクに転送される。
この研究は、単一の基礎モデルからさまざまな下流タスクへの統一的な移行を目標とする新しい学習パラダイムであるViM(Vision Middleware)を提示する。
vimは、軽量なプラグインモジュールの動物園で構成されており、それぞれが、共有凍結されたバックボーンを持つミッドストリームデータセットで独立に学習される。
下流タスクは、下流タスクから受け継いだ豊富な知識のおかげで、モジュール動物園の適切な集約の恩恵を受けることができる。
このような設計には3つの大きな利点がある。
効率の面では、上流のバックボーンは一度しかトレーニングできず、チューニングなしですべての下流タスクで再利用できる。
スケーラビリティの観点から、既存のモジュールに影響を与えずに、VIMに追加のモジュールを簡単に追加できます。
パフォーマンス面では、ViMは可能な限り多くの中流タスクを含むことができ、上流と下流の間のタスクギャップを狭めることができる。
これらの利点を考えると、コミュニティが共同で維持・発展できるViMは、基礎モデルを支援する強力なツールとなると信じています。
関連論文リスト
- ViT-CoMer: Vision Transformer with Convolutional Multi-scale Feature
Interaction for Dense Predictions [4.886083198552334]
Vision Transformer (ViT) はコンピュータビジョンにおいて大きな成功を収めているが、密集した予測タスクではうまく機能しない。
コンボリューショナル・マルチスケール機能を有するVTバックボーンであるViT-CoMerについて述べる。
階層的特徴をまたいだマルチスケールの融合を行う,シンプルで効率的なCNN-Transformer双方向核融合モジュールを提案する。
論文 参考訳(メタデータ) (2024-03-12T07:59:41Z) - Merging Vision Transformers from Different Tasks and Domains [46.40701388197936]
この作業は、異なるタスク(オブジェクトカテゴリの異なるデータセット)やドメイン(同じカテゴリの異なるデータセット)でトレーニングされたさまざまなビジョントランスフォーマー(ViT)を1つの統一モデルにマージすることを目的としている。
これまでのモデルマージ作業はCNNまたはNLPモデルに重点を置いており、ViTsのマージ研究は未修正のままである。
論文 参考訳(メタデータ) (2023-12-25T09:32:28Z) - AM-RADIO: Agglomerative Model -- Reduce All Domains Into One [51.98777863920393]
このアプローチをAM-RADIO(Agglomerative Model -- すべてのドメインを1に還元する)と名付けます。
教師モデルより少なくとも7倍高速な新しいアーキテクチャ(E-RADIO)を開発した。
包括的なベンチマークプロセスでは、ImageNet分類、ADE20kセマンティックセグメンテーション、COCOオブジェクト検出、LLaVa-1.5フレームワークなどの下流タスクをカバーしています。
論文 参考訳(メタデータ) (2023-12-10T17:07:29Z) - Plug n' Play: Channel Shuffle Module for Enhancing Tiny Vision
Transformers [15.108494142240993]
視覚変換器(ViT)は様々なコンピュータビジョンタスクにおいて顕著な性能を示した。
高い計算複雑性は、ViTsのメモリとコンピューティングリソースの制限のあるデバイスへの適用性を妨げている。
小型VTを改良するための新しいチャネルシャッフルモジュールを提案する。
論文 参考訳(メタデータ) (2023-10-09T11:56:35Z) - Mobile V-MoEs: Scaling Down Vision Transformers via Sparse
Mixture-of-Experts [55.282613372420805]
我々は、資源制約された視覚アプリケーションにとってより魅力的な視覚変換器(ViT)をスケールダウンするために、スパースMOE(sparse MoEs)の使用について検討する。
我々は,個々のパッチではなく画像全体を専門家にルーティングする,シンプルでモバイルフレンドリーなMoE設計を提案する。
V-MoEs(V-MoEs)は高密度VTよりも性能と効率のトレードオフが優れていることを実証的に示す。
論文 参考訳(メタデータ) (2023-09-08T14:24:10Z) - All in One: Exploring Unified Vision-Language Tracking with Multi-Modal
Alignment [23.486297020327257]
現在の視覚言語追跡フレームワークは、視覚特徴抽出器、言語特徴抽出器、融合モデルという3つの部分から構成されている。
本稿では,一貫したトランスフォーマーバックボーンを採用することで,共同特徴抽出とインタラクションを学習するオールインワンフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-07T03:51:21Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - mPLUG-Owl: Modularization Empowers Large Language Models with
Multimodality [55.698502221911944]
mPLUG-Owlは、大規模言語モデル(LLM)にマルチモーダル能力を持たせる訓練パラダイムである。
トレーニングパラダイムは、LLMの助けを借りて視覚知識を学ぶ、画像とテキストの整列のための2段階の手法を含む。
実験の結果,本モデルは既存のマルチモーダルモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-04-27T13:27:01Z) - mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image
and Video [89.19867891570945]
mPLUG-2は、マルチモーダル事前訓練のためのモジュール化された設計を備えた新しい統一パラダイムである。
モダリティ協力のための共通普遍加群を共有し、モダリティの絡み合いを扱うために異なるモダリティ加群を切り離す。
テキスト、画像、ビデオを含むすべてのモダリティの異なる理解タスクと生成タスクのために、異なるモジュールを選択することは柔軟です。
論文 参考訳(メタデータ) (2023-02-01T12:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。