Fugu-MT 論文翻訳(概要): ViM: Vision Middleware for Unified Downstream Transferring

論文の概要: ViM: Vision Middleware for Unified Downstream Transferring

arxiv url: http://arxiv.org/abs/2303.06911v1
Date: Mon, 13 Mar 2023 08:02:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-14 16:05:52.651705
Title: ViM: Vision Middleware for Unified Downstream Transferring
Title（参考訳）: ViM: 統合下流転送のためのビジョンミドルウェア
Authors: Yutong Feng, Biao Gong, Jianwen Jiang, Yiliang Lv, Yujun Shen, Deli Zhao, Jingren Zhou
Abstract要約: この研究は、単一の基礎モデルからさまざまな下流タスクへの統一的な移行を目標とする新しい学習パラダイムであるViM(Vision Middleware)を提示する。 ViMは軽量なプラグインモジュールの動物園で構成されており、それぞれが、共有された冷凍バックボーンを備えたミッドストリームデータセットで独立して学習されている。
参考スコア（独自算出の注目度）: 47.05211472427265
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Foundation models are pre-trained on massive data and transferred to downstream tasks via fine-tuning. This work presents Vision Middleware (ViM), a new learning paradigm that targets unified transferring from a single foundation model to a variety of downstream tasks. ViM consists of a zoo of lightweight plug-in modules, each of which is independently learned on a midstream dataset with a shared frozen backbone. Downstream tasks can then benefit from an adequate aggregation of the module zoo thanks to the rich knowledge inherited from midstream tasks. There are three major advantages of such a design. From the efficiency aspect, the upstream backbone can be trained only once and reused for all downstream tasks without tuning. From the scalability aspect, we can easily append additional modules to ViM with no influence on existing modules. From the performance aspect, ViM can include as many midstream tasks as possible, narrowing the task gap between upstream and downstream. Considering these benefits, we believe that ViM, which the community could maintain and develop together, would serve as a powerful tool to assist foundation models.
Abstract（参考訳）: 基礎モデルは大量のデータに基づいて事前トレーニングされ、微調整によって下流タスクに転送される。この研究は、単一の基礎モデルからさまざまな下流タスクへの統一的な移行を目標とする新しい学習パラダイムであるViM(Vision Middleware)を提示する。 vimは、軽量なプラグインモジュールの動物園で構成されており、それぞれが、共有凍結されたバックボーンを持つミッドストリームデータセットで独立に学習される。下流タスクは、下流タスクから受け継いだ豊富な知識のおかげで、モジュール動物園の適切な集約の恩恵を受けることができる。このような設計には3つの大きな利点がある。効率の面では、上流のバックボーンは一度しかトレーニングできず、チューニングなしですべての下流タスクで再利用できる。スケーラビリティの観点から、既存のモジュールに影響を与えずに、VIMに追加のモジュールを簡単に追加できます。パフォーマンス面では、ViMは可能な限り多くの中流タスクを含むことができ、上流と下流の間のタスクギャップを狭めることができる。これらの利点を考えると、コミュニティが共同で維持・発展できるViMは、基礎モデルを支援する強力なツールとなると信じています。

関連論文リスト

SAILViT: Towards Robust and Generalizable Visual Backbones for MLLMs via Gradual Feature Refinement [11.815369617016174]
視覚変換器(ViT)は,マルチモーダル大言語モデル(MLLM)の視覚的理解能力を確立する上で,基礎的バックボーンとして不可欠である本稿では,MLLMの複雑なマルチモーダルインタラクションにおける性能ボトルネックを突破するための,段階的特徴学習型ViTを提案する。
論文参考訳（メタデータ） (2025-07-02T12:17:23Z)
From Generation to Generalization: Emergent Few-Shot Learning in Video Diffusion Models [65.0487600936788]
ビデオ拡散モデル(VDM)は高品質なコンテンツを合成できる強力な生成ツールとして登場した。我々は、VDMが自然に構造化された表現を探索し、視覚世界を暗黙的に理解することを主張する。提案手法は,各タスクを視覚遷移に変換し,短い入力シーケンス上でLoRA重みのトレーニングを可能にする。
論文参考訳（メタデータ） (2025-06-08T20:52:34Z)
Vision-Language Models Create Cross-Modal Task Representations [58.19152818504624]
視覚言語モデル(VLM)は,概念的に等価な入力を共有タスクベクトルに整合させることができる。このアライメントを,タスクやモデルアーキテクチャのクロスモーダル転送を通じて測定する。タスクベクトルはベース言語モデルから微調整された視覚言語モデルに変換可能であることを示す。
論文参考訳（メタデータ） (2024-10-29T17:59:45Z)
CAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications [73.80247057590519]
ビジョントランスフォーマー(ViT)は、トークンミキサーの強力なグローバルコンテキスト能力によって、ニューラルネットワークの革命的な進歩を示す。 CAS-ViT: Convolutional Additive Self-attention Vision Transformerを導入し、モバイルアプリケーションにおける効率と性能のバランスを実現する。 ImageNet-1Kのパラメータは12M/21Mで83.0%/84.1%である。
論文参考訳（メタデータ） (2024-08-07T11:33:46Z)
VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks [89.24440488456405]
VisionLLM v2は、エンドツーエンドの汎用マルチモーダル大モデル(MLLM)である。単一のフレームワーク内で視覚的知覚、理解、生成を統一する。
論文参考訳（メタデータ） (2024-06-12T16:44:50Z)
Vim-F: Visual State Space Model Benefiting from Learning in the Frequency Domain [9.458951424465605]
Mambaディープラーニングモデルとして知られる、効率的なハードウェア対応設計のステートスペースモデル(SSM)は、長いシーケンスのモデリングにおいて大きな進歩を遂げた。周波数領域と空間領域の両方で純粋なマンバエンコーダとスキャンを利用するVim-Fと呼ばれる新しいモデルを提案する。
論文参考訳（メタデータ） (2024-05-29T01:01:19Z)
Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models [87.47400128150032]
本稿では,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。ルーメンはまず、きめ細かい視覚言語の概念のアライメントを促進する。そして、共有表現を軽量なタスクデコーダに柔軟にルーティングすることで、タスク固有のデコーダを実行する。
論文参考訳（メタデータ） (2024-03-12T04:13:45Z)
Merging Vision Transformers from Different Tasks and Domains [46.40701388197936]
この作業は、異なるタスク(オブジェクトカテゴリの異なるデータセット)やドメイン(同じカテゴリの異なるデータセット)でトレーニングされたさまざまなビジョントランスフォーマー(ViT)を1つの統一モデルにマージすることを目的としている。これまでのモデルマージ作業はCNNまたはNLPモデルに重点を置いており、ViTsのマージ研究は未修正のままである。
論文参考訳（メタデータ） (2023-12-25T09:32:28Z)
Exploring Plain ViT Reconstruction for Multi-class Unsupervised Anomaly Detection [128.40330044868293]
Vision Transformer (ViT) では、より単純なアーキテクチャが複数のドメインで有効であることが証明されている。 ViTADはMVTec AD、VisA、Uni-Medicalデータセット上で最先端の結果と効率を達成する。
論文参考訳（メタデータ） (2023-12-12T18:28:59Z)
Plug n' Play: Channel Shuffle Module for Enhancing Tiny Vision Transformers [15.108494142240993]
視覚変換器(ViT)は様々なコンピュータビジョンタスクにおいて顕著な性能を示した。高い計算複雑性は、ViTsのメモリとコンピューティングリソースの制限のあるデバイスへの適用性を妨げている。小型VTを改良するための新しいチャネルシャッフルモジュールを提案する。
論文参考訳（メタデータ） (2023-10-09T11:56:35Z)
An Efficient General-Purpose Modular Vision Model via Multi-Task Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文参考訳（メタデータ） (2023-06-29T17:59:57Z)
mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality [95.76661165594884]
mPLUG-Owlは、大規模言語モデル(LLM)にマルチモーダル能力を持たせる訓練パラダイムである。トレーニングパラダイムは、LLMの助けを借りて視覚知識を学ぶ、画像とテキストの整列のための2段階の手法を含む。実験の結果,本モデルは既存のマルチモーダルモデルよりも優れていた。
論文参考訳（メタデータ） (2023-04-27T13:27:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。