論文の概要: Device Tuning for Multi-Task Large Model
- arxiv url: http://arxiv.org/abs/2302.10820v1
- Date: Tue, 21 Feb 2023 16:55:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-22 14:16:33.499321
- Title: Device Tuning for Multi-Task Large Model
- Title(参考訳): マルチタスク大モデルのためのデバイスチューニング
- Authors: Penghao Jiang, Xuanchen Hou, Yinsi Zhou
- Abstract要約: 本稿では,クラウドとデバイスをまたいだマルチタスクフレームワークである,効率的なマルチタスクモデルのためのデバイスチューニングを提案する。
具体的には、クラウドモデリングとデバイスモデリングの両方の恩恵を受けるマルチタスクモデルのデバイスチューニングアーキテクチャを設計する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unsupervised pre-training approaches have achieved great success in many
fields such as Computer Vision (CV), Natural Language Processing (NLP) and so
on. However, compared to typical deep learning models, pre-training or even
fine-tuning the state-of-the-art self-attention models is extremely expensive,
as they require much more computational and memory resources. It severely
limits their applications and success in a variety of domains, especially for
multi-task learning. To improve the efficiency, we propose Device Tuning for
the efficient multi-task model, which is a massively multitask framework across
the cloud and device and is designed to encourage learning of representations
that generalize better to many different tasks. Specifically, we design Device
Tuning architecture of a multi-task model that benefits both cloud modelling
and device modelling, which reduces the communication between device and cloud
by representation compression. Experimental results demonstrate the
effectiveness of our proposed method.
- Abstract(参考訳): 教師なし事前学習アプローチはコンピュータビジョン(CV)や自然言語処理(NLP)など多くの分野で大きな成功を収めている。
しかし、一般的なディープラーニングモデルと比較して、最先端の自己注意モデルを事前学習したり、微調整したりするのは極めて高価である。
さまざまなドメイン、特にマルチタスク学習において、アプリケーションと成功を厳しく制限している。
効率を向上させるため,我々は,クラウドとデバイスにまたがる大規模マルチタスクフレームワークである効率的なマルチタスクモデルのためのデバイスチューニングを提案する。
具体的には、クラウドモデリングとデバイスモデリングの両方の利点を生かしたマルチタスクモデルのデバイスチューニングアーキテクチャを設計し、表現圧縮によるデバイスとクラウド間の通信を低減する。
実験の結果,提案手法の有効性が示された。
関連論文リスト
- Dynamic Self-adaptive Multiscale Distillation from Pre-trained Multimodal Large Model for Efficient Cross-modal Representation Learning [12.00246872965739]
本稿では,事前学習型マルチモーダル大モデルを用いた動的自己適応型マルチスケール蒸留法を提案する。
我々の戦略は、事前訓練されたマルチモーダル大モデルから構造的知識を抽出できる、マルチスケールな視点を用いている。
提案手法は,出力特徴とオリジナル画像レベル情報のみを用いて,事前学習したマルチモーダル大規模モデルを合理化する。
論文 参考訳(メタデータ) (2024-04-16T18:22:49Z) - Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。
Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文 参考訳(メタデータ) (2023-12-20T18:59:58Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Modular Networks Prevent Catastrophic Interference in Model-Based
Multi-Task Reinforcement Learning [0.8883733362171032]
モデルベースのマルチタスク強化学習が、共有ポリシネットワークからモデルフリーメソッドが行うのと同様の方法で、共有ダイナミクスモデルから恩恵を受けるかどうかを検討する。
単一ダイナミクスモデルを用いて、タスクの混乱と性能低下の明確な証拠を見出す。
対策として、学習力学モデルの内部構造を個別のサブネットワークにトレーニングすることで、パフォーマンスを著しく向上させる。
論文 参考訳(メタデータ) (2021-11-15T12:31:31Z) - Scalable and Efficient MoE Training for Multitask Multilingual Models [55.987536562357086]
我々は,MoEモデルを数兆のパラメータに効率的にスケールできるシステムを開発した。
また,MoEサンプルの効率を向上させるための新たなトレーニング手法を提案し,時間効率を向上させるために専門家の刈り取り戦略を活用する。
50言語で100億のパラメータで訓練されたモデルは、機械翻訳(MT)および多言語自然言語生成タスクにおける最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2021-09-22T00:57:46Z) - Device-Cloud Collaborative Learning for Recommendation [50.01289274123047]
集中型クラウドモデルにより「数千人のモデルを持つ何千人もの人」を効率的に実現する新しいMetaPatch学習手法をデバイス側で提案します。
数十億の更新されたパーソナライズされたデバイスモデルにより、集中型クラウドモデルを更新する"モデルオーバーモデル"蒸留アルゴリズム、すなわちMoMoDistillを提案する。
論文 参考訳(メタデータ) (2021-04-14T05:06:59Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z) - NeurAll: Towards a Unified Visual Perception Model for Automated Driving [8.49826472556323]
本稿では,複数のタスクを同時に学習するためのマルチタスクネットワーク設計を提案する。
自動運転システムの主なボトルネックは、デプロイメントハードウェアで利用可能な限られた処理能力である。
論文 参考訳(メタデータ) (2019-02-10T12:45:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。