論文の概要: Federating to Grow Transformers with Constrained Resources without Model Sharing
- arxiv url: http://arxiv.org/abs/2406.13450v1
- Date: Wed, 19 Jun 2024 11:17:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 20:03:05.371150
- Title: Federating to Grow Transformers with Constrained Resources without Model Sharing
- Title(参考訳): モデル共有なしで資源を制限したトランスフォーマー育成への取り組み
- Authors: Shikun Shen, Yifei Zou, Yuan Yuan, Yanwei Zheng, Peng Li, Xiuzhen Cheng, Dongxiao Yu,
- Abstract要約: 本稿では,複数の参加者を対象としたFed-Growというフェデレーションフレームワークについて考察する。
Dual-LiGOでは、Local-LiGO部は、様々な事前学習モデルによって生じる不均一性問題に対処するために使用される。
Global-LiGOの部分は、事前訓練されたモデル、ローカルデータ、参加者のトレーニングプロセスから暗黙の知識を交換するために共有されている。
- 参考スコア(独自算出の注目度): 25.500895295075676
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The high resource consumption of large-scale models discourages resource-constrained users from developing their customized transformers. To this end, this paper considers a federated framework named Fed-Grow for multiple participants to cooperatively scale a transformer from their pre-trained small models. Under the Fed-Grow, a Dual-LiGO (Dual Linear Growth Operator) architecture is designed to help participants expand their pre-trained small models to a transformer. In Dual-LiGO, the Local-LiGO part is used to address the heterogeneity problem caused by the various pre-trained models, and the Global-LiGO part is shared to exchange the implicit knowledge from the pre-trained models, local data, and training process of participants. Instead of model sharing, only sharing the Global-LiGO strengthens the privacy of our approach. Compared with several state-of-the-art methods in simulation, our approach has higher accuracy, better precision, and lower resource consumption on computations and communications. To the best of our knowledge, most of the previous model-scaling works are centralized, and our work is the first one that cooperatively grows a transformer from multiple pre-trained heterogeneous models with the user privacy protected in terms of local data and models. We hope that our approach can extend the transformers to the broadly distributed scenarios and encourage more resource-constrained users to enjoy the bonus taken by the large-scale transformers.
- Abstract(参考訳): 大規模モデルの高リソース消費は、リソース制約のあるユーザがカスタマイズされたトランスフォーマーを開発することを妨げます。
本稿では,複数の参加者が事前学習した小型モデルからトランスフォーマーを協調的にスケールするためのFed-Growというフェデレーションフレームワークについて考察する。
Fed-Growの下では、Dual-LiGO (Dual Linear Growth Operator)アーキテクチャが、事前訓練された小さなモデルをトランスフォーマーに拡張するのに役立つように設計されている。
Dual-LiGOでは、Local-LiGO部は、各種事前学習モデルによる異質性問題に対処するために使用され、Global-LiGO部は、事前訓練されたモデル、ローカルデータ、および参加者のトレーニングプロセスから暗黙的な知識を交換するために共有される。
モデル共有ではなく、Global-LiGOを共有することで、私たちのアプローチのプライバシが強化されます。
シミュレーションにおけるいくつかの最先端手法と比較して,提案手法は精度が高く,精度が良く,計算や通信における資源消費量も少ない。
我々の知る限り、これまでのモデルスケーリングの作業のほとんどは中央集権的であり、我々の研究は、ローカルデータやモデルの観点から保護されたユーザのプライバシを持つ、複数の事前訓練された異種モデルからトランスフォーマーを協調的に成長させた最初のものなのです。
当社のアプローチは,トランスフォーマーを広範囲に分散したシナリオに拡張し,大規模トランスフォーマーによるボーナスを享受できるように,リソース制約の少ないユーザに促すことを期待する。
関連論文リスト
- DFDG: Data-Free Dual-Generator Adversarial Distillation for One-Shot Federated Learning [17.34783038347845]
Federated Learning(FL)は、クライアントがグローバルモデルの協調トレーニングに共同で参加する分散機械学習スキームである。
単発FLのための新しいデータフリー二重発生器逆蒸留法(DFDG)を提案する。
DFDGは対角的に実行され、二重生成子訓練と二重モデル蒸留の2つの部分からなる。
論文 参考訳(メタデータ) (2024-09-12T03:44:30Z) - Decentralized Transformers with Centralized Aggregation are Sample-Efficient Multi-Agent World Models [106.94827590977337]
本稿では,分散化された局所力学を拡張性のために学習するマルチエージェントRL(MARL)の新たな世界モデルを提案する。
また、集中表現アグリゲーションを可能にする効果的なソリューションとしてPerceiver Transformerを導入する。
Starcraft Multi-Agent Challenge (SMAC) の結果は、サンプル効率と全体的な性能の両方において、強力なモデルフリーアプローチと既存のモデルベース手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-06-22T12:40:03Z) - Transformer as Linear Expansion of Learngene [38.16612771203953]
リニア・エクスパンジョン・オブ・ラーニングジェネレーション(TLEG)は多様な深さのトランスフォーマーを柔軟に生成・初期化する新しい手法である。
ImageNet-1Kの実験では、TLEGはスクラッチからトレーニングされた多くの個別モデルと対照的に、同等またはより良いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-12-09T17:01:18Z) - Converting Transformers to Polynomial Form for Secure Inference Over
Homomorphic Encryption [45.00129952368691]
ホモモルフィック暗号化(HE)は、ディープラーニングにおける最も有望なアプローチの1つである。
変換器を用いたHE上でのセキュアな推論のデモンストレーションとして,第1回変換器を紹介する。
我々のモデルは従来の手法に匹敵する結果をもたらし、同様のスケールのトランスフォーマーで性能ギャップを埋め、最先端のアプリケーションでHEが実現可能であることを裏付ける。
論文 参考訳(メタデータ) (2023-11-15T00:23:58Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Learning to Grow Pretrained Models for Efficient Transformer Training [72.20676008625641]
そこでは、より小さなモデルのパラメータを線形にマッピングして、より大きなモデルを初期化する。
言語と視覚のトランスフォーマーをまたいだ実験では、学習した線形成長演算子(LiGO)が、スクラッチから最大50%の計算コストを節約できることが示されています。
論文 参考訳(メタデータ) (2023-03-02T05:21:18Z) - Preference Transformer: Modeling Human Preferences using Transformers
for RL [165.33887165572128]
Preference Transformerは、トランスフォーマーを使用して人間の好みをモデル化するニューラルネットワークである。
そこで,Preference Transformerは,従来のアプローチでは動作しないが,実際の人間の好みを使って様々な制御タスクを解くことができることを示す。
論文 参考訳(メタデータ) (2023-03-02T04:24:29Z) - UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文 参考訳(メタデータ) (2021-01-20T07:24:24Z) - Train Large, Then Compress: Rethinking Model Size for Efficient Training
and Inference of Transformers [94.43313684188819]
本研究では,計算によって制限されたNLPタスクのトランスフォーマーモデルに着目し,モデルサイズの影響について検討する。
まず最初に、より小さなTransformerモデルがイテレーション毎に高速に実行されているにもかかわらず、より広いモデルとより深いモデルがはるかに少ないステップで収束していることを示します。
これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。
論文 参考訳(メタデータ) (2020-02-26T21:17:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。