論文の概要: Flextron: Many-in-One Flexible Large Language Model
- arxiv url: http://arxiv.org/abs/2406.10260v2
- Date: Wed, 28 Aug 2024 17:26:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-29 20:38:57.906951
- Title: Flextron: Many-in-One Flexible Large Language Model
- Title(参考訳): Flextron: マルチインワンのフレキシブルな大言語モデル
- Authors: Ruisi Cai, Saurav Muralidharan, Greg Heinrich, Hongxu Yin, Zhangyang Wang, Jan Kautz, Pavlo Molchanov,
- Abstract要約: 我々は,フレキシブルモデル展開をサポートするネットワークアーキテクチャとポストトレーニングモデル最適化フレームワークであるFlextronを紹介する。
本稿では,既存の学習用LDMをFlextronモデルに変換するための,サンプル効率のよいトレーニング手法と関連するルーティングアルゴリズムを提案する。
我々は、複数のエンドツーエンドトレーニングされた変種や他の最先端の弾性ネットワークよりも優れた性能を示し、これらは全て、オリジナルの事前訓練と比較してわずか7.63%のトークンを消費する単一の事前訓練ランで実現している。
- 参考スコア(独自算出の注目度): 85.93260172698398
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Training modern LLMs is extremely resource intensive, and customizing them for various deployment scenarios characterized by limited compute and memory resources through repeated training is impractical. In this paper, we introduce Flextron, a network architecture and post-training model optimization framework supporting flexible model deployment. The Flextron architecture utilizes a nested elastic structure to rapidly adapt to specific user-defined latency and accuracy targets during inference with no additional fine-tuning required. It is also input-adaptive, and can automatically route tokens through its sub-networks for improved performance and efficiency. We present a sample-efficient training method and associated routing algorithms for systematically transforming an existing trained LLM into a Flextron model. We evaluate Flextron on the GPT-3 and LLama-2 family of LLMs, and demonstrate superior performance over multiple end-to-end trained variants and other state-of-the-art elastic networks, all with a single pretraining run that consumes a mere 7.63% tokens compared to original pretraining.
- Abstract(参考訳): 現代のLSMのトレーニングは非常にリソース集約的であり、反復的なトレーニングを通じて限られた計算資源とメモリ資源によって特徴づけられる様々な展開シナリオをカスタマイズするのは現実的ではない。
本稿では,フレキシブルモデル展開をサポートするネットワークアーキテクチャとポストトレーニングモデル最適化フレームワークであるFlextronを紹介する。
Flextronアーキテクチャはネストされた弾性構造を利用して、追加の微調整を必要とせず、推論中に特定のユーザ定義のレイテンシと精度ターゲットに迅速に適応する。
入力適応性も備えており、トークンをサブネットワーク経由で自動的にルーティングすることで、パフォーマンスと効率を向上させることができる。
本稿では,既存のLLMをFlextronモデルに体系的に変換する,サンプル効率のよい学習手法と関連するルーティングアルゴリズムを提案する。
我々は,LPMのGPT-3およびLLama-2ファミリ上でFlextronを評価し,複数のエンドツーエンドトレーニングされた変種や他の最先端の弾性ネットワークよりも優れた性能を示す。
関連論文リスト
- AmoebaLLM: Constructing Any-Shape Large Language Models for Efficient and Instant Deployment [13.977849745488339]
AmoebaLLMは任意の形状の大規模言語モデルの即時導出を可能にする新しいフレームワークである。
AmoebaLLMは、様々なプラットフォームやアプリケーションに適した迅速なデプロイメントを著しく促進する。
論文 参考訳(メタデータ) (2024-11-15T22:02:28Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - Modality Plug-and-Play: Elastic Modality Adaptation in Multimodal LLMs
for Embodied AI [10.82017289243097]
LLM(Large Language Models)は、事前訓練されたエンコーダを通じて様々な入力データモダリティを推論することができる。
m-LLMは、既存の最良のスキームと比較してタスクの精度を最大4%改善する。
論文 参考訳(メタデータ) (2023-12-13T04:08:59Z) - CoLLiE: Collaborative Training of Large Language Models in an Efficient
Way [59.09824823710863]
CoLLiEは、大規模な言語モデルの協調トレーニングを容易にする効率的なライブラリである。
モジュール設計と包括的な機能により、CoLLiEは効率性、使いやすさ、カスタマイズのバランスのとれたブレンドを提供する。
論文 参考訳(メタデータ) (2023-12-01T08:02:16Z) - FlexTrain: A Dynamic Training Framework for Heterogeneous Devices
Environments [12.165263783903216]
FlexTrainは、トレーニングフェーズ中にさまざまなデバイスで利用可能な多様なストレージと計算リソースに対応するフレームワークである。
CIFAR-100データセットにおけるFlexTrainの有効性を示す。
論文 参考訳(メタデータ) (2023-10-31T13:51:13Z) - Tutel: Adaptive Mixture-of-Experts at Scale [20.036168971435306]
深層学習モデルを数兆以上のパラメータに拡張するために、計算コストを固定化するために、疎ゲート混合(MoE)が広く採用されている。
我々は、動的適応並列性とパイプライン化を備えたMoEのための高度にスケーラブルなスタック設計と実装であるFlexを紹介します。
我々の評価では、Flexは、最先端のコンピュータビジョンアーキテクチャであるSwin Transformer V2上に構築された実世界のMoEベースのモデルSwinV2-MoEを効率的に効率的に実行している。
論文 参考訳(メタデータ) (2022-06-07T15:20:20Z) - Efficient Split-Mix Federated Learning for On-Demand and In-Situ
Customization [107.72786199113183]
フェデレートラーニング(FL)は、複数の参加者が生データを共有せずに学習をコラボレーションするための分散ラーニングフレームワークを提供する。
本稿では, モデルサイズとロバスト性をその場でカスタマイズできる, 不均一な参加者のための新しいスプリット・ミクス・FL戦略を提案する。
論文 参考訳(メタデータ) (2022-03-18T04:58:34Z) - Edge-assisted Democratized Learning Towards Federated Analytics [67.44078999945722]
本稿では,エッジ支援型民主化学習機構であるEdge-DemLearnの階層的学習構造を示す。
また、Edge-DemLearnを柔軟なモデルトレーニングメカニズムとして検証し、リージョンに分散制御と集約の方法論を構築する。
論文 参考訳(メタデータ) (2020-12-01T11:46:03Z) - FlexSA: Flexible Systolic Array Architecture for Efficient Pruned DNN
Model Training [1.718730454558804]
一般的なトレーニングアクセラレーターを大きなシストリックアレイでプルーニングすることは、非常に性能的に非効率であることがわかった。
本研究では,シストリックアレイを効率的なプルーニングとトレーニングを行うために,フレキシブルなシストリックアレイアーキテクチャであるFlexSAを提案する。
また、FlexSAのリソースを最大限活用するために、トレーニング作業負荷における行列乗算および累積演算のコンパイルを提案する。
論文 参考訳(メタデータ) (2020-04-27T15:51:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。