Fugu-MT 論文翻訳(概要): Saturn: Efficient Multi-Large-Model Deep Learning

論文の概要: Saturn: Efficient Multi-Large-Model Deep Learning

arxiv url: http://arxiv.org/abs/2311.02840v1
Date: Mon, 6 Nov 2023 02:59:49 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-07 15:39:05.439333
Title: Saturn: Efficient Multi-Large-Model Deep Learning
Title（参考訳）: 土星:効率的な多モデル深層学習
Authors: Kabir Nagrecha and Arun Kumar
Abstract要約: まず,ユーザが大規模モデルを構築する上で,3つの重要な相互接続システム課題を特定する。次に、これらを共同問題として形式化し、これらの課題に同時に取り組むために、新しいシステムアーキテクチャを構築します。評価の結果,我々の共同最適化手法は,従来のDLよりも39～49%低いモデル選択実行時間が得られることがわかった。
参考スコア（独自算出の注目度）: 6.377812618046872
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we propose Saturn, a new data system to improve the efficiency of multi-large-model training (e.g., during model selection/hyperparameter optimization). We first identify three key interconnected systems challenges for users building large models in this setting -- parallelism technique selection, distribution of GPUs over jobs, and scheduling. We then formalize these as a joint problem, and build a new system architecture to tackle these challenges simultaneously. Our evaluations show that our joint-optimization approach yields 39-49% lower model selection runtimes than typical current DL practice.
Abstract（参考訳）: 本稿では,マルチモデルトレーニング(モデル選択/ハイパーパラメータ最適化など)の効率を向上させるための新しいデータシステムであるsaturnを提案する。この設定では,並列処理技術の選択,ジョブ上のGPUの分散,スケジューリングという,ユーザが大規模モデルを構築する上で重要な3つのシステム課題を最初に特定する。そして、これらを共同問題として定式化し、これらの課題に同時に取り組むための新しいシステムアーキテクチャを構築します。評価の結果,従来のDLよりも39～49%低いモデル選択実行時間が得られることがわかった。

関連論文リスト

AutoMerge: Search-Based Model Merging Framework for Effective Model Reuse [8.950520457150178]
近年,大規模言語モデル (LLM) の分野において,学習自由なアプローチとしてモデルマージが出現している。このようなアプローチが他のディープラーニングモデルに効果的に適用できるかどうかを体系的に検討する以前の研究はない。 3つの異なるモデルアーキテクチャ上で5つのモデルマージ手法を評価する。
論文参考訳（メタデータ） (2026-01-30T09:27:01Z)
Merging Models on the Fly Without Retraining: A Sequential Approach to Scalable Continual Model Merging [75.93960998357812]
ディープモデルマージ(Deep Modelmerging)は、複数の微調整モデルを組み合わせて、さまざまなタスクやドメインにまたがる能力を活用する、新たな研究方向を示すものだ。現在のモデルマージ技術は、全ての利用可能なモデルを同時にマージすることに集中しており、重量行列に基づく手法が主要なアプローチである。本稿では,モデルを逐次処理するトレーニングフリーなプロジェクションベース連続マージ手法を提案する。
論文参考訳（メタデータ） (2025-01-16T13:17:24Z)
HM3: Hierarchical Multi-Objective Model Merging for Pretrained Models [28.993221775758702]
モデルマージ(英: Model merging)は、複数の大きな事前訓練されたモデルを単一のモデルに組み合わせ、パフォーマンスを向上し、タスク適応性を高める手法である。本稿では,よりフレキシブルで包括的なモデルマージ技術への大きな進歩を示す。我々は、重みベクトルのオフラインサンプリングを用いてポリシーと価値ネットワークを訓練し、マージ戦略のオンライン最適化に使用される。
論文参考訳（メタデータ） (2024-09-27T16:31:31Z)
Applied Federated Model Personalisation in the Industrial Domain: A Comparative Study [5.999474111757664]
この課題に取り組むための3つの戦略は、アクティブラーニング、知識蒸留、局所記憶である。本研究は,これら3つのアプローチの基本原理を考察し,先進的なフェデレートラーニングシステムを提案する。元のモデルと最適化されたモデルの結果は、比較分析を用いて局所的およびフェデレーションされた文脈で比較される。
論文参考訳（メタデータ） (2024-09-10T23:00:19Z)
Efficient Multi-Task Large Model Training via Data Heterogeneity-aware Model Management [35.06717005729781]
最近の基礎モデルは、複数の機械学習(ML)タスクと複数のデータモダリティを統一されたベースモデル構造といくつかの特別なモデルコンポーネントで処理することができる。このようなマルチタスク(MT)マルチモーダル(MM)モデルの開発は、既存のトレーニングシステムに重要なモデル管理課題をもたらす。プロトタイプシステムを構築し,様々な大規模MT MMモデル上で評価する。実験では,最先端のトレーニングシステムと比較して,スピードアップ比が71%まで向上し,システムの性能と効率が向上した。
論文参考訳（メタデータ） (2024-09-05T09:10:40Z)
Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文参考訳（メタデータ） (2024-02-28T08:34:23Z)
Majority Kernels: An Approach to Leverage Big Model Dynamics for Efficient Small Model Training [32.154166415680066]
蒸留、圧縮、量子化といった手法は、高性能な大きなモデルを利用してより小さな性能のモデルを誘導するのに役立つ。本稿では、単一トレーニングランが同時に、より大きなパフォーマンスモデルをトレーニングし、より小さなデプロイメントモデルを導出できるという仮説を考察する。
論文参考訳（メタデータ） (2024-02-07T17:07:41Z)
Saturn: An Optimized Data System for Large Model Deep Learning Workloads [6.377812618046872]
SPASEに取り組む: 並列性を選択し、リソースをアロケートし、スケジューリングする。本研究では,SPASE問題に全体的に取り組むための新しい情報システムアーキテクチャを提案する。また,MILPソルバの直接使用は,複数のベースラインよりも有意に有効であることがわかった。
論文参考訳（メタデータ） (2023-09-03T17:19:11Z)
Learning to Optimize Permutation Flow Shop Scheduling via Graph-based Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文参考訳（メタデータ） (2022-10-31T09:46:26Z)
Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文参考訳（メタデータ） (2022-09-01T10:46:09Z)
Multi-Scale Aligned Distillation for Low-Resolution Detection [68.96325141432078]
本稿では,高分解能モデルや多分解能モデルから知識を抽出することで,低分解能モデルの性能を向上させることに焦点を当てる。いくつかのインスタンスレベルの検出タスクとデータセットにおいて,本手法を用いて訓練された低解像度モデルと,従来のマルチスケールトレーニングによる訓練された高解像度モデルとを競合的に処理する。
論文参考訳（メタデータ） (2021-09-14T12:53:35Z)
Deep Variational Models for Collaborative Filtering-based Recommender Systems [63.995130144110156]
ディープラーニングは、リコメンダシステムの結果を改善するために、正確な協調フィルタリングモデルを提供する。提案するモデルは, 深層建築の潜伏空間において, 変分概念を注入性に適用する。提案手法は, 入射雑音効果を超える変動エンリッチメントのシナリオにおいて, 提案手法の優位性を示す。
論文参考訳（メタデータ） (2021-07-27T08:59:39Z)
Scaling Distributed Deep Learning Workloads beyond the Memory Capacity with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文参考訳（メタデータ） (2020-08-26T07:24:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。