Fugu-MT 論文翻訳(概要): Matching DNN Compression and Cooperative Training with Resources and Data Availability

論文の概要: Matching DNN Compression and Cooperative Training with Resources and Data Availability

arxiv url: http://arxiv.org/abs/2212.02304v1
Date: Fri, 2 Dec 2022 09:52:18 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-06 19:21:04.799170
Title: Matching DNN Compression and Cooperative Training with Resources and Data Availability
Title（参考訳）: 資源・データ利用によるDNN圧縮と協調訓練のマッチング
Authors: Francesco Malandrino and Giuseppe Di Giacomo and Armin Karamzade and Marco Levorato and Carla Fabiana Chiasserini
Abstract要約: MLモデルをどの程度、いつ圧縮し、どこでトレーニングを実行するべきかをエミュレートするかは、難しい決定です。我々はDNNの訓練に焦点をあてたネットワークシステムをモデル化し、多次元問題を定式化し、近似動的プログラミング問題を定式化する。我々は、PACTの解が所望の最適値に近づくことができることを証明し、時間的複雑さの増大を犠牲にして証明する。
参考スコア（独自算出の注目度）: 20.329698347331075
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: To make machine learning (ML) sustainable and apt to run on the diverse devices where relevant data is, it is essential to compress ML models as needed, while still meeting the required learning quality and time performance. However, how much and when an ML model should be compressed, and {\em where} its training should be executed, are hard decisions to make, as they depend on the model itself, the resources of the available nodes, and the data such nodes own. Existing studies focus on each of those aspects individually, however, they do not account for how such decisions can be made jointly and adapted to one another. In this work, we model the network system focusing on the training of DNNs, formalize the above multi-dimensional problem, and, given its NP-hardness, formulate an approximate dynamic programming problem that we solve through the PACT algorithmic framework. Importantly, PACT leverages a time-expanded graph representing the learning process, and a data-driven and theoretical approach for the prediction of the loss evolution to be expected as a consequence of training decisions. We prove that PACT's solutions can get as close to the optimum as desired, at the cost of an increased time complexity, and that, in any case, such complexity is polynomial. Numerical results also show that, even under the most disadvantageous settings, PACT outperforms state-of-the-art alternatives and closely matches the optimal energy cost.
Abstract（参考訳）: 機械学習(ml)を持続可能とし、関連するデータが存在する多様なデバイス上で動作させるには、必要な学習品質と時間パフォーマンスを満足しつつ、必要に応じてmlモデルを圧縮することが不可欠である。しかしながら、MLモデルがどの程度圧縮されるべきで、そのトレーニングがどこで実行されるかは、モデル自体、利用可能なノードのリソース、そのようなノードが所有するデータに依存するため、決定が難しい。既存の研究はそれぞれの側面に個別に焦点を合わせているが、そのような決定をどう共同で行うかは考慮していない。本研究では,DNNのトレーニングに重点を置いたネットワークシステムをモデル化し,上記の多次元問題を形式化し,NPの硬さを考慮し,PACTアルゴリズムを用いて解く近似動的プログラミング問題を定式化する。重要なのは、pactは学習プロセスを表す時間展開グラフと、トレーニング決定の結果として期待される損失進化を予測するためのデータ駆動および理論的アプローチを活用することだ。我々は PACT の解が所望の最適値に近づくことができることを証明し、時間的複雑性の増大を犠牲にして、そのような複雑さが多項式であることを証明する。数値的な結果は、最も不利な設定でも、pactは最先端の代替案よりも優れており、最適なエネルギーコストと密接に一致することを示している。

関連論文リスト

SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文参考訳（メタデータ） (2025-08-07T03:50:48Z)
Efficient Machine Unlearning via Influence Approximation [75.31015485113993]
インフルエンサーベースのアンラーニングは、個別のトレーニングサンプルがモデルパラメータに与える影響を再トレーニングせずに推定する顕著なアプローチとして現れてきた。本稿では,暗記(増分学習)と忘れ(未学習)の理論的関連性を確立する。本稿では、インフルエンス近似アンラーニングアルゴリズムを導入し、インクリメンタルな視点から効率的なマシンアンラーニングを行う。
論文参考訳（メタデータ） (2025-07-31T05:34:27Z)
Beyond Accuracy Optimization: Computer Vision Losses for Large Language Model Fine-Tuning [9.507070656654632]
大きな言語モデル(LLM)は、様々なタスクで素晴らしいパフォーマンスを示しています。現在のトレーニングアプローチでは、標準的なクロスエントロピー損失と、広範なデータ、人間のフィードバック、あるいはパフォーマンス向上のためのアドホックメソッドを組み合わせる。本研究では,自然言語生成におけるセマンティックセグメンテーションの損失関数を用いた,汎用的で実用的でスケーラブルなソリューションの構築について検討する。
論文参考訳（メタデータ） (2024-09-20T16:46:17Z)
Switchable Decision: Dynamic Neural Generation Networks [98.61113699324429]
本稿では,各データインスタンスのリソースを動的に割り当てることで,推論を高速化するスイッチブルな決定を提案する。提案手法は, 同一の精度を維持しながら, 推論時のコスト低減に有効である。
論文参考訳（メタデータ） (2024-05-07T17:44:54Z)
Combating Missing Modalities in Egocentric Videos at Test Time [92.38662956154256]
現実のアプリケーションは、プライバシの懸念、効率性の必要性、ハードウェアの問題により、不完全なモダリティを伴う問題に直面することが多い。再トレーニングを必要とせずに,テスト時にこの問題に対処する新しい手法を提案する。 MiDlは、欠落したモダリティをテスト時にのみ扱う、自己管理型のオンラインソリューションとしては初めてのものだ。
論文参考訳（メタデータ） (2024-04-23T16:01:33Z)
Dependable Distributed Training of Compressed Machine Learning Models [16.403297089086042]
信頼性のある学習オーケストレーションのためのフレームワークであるDepLを提案する。 i) 学習に活用するデータ、(ii) 使用するモデルと、それらに切り替えるタイミング、(iii) ノードのクラスタとそのリソースについて、高品質で効率的な決定を行う。 DepLの競合比と複雑性は一定であり、最先端技術よりも27%以上向上していることを示す。
論文参考訳（メタデータ） (2024-02-22T07:24:26Z)
A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。 MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文参考訳（メタデータ） (2023-09-02T11:01:16Z)
Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察 ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文参考訳（メタデータ） (2023-06-28T18:14:22Z)
Energy-efficient Training of Distributed DNNs in the Mobile-edge-cloud Continuum [18.247181241860538]
異種ノード群が協調して学習タスクを行うマルチ層ネットワークにおいて,分散機械学習に対処する。本稿では,学習時間と品質要件を満たしつつ,エネルギー効率の高いMLモデルトレーニングを実現するRightTrainというソリューション概念を提案する。評価の結果,RightTrainは最適値と密に一致し,50%以上の性能を達成できた。
論文参考訳（メタデータ） (2022-02-23T08:35:41Z)
Deep Learning with Multiple Data Set: A Weighted Goal Programming Approach [2.7393821783237184]
大規模データ分析は、我々の社会でデータが増大するにつれて、指数的な速度で成長している。ディープラーニングモデルはたくさんのリソースを必要とし、分散トレーニングが必要です。本稿では,分散学習のためのマルチ基準アプローチを提案する。
論文参考訳（メタデータ） (2021-11-27T07:10:25Z)
Dynamic Network-Assisted D2D-Aided Coded Distributed Learning [59.29409589861241]
本稿では,デバイス間のロードバランシングのための新しいデバイス・ツー・デバイス(D2D)支援型符号化学習手法(D2D-CFL)を提案する。最小処理時間を達成するための最適圧縮率を導出し、収束時間との接続を確立する。提案手法は,ユーザが継続的にトレーニングデータを生成するリアルタイム協調アプリケーションに有用である。
論文参考訳（メタデータ） (2021-11-26T18:44:59Z)
Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文参考訳（メタデータ） (2020-02-20T15:00:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。