Fugu-MT 論文翻訳(概要): Improving Inference Performance of Machine Learning with the Divide-and-Conquer Principle

論文の概要: Improving Inference Performance of Machine Learning with the Divide-and-Conquer Principle

arxiv url: http://arxiv.org/abs/2301.05099v1
Date: Thu, 12 Jan 2023 15:55:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-13 14:00:52.715788
Title: Improving Inference Performance of Machine Learning with the Divide-and-Conquer Principle
Title（参考訳）: 分割・分割原理による機械学習の推論性能の向上
Authors: Alex Kogan
Abstract要約: 多くの一般的な機械学習モデルは、CPUにデプロイすると、スケールが悪くなります。本稿では,この問題に対処するための分枝・分枝原理に基づく,単純かつ効果的なアプローチを提案する。人気の高いOnnxRuntimeフレームワークでこのアイデアを実装し、いくつかのユースケースでその有効性を評価します。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Many popular machine learning models scale poorly when deployed on CPUs. In this paper we explore the reasons why and propose a simple, yet effective approach based on the well-known Divide-and-Conquer Principle to tackle this problem of great practical importance. Given an inference job, instead of using all available computing resources (i.e., CPU cores) for running it, the idea is to break the job into independent parts that can be executed in parallel, each with the number of cores according to its expected computational cost. We implement this idea in the popular OnnxRuntime framework and evaluate its effectiveness with several use cases, including the well-known models for optical character recognition (PaddleOCR) and natural language processing (BERT).
Abstract（参考訳）: 多くの一般的な機械学習モデルは、CPUにデプロイすると、スケールが悪くなります。本稿では,この課題に対処するために,よく知られたDivide-and-Conquer Principleに基づく,シンプルで効果的なアプローチを提案する。推論ジョブが与えられた場合、実行するために利用可能なすべてのコンピューティングリソース(CPUコア)を使用する代わりに、ジョブを並列に実行できる独立した部分に分割し、それぞれが期待される計算コストに応じてコア数を割り当てる。 OnnxRuntimeフレームワークでこのアイデアを実装し,光文字認識(PaddleOCR)や自然言語処理(BERT)など,いくつかのユースケースで有効性を評価する。

関連論文リスト

Efficient Machine Unlearning via Influence Approximation [75.31015485113993]
インフルエンサーベースのアンラーニングは、個別のトレーニングサンプルがモデルパラメータに与える影響を再トレーニングせずに推定する顕著なアプローチとして現れてきた。本稿では,暗記(増分学習)と忘れ(未学習)の理論的関連性を確立する。本稿では、インフルエンス近似アンラーニングアルゴリズムを導入し、インクリメンタルな視点から効率的なマシンアンラーニングを行う。
論文参考訳（メタデータ） (2025-07-31T05:34:27Z)
A projection-based framework for gradient-free and parallel learning [50.96641619247761]
私たちはこのパラダイムを実現するJAXベースのソフトウェアフレームワークであるPJAXを紹介します。 PJAXは基本演算に対する射影演算子を構成し、実現可能性問題に対する解演算子を自動的に導出する。各種アーキテクチャ(MLP、CNN、RNN)を標準ベンチマークでPJAXを用いてトレーニングし、その汎用性を実証する。
論文参考訳（メタデータ） (2025-06-06T08:44:56Z)
NNTile: a machine learning framework capable of training extremely large GPT language models on a single node [83.9328245724548]
NNTileはタスクベースの並列処理を実装したStarPUライブラリをベースとしている。これは、大きなニューラルネットワークをトレーニングするために必要な特定の操作が、CPUコアまたはGPUデバイスのいずれかで実行されることを意味する。
論文参考訳（メタデータ） (2025-04-17T16:22:32Z)
Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.43407125275202]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文参考訳（メタデータ） (2024-12-30T18:55:12Z)
Pruning All-Rounder: Rethinking and Improving Inference Efficiency for Large Vision Language Models [42.124670377223175]
我々は Pruning All-Rounder (PAR) と呼ばれる推論加速のための新しいフレームワークを提案する。自己教師付き学習方式により,提案手法は性能と効率のバランスが良好である。特にPARは柔軟であり,複数のプルーニングバージョンを提供し,様々なプルーニングシナリオに対処する。
論文参考訳（メタデータ） (2024-12-09T13:02:35Z)
Benchmarking Predictive Coding Networks -- Made Simple [48.652114040426625]
まず,性能と簡易性を重視したPCXというライブラリを提案する。私たちはPCXを使って、コミュニティが実験に使用する大規模なベンチマークを実装しています。
論文参考訳（メタデータ） (2024-07-01T10:33:44Z)
Scalable Federated Unlearning via Isolated and Coded Sharding [76.12847512410767]
フェデレートされたアンラーニングは、クライアントレベルのデータエフェクトを削除するための有望なパラダイムとして登場した。本稿では,分散シャーディングと符号化コンピューティングに基づく,スケーラブルなフェデレーション・アンラーニング・フレームワークを提案する。
論文参考訳（メタデータ） (2024-01-29T08:41:45Z)
Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文参考訳（メタデータ） (2023-06-25T02:39:19Z)
Efficient Prompting via Dynamic In-Context Learning [76.83516913735072]
ブラックボックスジェネリストモデルを用いた効率的なプロンプト法であるDynaICLを提案する。 DynaICLは入力複雑性と計算予算に応じてコンテキスト内の例を動的に割り当てる。 DynaICLは、各入力に同じテキスト内サンプルを割り当てる一般的な慣行と比較して、最大46%のトークン予算を節約している。
論文参考訳（メタデータ） (2023-05-18T17:58:31Z)
Matched Machine Learning: A Generalized Framework for Treatment Effect Inference With Learned Metrics [87.05961347040237]
我々は、機械学習ブラックボックスの柔軟性とマッチングの解釈可能性を組み合わせたフレームワークであるMatched Machine Learningを紹介する。我々のフレームワークは機械学習を用いて、一致した単位を学習し、結果を推定する最適な指標を学習する。一致機械学習のインスタンスはブラックボックスの機械学習手法と同等に動作し、類似した問題に対する既存のマッチング手法よりも優れていることを実証的に示す。
論文参考訳（メタデータ） (2023-04-03T19:32:30Z)
Towards a learning-based performance modeling for accelerating Deep Neural Networks [1.1549572298362785]
我々は、畳み込みニューラルネットワーク(CNN)を最適化するために、機械学習技術に基づく予測モデルの調査を開始する。 MidgardベースのARM Mali GPUの予備実験では、我々の予測モデルはライブラリが手作業で選択したすべての畳み込み演算子よりも優れていた。
論文参考訳（メタデータ） (2022-12-09T18:28:07Z)
Efficient Sub-structured Knowledge Distillation [52.5931565465661]
定式化においてよりシンプルで,既存のアプローチよりもはるかに効率的にトレーニングできるアプローチを提案する。教師モデルから学生モデルへの知識の伝達は、出力空間全体ではなく、すべてのサブ構造上の予測を局所的に一致させることで行う。
論文参考訳（メタデータ） (2022-03-09T15:56:49Z)
Efficient Inference via Universal LSH Kernel [35.22983601434134]
本稿では,単純なハッシュ計算と集約で推論手順を近似できる数列の簡潔な集合である,数学的に証明可能なRepresenter Sketchを提案する。 Representer Sketchは、カーネル文学から人気のあるRepresenter Theoremの上に構築されている。本研究では,Representer Sketchによるストレージ要件の最大114倍,複雑性の最大59倍を精度の低下なく達成できることを示す。
論文参考訳（メタデータ） (2021-06-21T22:06:32Z)
Fast Object Segmentation Learning with Kernel-based Methods for Robotics [21.48920421574167]
オブジェクトセグメンテーションは、把握やオブジェクト操作といったタスクを実行するロボットの視覚システムにおいて重要なコンポーネントである。本稿では,オブジェクトセグメンテーションのための新しいアーキテクチャを提案する。これはこの問題を克服し,最先端の手法で必要とされる時間に匹敵する性能を提供する。本手法はコンピュータビジョンとロボティクスのコミュニティで広く採用されているYCB-Videoデータセットで検証されている。
論文参考訳（メタデータ） (2020-11-25T15:07:39Z)
Optimizing Streaming Parallelism on Heterogeneous Many-Core Architectures: A Machine Learning Based Approach [16.702537371391053]
本稿では、異種多コアアーキテクチャ上のタスクベース並列アプリケーションにおいて、ハードウェアリソース分割とタスク粒度に関する優れたソリューションを導出する自動手法を提案する。提案手法では,与えられたリソース分割とタスクの粒度設定に基づいて,対象アプリケーションの結果のパフォーマンスを推定するために,性能モデルを用いる。シングルストリームバージョンと比較すると,XeonPhiとGPUプラットフォームでそれぞれ1.6倍,1.1倍の高速化を実現している。
論文参考訳（メタデータ） (2020-03-05T21:18:21Z)
An Advance on Variable Elimination with Applications to Tensor-Based Computation [11.358487655918676]
本稿では,確率的推論を含む多くのアルゴリズムの基盤となる可変除去の古典的アルゴリズムについて述べる。結果は機能的依存関係の活用に関連しており、非常に大きなツリー幅を持つモデルで推論と学習を効率的に行うことができる。
論文参考訳（メタデータ） (2020-02-21T14:17:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。