Fugu-MT 論文翻訳(概要): Comparing the costs of abstraction for DL frameworks

論文の概要: Comparing the costs of abstraction for DL frameworks

arxiv url: http://arxiv.org/abs/2012.07163v1
Date: Sun, 13 Dec 2020 22:00:23 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-09 14:07:38.501112
Title: Comparing the costs of abstraction for DL frameworks
Title（参考訳）: DLフレームワークの抽象化コストの比較
Authors: Maksim Levental, Elena Orlova
Abstract要約: DL(Deep Learning)モデルの実装、トレーニング、テストのための高レベルの抽象化が豊富です。原則的には、そのようなフレームワークは「ゼロコストの抽象化」であり、実際には、翻訳と間接オーバーヘッドが発生します。本稿では,DLモデルの工学的ライフサイクルにおいて,最も高いコストが支払われる点と緩和できる点について検討する。
参考スコア（独自算出の注目度）: 0.15229257192293202
License: http://creativecommons.org/licenses/by/4.0/
Abstract: High level abstractions for implementing, training, and testing Deep Learning (DL) models abound. Such frameworks function primarily by abstracting away the implementation details of arbitrary neural architectures, thereby enabling researchers and engineers to focus on design. In principle, such frameworks could be "zero-cost abstractions"; in practice, they incur translation and indirection overheads. We study at which points exactly in the engineering life-cycle of a DL model the highest costs are paid and whether they can be mitigated. We train, test, and evaluate a representative DL model using PyTorch, LibTorch, TorchScript, and cuDNN on representative datasets, comparing accuracy, execution time and memory efficiency.
Abstract（参考訳）: ディープラーニング(DL)モデルの実装、トレーニング、テストのための高レベルの抽象化。このようなフレームワークは、主に任意のニューラルネットワークアーキテクチャの実装詳細を抽象化することで機能し、研究者やエンジニアが設計に集中できるようにします。原則として、そのようなフレームワークは"ゼロコストの抽象化"であり、実際には、翻訳と間接的なオーバーヘッドを伴います。本稿では,DLモデルの工学的ライフサイクルにおいて,最も高いコストが支払われる点と緩和できる点について検討する。 PyTorch, LibTorch, TorchScript, cuDNNを用いて, 代表的なDLモデルのトレーニング, テスト, 評価を行い, 精度, 実行時間, メモリ効率を比較した。

関連論文リスト

SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文参考訳（メタデータ） (2025-08-07T03:50:48Z)
CITER: Collaborative Inference for Efficient Large Language Model Decoding with Token-Level Routing [56.98081258047281]
Token-lEvel Routing(CITER)との協調推論は、小規模および大規模言語モデルの効率的な協調を可能にするフレームワークである。ルータの学習をポリシー最適化として定式化し、予測の質と生成の推論コストの両方に基づいて報酬を受け取る。実験の結果,CITERは高品質な生成を保ちながら推論コストを低減し,リアルタイムおよびリソース制約のあるアプリケーションに対して有望なソリューションを提供することがわかった。
論文参考訳（メタデータ） (2025-02-04T03:36:44Z)
FTP: A Fine-grained Token-wise Pruner for Large Language Models via Token Routing [17.01412432658081]
大規模言語モデル(LLM)は、法則を拡張することによって、様々なタスクにおいて優れた性能を示す。重要でないトークンを適応的に識別する学習可能なルータを提案する。提案手法は,既存の刈り込み手法を超越して,最先端(SOTA)刈り込み結果を実現する。
論文参考訳（メタデータ） (2024-12-16T07:09:46Z)
EmbedLLM: Learning Compact Representations of Large Language Models [28.49433308281983]
大規模言語モデルのコンパクトなベクトル表現を学習するためのフレームワークである EmbedLLM を提案する。このような埋め込みを学習するためのエンコーダ-デコーダアプローチと,その有効性を評価するための体系的なフレームワークを導入する。 EmbedLLMはモデルルーティングにおいて,精度とレイテンシの両方において,従来の手法よりも優れていた。
論文参考訳（メタデータ） (2024-10-03T05:43:24Z)
An Experimental Design Framework for Label-Efficient Supervised Finetuning of Large Language Models [55.01592097059969]
命令データセットの監視された微調整は、目覚ましいゼロショットの一般化能力を達成する上で重要な役割を担っている。アクティブラーニングは、未ラベルのプールからアノテートするサンプルの有用なサブセットを特定するのに効果的である。本研究では,能動学習の計算ボトルネックを回避するための実験設計を提案する。
論文参考訳（メタデータ） (2024-01-12T16:56:54Z)
Profiling and Improving the PyTorch Dataloader for high-latency Storage: A Technical Report [0.7349727826230862]
この作業は、PyTorch Frameworkのデータロードパイプラインに焦点を当てている。画像などの多数のファイルのロードを伴う分類タスクでは、トレーニングウォールタイムが大幅に改善できることが示される。新たに修正したConcurrentDataloaderを使えば、GPU使用率の改善や、バッチ読み込み時間の最大12倍の大幅な削減が可能になります。
論文参考訳（メタデータ） (2022-11-09T14:16:30Z)
Using Gradient to Boost the Generalization Performance of Deep Learning Models for Fluid Dynamics [0.0]
本稿では,Deep Learningの一般化能力を高めるための新しい研究について述べる。我々の戦略は、DLネットワークのより良い一般化に向けた良い結果を示している。
論文参考訳（メタデータ） (2022-10-09T10:20:09Z)
Shapley-NAS: Discovering Operation Contribution for Neural Architecture Search [96.20505710087392]
ニューラルアーキテクチャ探索のための演算寄与度(Shapley-NAS)を評価するためのShapley値に基づく手法を提案する。提案手法は,光探索コストに比例して最先端の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2022-06-20T14:41:49Z)
Towards Optimal VPU Compiler Cost Modeling by using Neural Networks to Infer Hardware Performances [58.720142291102135]
VPUNN"は低レベルのタスクプロファイリングに基づいてトレーニングされたニューラルネットワークベースのコストモデルである。これは、IntelのVPUプロセッサのラインにおける最先端のコストモデリングよりも一貫して優れている。
論文参考訳（メタデータ） (2022-05-09T22:48:39Z)
Benchmark Assessment for DeepSpeed Optimization Library [1.7839986996686321]
ディープラーニング(DL)モデルは、そのパフォーマンスと大規模なデータセットを扱う能力のために、機械学習で広く使用されている。このようなデータセットのサイズとDLモデルの複雑さは、そのようなモデルが複雑になり、大量のリソースとトレーニング時間を消費する。最近のライブラリやアプリケーションは、DLの複雑さと効率の問題に対処するために導入されている。
論文参考訳（メタデータ） (2022-02-12T04:52:28Z)
Fine-Tuning Data Structures for Analytical Query Processing [0.5156484100374058]
分析ワークロードの効率的な計算を支援するために,データ構造を自動的に選択するフレームワークを提案する。本稿では,クエリ処理パラダイムの背景にあるアルゴリズムを表現可能な,新しい低レベル中間言語を提案する。我々は,我々のフレームワークが生成したコードの性能が,最先端の分析クエリエンジンに匹敵するか,あるいは同等であることを示す。
論文参考訳（メタデータ） (2021-12-24T16:36:35Z)
SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文参考訳（メタデータ） (2021-12-22T14:45:37Z)
PolyDL: Polyhedral Optimizations for Creation of High Performance DL primitives [55.79741270235602]
本稿では,Deep Learningプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。我々は多面体モデルを用いた新しいデータ再利用分析アルゴリズムを開発した。また、このようなハイブリッドコンパイラとライブラリ使用の最小限のアプローチが、最先端のパフォーマンスをもたらすことを示す。
論文参考訳（メタデータ） (2020-06-02T06:44:09Z)
On Coresets for Support Vector Machines [61.928187390362176]
coresetは、元のデータポイントの小さな、代表的なサブセットである。我々は,本アルゴリズムを用いて,既製のSVMソルバをストリーミング,分散,動的データ設定に適用可能であることを示す。
論文参考訳（メタデータ） (2020-02-15T23:25:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。