Fugu-MT 論文翻訳(概要): Fine-tuning LLaMA 2 interference: a comparative study of language implementations for optimal efficiency

論文の概要: Fine-tuning LLaMA 2 interference: a comparative study of language implementations for optimal efficiency

arxiv url: http://arxiv.org/abs/2502.01651v1
Date: Thu, 30 Jan 2025 19:36:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-05 15:21:55.376448
Title: Fine-tuning LLaMA 2 interference: a comparative study of language implementations for optimal efficiency
Title（参考訳）: 微細チューニングLLaMA2干渉:最適効率のための言語実装の比較研究
Authors: Sazzad Hossain, Touhidul Alam Seyam, Avijit Chowdhury, Munis Xamidov, Rajib Ghose, Abhijit Pathak,
Abstract要約: PyTorch、Python、Mojo、C++、Javaなど、さまざまなプログラミング言語やフレームワークを評価します。 Apple Silicon上での大規模言語モデル(LLM)推論用に設計された新しいフレームワークであるMojo SDKについて検討する。 Apple M1 Max上で実施した実験では,Mojo SDKの競合性能,使いやすさ,Pythonとのシームレスな互換性が実証された。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper presents a comparative study aimed at optimizing Llama2 inference, a critical aspect of machine learning and natural language processing (NLP). We evaluate various programming languages and frameworks, including TensorFlow, PyTorch, Python, Mojo, C++, and Java, analyzing their performance in terms of speed, memory consumption, and ease of implementation through extensive benchmarking. Strengths and limitations of each approach are highlighted, along with proposed optimization strategies for parallel processing and hardware utilization. Furthermore, we investigate the Mojo SDK, a novel framework designed for large language model (LLM) inference on Apple Silicon, benchmarking its performance against implementations in C, C++, Rust, Zig, Go, and Julia. Our experiments, conducted on an Apple M1 Max, demonstrate Mojo SDK's competitive performance, ease of use, and seamless Python compatibility, positioning it as a strong alternative for LLM inference on Apple Silicon. We also discuss broader implications for LLM deployment on resource-constrained hardware and identify potential directions for future research.
Abstract（参考訳）: 本稿では,機械学習と自然言語処理(NLP)の重要な側面であるLlama2推論の最適化を目的とした比較研究を提案する。 TensorFlow、PyTorch、Python、Mojo、C++、Javaなど、さまざまなプログラミング言語やフレームワークを評価し、そのパフォーマンスを、広範なベンチマークによるスピード、メモリ消費、実装の容易性の観点から分析した。並列処理とハードウェア利用のための最適化戦略の提案とともに、それぞれのアプローチの強みと限界が強調される。さらに、Apple Silicon上での大規模言語モデル(LLM)推論用に設計された新しいフレームワークであるMojo SDKについて検討し、C、C++、Rust、Zig、Go、Juliaの実装に対してパフォーマンスをベンチマークする。 Apple M1 Max上で実施した我々の実験では、Mojo SDKの競合性能、使いやすさ、シームレスなPython互換性を実証し、Apple Silicon上でのLSM推論の強力な代替手段として位置付けています。また、資源制約のあるハードウェア上でのLCMの展開について広範な意味合いを論じ、今後の研究の方向性を明らかにする。

関連論文リスト

Assessing Small Language Models for Code Generation: An Empirical Study with Benchmarks [4.448709087838503]
小型言語モデル(SLM)は、大規模言語モデル(LLM)の軽量で費用対効果の高い代替手段を提供する。本研究では,5つのコード関連ベンチマークにおいて,0.4Bから10Bまでの20個のオープンソースSLMの総合的評価を行った。
論文参考訳（メタデータ） (2025-07-03T20:32:36Z)
SysLLMatic: Large Language Models are Software System Optimizers [2.4416377721219145]
提案するシステムSysLLMaticは,大規模言語モデルとプロファイリング誘導フィードバックとシステム性能の洞察を統合したシステムである。我々は、HumanEval_Bench(C++の競合プログラミング)、SciMark2(Javaの科学的カーネル)、DaCapoBench(Javaの大規模ソフトウェアシステム)の3つのベンチマークスイートで評価した。
論文参考訳（メタデータ） (2025-06-02T01:57:21Z)
AIvaluateXR: An Evaluation Framework for on-Device AI in XR with Benchmarking Results [55.33807002543901]
我々は,XRデバイス上で動作する大規模言語モデル(LLM)をベンチマークするための総合評価フレームワークであるAIvaluateXRを提案する。我々はMagic Leap 2、Meta Quest 3、Vivo X100s Pro、Apple Vision Proという4つのXRプラットフォームに17個の選択されたLSMをデプロイし、広範囲な評価を行います。本稿では,3次元最適性理論に基づく統一評価手法を提案する。
論文参考訳（メタデータ） (2025-02-13T20:55:48Z)
DeepContext: A Context-aware, Cross-platform, and Cross-framework Tool for Performance Profiling and Analysis of Deep Learning Workloads [5.987963635879264]
本稿では,高レベルのPythonコード,ディープラーニングフレームワーク,C/C++で記述された基盤ライブラリ,GPU上で実行されるデバイスコードなど,プログラムコンテキストをリンクする新しいプロファイラであるDeepContextを紹介する。 DeepContextには、PyTorchやJAXといった主要なディープラーニングフレームワークのための粗いパフォーマンスメトリクスときめ細かいパフォーマンスメトリクスの両方が組み込まれています。さらにDeepContextは、ユーザがホットスポットを素早く識別できる新しいGUIと、パフォーマンスメトリクスとプログラムコンテキストに基づいた潜在的な最適化をユーザに提案する革新的な自動パフォーマンスアナライザを統合している。
論文参考訳（メタデータ） (2024-11-05T04:15:26Z)
LLM-Inference-Bench: Inference Benchmarking of Large Language Models on AI Accelerators [1.1028525384019312]
LLM(Large Language Models)は、複数のドメインにまたがる画期的な進歩を推進し、テキスト生成アプリケーションに一般的に使われている。 LLMのハードウェア推論性能を評価するための総合ベンチマークスイートであるLLM-Inference-Benchを紹介する。ベンチマークの結果、さまざまなモデル、ハードウェアプラットフォーム、推論フレームワークの長所と短所が明らかになりました。
論文参考訳（メタデータ） (2024-10-31T18:34:59Z)
A Survey of Small Language Models [104.80308007044634]
小言語モデル (SLM) は, 計算資源の最小化による言語タスクの効率化と性能の向上により, ますます重要になってきている。本稿では,SLMのアーキテクチャ,トレーニング技術,モデル圧縮技術に着目した総合的な調査を行う。
論文参考訳（メタデータ） (2024-10-25T23:52:28Z)
Bridging the Language Gaps in Large Language Models with Inference-Time Cross-Lingual Intervention [71.12193680015622]
大規模言語モデル(LLM)は自然言語処理において顕著な能力を示している。 LLMは異なる言語間で大きな性能差を示す。 Inference-Time Cross-Lingual Intervention (INCLINE) を提案する。
論文参考訳（メタデータ） (2024-10-16T11:23:03Z)
Large Language Model Inference Acceleration: A Comprehensive Hardware Perspective [32.827076621809965]
大規模言語モデル(LLM)は、様々な分野において顕著な能力を示している。 GPTシリーズやLlamaシリーズのようなLLMは、アルゴリズム性能が優れているため、現在主要な焦点となっている。様々なハードウェアプラットフォームは異なるハードウェア特性を示しており、LLM推論性能を向上させるのに役立つ。
論文参考訳（メタデータ） (2024-10-06T12:42:04Z)
Towards Coarse-to-Fine Evaluation of Inference Efficiency for Large Language Models [95.96734086126469]
大規模言語モデル(LLM)は、ユーザが仕事を達成するのを助けるアシスタントとして機能し、高度なアプリケーションの開発をサポートする。 LLMの幅広い応用にとって、推論効率は重要な問題であり、既存の研究で広く研究されている。各種コードライブラリの推論性能の粗大な解析を行う。
論文参考訳（メタデータ） (2024-04-17T15:57:50Z)
CoLLiE: Collaborative Training of Large Language Models in an Efficient Way [59.09824823710863]
CoLLiEは、大規模な言語モデルの協調トレーニングを容易にする効率的なライブラリである。モジュール設計と包括的な機能により、CoLLiEは効率性、使いやすさ、カスタマイズのバランスのとれたブレンドを提供する。
論文参考訳（メタデータ） (2023-12-01T08:02:16Z)
MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文参考訳（メタデータ） (2023-11-14T21:46:27Z)
Dissecting the Runtime Performance of the Training, Fine-tuning, and Inference of Large Language Models [26.2566707495948]
大規模言語モデル(LLM)は、学術と産業の両方で大きく進歩している。我々は,事前学習,微調整,LLMを異なるサイズで提供する場合のエンドツーエンド性能をベンチマークする。次に,LLMにおける計算処理や通信演算子など,サブモジュールの詳細なランタイム解析を行う。
論文参考訳（メタデータ） (2023-11-07T03:25:56Z)
In-context Autoencoder for Context Compression in a Large Language Model [70.7621953091318]
In-context Autoencoder (ICAE) を提案し、長いコンテキストを短いメモリスロットに圧縮する。 ICAEは、大量のテキストデータに基づく自動符号化と言語モデリングの両方の目的を用いて、まず事前訓練を行う。
論文参考訳（メタデータ） (2023-07-13T17:59:21Z)
QIGen: Generating Efficient Kernels for Quantized Inference on Large Language Models [22.055655390093722]
本稿では,LLaMA や OPT などの LLM 上の量子化生成推論をオフザシェルフ CPU 上で支援するための自動コード生成手法を提案する。 LLaMA モデルに対する CPU ベースの推論の結果から,我々のアプローチは,優れたオープンソースソリューションと比較して,高い性能と高い精度をもたらす可能性が示唆された。
論文参考訳（メタデータ） (2023-07-07T17:46:08Z)
Learning Performance-Improving Code Edits [107.21538852090208]
本稿では,大規模言語モデル(LLM)を高レベルプログラム最適化に適用するためのフレームワークを提案する。まず、競争力のある77,000以上のC++プログラミングサブミッションペアによる、人間のプログラマによるパフォーマンス改善編集のデータセットをキュレートする。提案手法は,検索をベースとした少数ショットプロンプトとチェーン・オブ・シンクレットを提案し,その微調整には,自己再生に基づく性能条件付き生成と合成データ拡張が含まれる。
論文参考訳（メタデータ） (2023-02-15T18:59:21Z)
The Benchmark Lottery [114.43978017484893]
ベンチマーク宝くじ」は、機械学習ベンチマークプロセスの全体的な脆弱さを記述している。アルゴリズムの相対的性能は、異なるベンチマークタスクを選択するだけで大幅に変化する可能性がある。
論文参考訳（メタデータ） (2021-07-14T21:08:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。