Fugu-MT 論文翻訳(概要): Improving Parallel Program Performance with LLM Optimizers via Agent-System Interfaces

論文の概要: Improving Parallel Program Performance with LLM Optimizers via Agent-System Interfaces

arxiv url: http://arxiv.org/abs/2410.15625v3
Date: Thu, 29 May 2025 07:53:28 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-30 15:42:32.6109
Title: Improving Parallel Program Performance with LLM Optimizers via Agent-System Interfaces
Title（参考訳）: LLMオプティマイザによるエージェント・システムインタフェースによる並列プログラム性能の向上
Authors: Anjiang Wei, Allen Nie, Thiago S. F. X. Teixeira, Rohan Yadav, Wonchan Lee, Ke Wang, Alex Aiken,
Abstract要約: 並列プログラムのパフォーマンスを改善する上で重要な課題は、タスクをプロセッサやデータに効率的にメモリにマッピングすることだ。生成最適化によるマッパー開発を自動化するフレームワークを提案する。提案手法では,9つのベンチマークで1.34倍の高速化を実現している。
参考スコア（独自算出の注目度）: 9.880183350366792
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Modern scientific discovery increasingly relies on high-performance computing for complex modeling and simulation. A key challenge in improving parallel program performance is efficiently mapping tasks to processors and data to memory, a process dictated by intricate, low-level system code known as mappers. Developing high-performance mappers demands days of manual tuning, posing a significant barrier for domain scientists without systems expertise. We introduce a framework that automates mapper development with generative optimization, leveraging richer feedback beyond scalar performance metrics. Our approach features the Agent-System Interface, which includes a Domain-Specific Language (DSL) to abstract away the low-level complexity of system code and define a structured search space, as well as AutoGuide, a mechanism that interprets raw execution output into actionable feedback. Unlike traditional reinforcement learning methods such as OpenTuner, which rely solely on scalar feedback, our method finds superior mappers in far fewer iterations. With just 10 iterations, it outperforms OpenTuner even after 1000 iterations, achieving 3.8X faster performance. Our approach finds mappers that surpass expert-written mappers by up to 1.34X speedup across nine benchmarks while reducing tuning time from days to minutes.
Abstract（参考訳）: 現代の科学的発見は、複雑なモデリングとシミュレーションのための高性能コンピューティングにますます依存している。並列プログラムのパフォーマンスを改善する上で重要な課題は、タスクをプロセッサやデータに効率的にマッピングすることである。高性能マッパーの開発には手動チューニングの日々が必要であり、システムの専門知識がなくてもドメイン科学者にとって大きな障壁となる。我々は、スカラーパフォーマンスメトリクス以上のリッチなフィードバックを活用することで、生成最適化によるマッパー開発を自動化するフレームワークを紹介します。我々のアプローチでは,ドメイン特化言語(DSL)を含むエージェントシステムインタフェースを特徴とし,システムコードの低レベルな複雑さを抽象化し,構造化された検索空間を定義するとともに,生の実行出力を実行可能なフィードバックに解釈する機構であるAutoGuideも備えています。スカラーフィードバックにのみ依存するOpenTunerのような従来の強化学習手法とは異なり,本手法ではより優れたマッパーをはるかに少ないイテレーションで見つけることができる。わずか10回のイテレーションで、1000回のイテレーションでもOpenTunerを上回り、パフォーマンスは3.8倍に向上した。提案手法では,9つのベンチマークで最大1.34倍の高速化を実現し,チューニング時間を数日から数分に短縮する。

関連論文リスト

A Two-Stage GPU Kernel Tuner Combining Semantic Refactoring and Search-Based Optimization [9.49293344824955]
本稿では,エージェント駆動反復ループ上にテンプレートベースの書き換え層を導入する。提案手法は,実運用負荷に対する自動性能最適化を実現するために拡張することができる。
論文参考訳（メタデータ） (2026-01-19T03:40:12Z)
Bridging the Gap: Empowering Small Models in Reliable OpenACC-based Parallelization via GEPA-Optimized Prompting [0.0]
提案手法は,OpenACC プラグマ生成を最適化する手法である。 OpenACC pragma を付加したプログラムのコンパイル成功率の増加を観察する。
論文参考訳（メタデータ） (2026-01-12T23:54:08Z)
DCO: Dynamic Cache Orchestration for LLM Accelerators through Predictive Management [2.5993532871616027]
本稿では,共有システムレベルのキャッシュとアプリケーション対応管理ポリシを備えたマルチコアAIアクセラレータを提案する。従来のキャッシュアーキテクチャと比較すると,パフォーマンスの大幅な向上(最大1.80倍の高速化)が観察できる。我々の研究は、将来のAIアクセラレータシステムの開発を支援する共有キャッシュ設計の可能性を探るものである。
論文参考訳（メタデータ） (2025-12-08T08:56:10Z)
SWE-fficiency: Can Language Models Optimize Real-World Repositories on Real Workloads? [22.075705411944895]
SWE-fficiencyは、実際のワークロードにおけるリポジトリレベルのパフォーマンス最適化を評価するためのベンチマークである。私たちのスイートには、9つの広く使用されているデータサイエンス、機械学習、HPCリポジトリにわたる498のタスクが含まれています。
論文参考訳（メタデータ） (2025-11-08T17:55:09Z)
xLLM Technical Report [57.13120905321185]
我々は,知的かつ効率的なLarge Language Model (LLM)推論フレームワークであるxLLMを紹介する。 xLLMは、新しい分離されたサービスエンジンアーキテクチャを構築する。 xLLM-Engineは、システムとアルゴリズムの設計を最適化し、コンピュータリソースを完全に飽和させる。
論文参考訳（メタデータ） (2025-10-16T13:53:47Z)
LOP: Learning Optimal Pruning for Efficient On-Demand MLLMs Scaling [52.1366057696919]
LOPは、ターゲットプルーニング制約から最適なプルーニング戦略を学ぶ、効率的なニューラルプルーニングフレームワークである。 LOPアプローチでは、自動回帰ニューラルネットワーク(NN)を使用して、ターゲットプルーニング制約に適応したレイヤワイズプルーニング戦略を直接予測する。実験の結果,LOPは最大3桁のスピードアップを達成しつつ,様々な測定値において最先端のプルーニング手法よりも優れていた。
論文参考訳（メタデータ） (2025-06-15T12:14:16Z)
SysLLMatic: Large Language Models are Software System Optimizers [2.4416377721219145]
提案するシステムSysLLMaticは,大規模言語モデルとプロファイリング誘導フィードバックとシステム性能の洞察を統合したシステムである。我々は、HumanEval_Bench(C++の競合プログラミング)、SciMark2(Javaの科学的カーネル)、DaCapoBench(Javaの大規模ソフトウェアシステム)の3つのベンチマークスイートで評価した。
論文参考訳（メタデータ） (2025-06-02T01:57:21Z)
Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文参考訳（メタデータ） (2025-05-28T14:03:02Z)
ZeroLM: Data-Free Transformer Architecture Search for Language Models [54.83882149157548]
現在の自動プロキシ発見アプローチは、検索時間の拡張、データの過度なオーバーフィットへの感受性、構造的な複雑さに悩まされている。本稿では,効率的な重み統計によるモデルキャパシティの定量化を目的とした,新しいゼロコストプロキシ手法を提案する。本評価は,FlexiBERT ベンチマークで Spearman's rho 0.76 と Kendall's tau 0.53 を達成し,このアプローチの優位性を示すものである。
論文参考訳（メタデータ） (2025-03-24T13:11:22Z)
Fake Runs, Real Fixes -- Analyzing xPU Performance Through Simulation [4.573673188291683]
機械コードレベルでMLモデルを分析するための詳細な方法論であるxPU-Sharkを提案する。 xPU-Sharkは、アクセラレータ上で動作する運用デプロイメントのトレースをキャプチャして、修正されたマイクロアーキテクチャシミュレータで再生する。共通通信集合を最大15%まで最適化し、トークン生成遅延を最大4.1%削減する。
論文参考訳（メタデータ） (2025-03-18T23:15:02Z)
LLM-based Optimization of Compound AI Systems: A Survey [64.39860384538338]
複合AIシステムでは、LLMコール、レトリバー、コードインタプリタ、ツールなどのコンポーネントが相互接続される。近年の進歩により, LLM を用いたパラメータのエンドツーエンド最適化が可能となった。本稿では,複合AIシステムのLCMに基づく最適化の原理と動向について述べる。
論文参考訳（メタデータ） (2024-10-21T18:06:25Z)
In-the-loop Hyper-Parameter Optimization for LLM-Based Automated Design of Heuristics [0.020482269513546456]
大規模言語モデル(LLM)は、(メタ)ヒューリスティックを自動的に生成し最適化する大きな可能性を示している。本稿では,オープンソースのLLaMEAフレームワークとハイパー進化最適化(HPO)手法を統合した新しいハイブリッドアプローチであるLLaMEA-HPOを提案する。
論文参考訳（メタデータ） (2024-10-07T14:04:31Z)
AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML [56.565200973244146]
自動機械学習(Automated Machine Learning, ML)は、開発パイプライン内のタスクを自動化することによって、AI開発を加速する。近年の作業では,そのような負担を軽減するために,大規模言語モデル(LLM)の利用が始まっている。本稿では,フルパイプのAutoMLに適した新しいマルチエージェントフレームワークであるAutoML-Agentを提案する。
論文参考訳（メタデータ） (2024-10-03T20:01:09Z)
Enabling Efficient On-Device Fine-Tuning of LLMs Using Only Inference Engines [17.539008562641303]
大規模言語モデル(LLM)は現在、大規模なクラウドサーバ上で事前トレーニングされ、微調整されている。次のフロンティアはLLMパーソナライズであり、ファンデーションモデルをユーザ/タスク固有のデータで微調整することができる。リソース制約のあるエッジデバイスの微調整は、かなりのメモリと計算要求のために大きな課題となる。
論文参考訳（メタデータ） (2024-09-23T20:14:09Z)
Archon: An Architecture Search Framework for Inference-Time Techniques [31.655124464284523]
Archonは推論時のテクニックのレイヤを選択し、組み合わせ、積み重ねるためのフレームワークである。我々は,Archonアーキテクチャを,命令フォロー,推論,コーディングベンチマークの範囲で評価する。
論文参考訳（メタデータ） (2024-09-23T17:53:42Z)
Automatic Generation of Fast and Accurate Performance Models for Deep Neural Network Accelerators [33.18173790144853]
本稿では,Deep Neural Networks (DNN) のレイテンシを正確に推定する高速性能モデルのための自動生成手法を提案する。我々は、Gemmini、UltraTrail、Plastinine由来、パラメータ化可能なシストリックアレイなどの代表的DNNアクセラレータをモデル化した。ループカーネルを154回繰り返して評価し,419億命令のパフォーマンスを推定し,大幅な高速化を実現した。
論文参考訳（メタデータ） (2024-09-13T07:27:55Z)
Rome was Not Built in a Single Step: Hierarchical Prompting for LLM-based Chip Design [22.70660876673987]
大言語モデル(LLM)は、ハードウェア記述言語(HDL)生成によるコンピュータハードウェア合成に有効である。しかし、複雑なタスクを扱う場合のHDL生成にLLMが支援するアプローチは難しかった。本稿では,効率的なステップワイズ設計手法を実現する階層的プロンプト手法について紹介する。
論文参考訳（メタデータ） (2024-07-23T21:18:31Z)
Inference Optimization of Foundation Models on AI Accelerators [68.24450520773688]
トランスフォーマーアーキテクチャを備えた大規模言語モデル(LLM)を含む強力な基礎モデルは、ジェネレーティブAIの新たな時代を支えている。モデルパラメータの数が数十億に達すると、実際のシナリオにおける推論コストと高いレイテンシーが排除される。このチュートリアルでは、AIアクセラレータを用いた補完推論最適化テクニックに関する包括的な議論を行っている。
論文参考訳（メタデータ） (2024-07-12T09:24:34Z)
Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文参考訳（メタデータ） (2024-06-24T15:55:59Z)
Iterative or Innovative? A Problem-Oriented Perspective for Code Optimization [81.88668100203913]
大規模言語モデル(LLM)は、幅広いプログラミングタスクを解く上で強力な能力を示している。本稿では,パフォーマンス向上に着目したコード最適化について検討する。
論文参考訳（メタデータ） (2024-06-17T16:10:10Z)
Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark [166.40879020706151]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文参考訳（メタデータ） (2024-02-18T14:08:48Z)
Guided Evolution with Binary Discriminators for ML Program Search [64.44893463120584]
プログラムのペアがどのプログラムの方が優れているかを識別するために、オンラインで訓練された二項判別器による指導進化を提案する。本稿では,MLの記号探索における3.7倍の高速化,RL損失関数の4倍の高速化など,様々な問題に対する進化の高速化を実証する。
論文参考訳（メタデータ） (2024-02-08T16:59:24Z)
Can LLMs Configure Software Tools [0.76146285961466]
ソフトウェア工学では、複雑なシステム内での最適なパフォーマンスを確保するためには、ソフトウェアツールの精巧な構成が不可欠である。本研究では,Large-Language Models (LLMs) を利用したソフトウェア構成プロセスの合理化について検討する。本研究は,Chat-GPTなどのLCMを用いて,開始条件を特定し,検索空間を狭め,構成効率を向上する手法を提案する。
論文参考訳（メタデータ） (2023-12-11T05:03:02Z)
CRAFT: Customizing LLMs by Creating and Retrieving from Specialized Toolsets [75.64181719386497]
大規模言語モデル(LLM)のためのツール作成・検索フレームワークであるCRAFTを提案する。タスク用に特別にキュレートされたツールセットを作成し、複雑なタスクを解決する能力を高めるためにこれらのセットからツールを取得するコンポーネントをLLMに装備する。本手法はフレキシブルに設計されており,既製のLCMを細かな調整なしに未確認領域やモダリティに適応するためのプラグアンドプレイ方式を提供する。
論文参考訳（メタデータ） (2023-09-29T17:40:26Z)
Learning Performance-Improving Code Edits [107.21538852090208]
本稿では,大規模言語モデル(LLM)を高レベルプログラム最適化に適用するためのフレームワークを提案する。まず、競争力のある77,000以上のC++プログラミングサブミッションペアによる、人間のプログラマによるパフォーマンス改善編集のデータセットをキュレートする。提案手法は,検索をベースとした少数ショットプロンプトとチェーン・オブ・シンクレットを提案し,その微調整には,自己再生に基づく性能条件付き生成と合成データ拡張が含まれる。
論文参考訳（メタデータ） (2023-02-15T18:59:21Z)
Multi-Agent Reinforcement Learning for Microprocessor Design Space Exploration [71.95914457415624]
マイクロプロセッサアーキテクトは、高性能でエネルギー効率の追求において、ドメイン固有のカスタマイズにますます頼っている。この問題に対処するために,Multi-Agent RL (MARL) を利用した別の定式化を提案する。評価の結果,MARLの定式化は単エージェントRLのベースラインよりも一貫して優れていた。
論文参考訳（メタデータ） (2022-11-29T17:10:24Z)
Data-Driven Offline Optimization For Architecting Hardware Accelerators [89.68870139177785]
PRIMEと呼ばれるハードウェアアクセラレータを設計するための,データ駆動型オフライン最適化手法を開発した。 PRIMEは、最先端のシミュレーション駆動方式の性能を約1.54倍と1.20倍に改善し、必要な総シミュレーション時間をそれぞれ93%と99%削減する。さらにPRIMEは、ゼロショット設定で見えないアプリケーションのための効果的なアクセラレーターを設計し、シミュレーションベースの手法を1.26倍に向上させた。
論文参考訳（メタデータ） (2021-10-20T17:06:09Z)
Woodpecker-DL: Accelerating Deep Neural Networks via Hardware-Aware Multifaceted Optimizations [15.659251804042748]
Woodpecker-DL (WPK) はハードウェア対応のディープラーニングフレームワークである。 WPKは、グラフ最適化、自動検索、ドメイン固有言語(DSL)、システムレベルの探索を使って推論を高速化する。最大P100 GPUでは、cuDNNが5.40、TVMが1.63、エンドツーエンドモデル推論がTeslaRTより1.18倍高速であることを示す。
論文参考訳（メタデータ） (2020-08-11T07:50:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。