論文の概要: An Effectively $Ω(c)$ Language and Runtime
- arxiv url: http://arxiv.org/abs/2409.20494v1
- Date: Mon, 30 Sep 2024 16:57:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-02 05:36:48.591675
- Title: An Effectively $Ω(c)$ Language and Runtime
- Title(参考訳): 事実上$Ω(c)$言語と実行時
- Authors: Mark Marron,
- Abstract要約: アプリケーションの優れたパフォーマンスは、概念的にはバイナリ関数以上のものです。
私たちのビジョンは、パフォーマンスにおいて$Omega(c)$として設計された言語とランタイムを作ることです。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The performance of an application/runtime is usually thought of as a continuous function where, the lower the amount of memory/time used on a given workload, then the better the compiler/runtime is. However, in practice, good performance of an application is conceptually more of a binary function -- either the application responds in under, say 100ms, and is fast enough for a user to barely notice, or it takes a noticeable amount of time, leaving the user waiting and potentially abandoning the task. Thus, performance really means how often the application is fast enough to be usable, leading industrial developers to focus on the 95th and 99th percentile latencies as heavily, or moreso, than average response time. Unfortunately, tracking and optimizing for these high percentile latencies is difficult and often requires a deep understanding of the application, runtime, GC, and OS interactions. This is further complicated by the fact that tail performance is often only seen occasionally, and is specific to a certain workload or input, making these issues uniquely painful to handle. Our vision is to create a language and runtime that is designed to be $\Omega(c)$ in its performance -- that is, it is designed to have an effectively constant time to execute all operations, there is a constant fixed memory overhead for the application footprint, and the garbage-collector performs a constant amount of work per allocation + a (small) bounded pause for all collection/release operations.
- Abstract(参考訳): アプリケーション/ランタイムのパフォーマンスは通常、特定のワークロードで使用されるメモリ/時間の量を減らすほど、コンパイラ/ランタイムが良くなる、連続的な関数として考えられている。
しかし、実際には、アプリケーションの優れたパフォーマンスは、概念上はバイナリ関数である - アプリケーションが下位で応答する、例えば100ms以下で、ユーザがほとんど気づかないほど速いか、あるいは、注意深い時間を要する。そこで、パフォーマンスは、ユーザがタスクを待機して、潜在的にタスクを放棄する可能性があることを意味している。そこで、産業開発者は、平均応答時間よりも95番目と99%のレイテンシに注目する。不幸なことに、これらの高いパーセンタイルレイテンシの追跡と最適化は困難で、しばしばアプリケーション、ランタイム、GC、OSのインタラクションの深い理解を必要とする。これは、テールパフォーマンスが時々のみ見られるという事実によってさらに複雑で、特定の作業や特定のインプットに特化しているという事実により、特定のタスクを処理し、ランタイムのビジョンを作成することが困難である。
関連論文リスト
- vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - Compass: A Decentralized Scheduler for Latency-Sensitive ML Workflows [0.792324422300924]
我々は、GPU対応のワーカが協調して複雑なクエリを実行する分散システムにおけるMLクエリ処理について検討する。
このようなシステムでは、GPUメモリ管理とタスク配置の共スケジューリングが有望な機会である。
資源を効率的に利用しながら、仕事の遅延を軽減するためにこれらの機能を統一する新しいフレームワークであるCompassを提案する。
論文 参考訳(メタデータ) (2024-02-27T16:21:28Z) - RelayAttention for Efficient Large Language Model Serving with Long System Prompts [59.50256661158862]
本稿では,長いシステムプロンプトを含むLCMサービスの効率を向上させることを目的とする。
これらのシステムプロンプトの処理には、既存の因果注意アルゴリズムにおいて、大量のメモリアクセスが必要である。
本稿では,DRAMから入力トークンのバッチに対して,DRAMから隠れた状態を正確に1回読み取ることのできるアテンションアルゴリズムであるRelayAttentionを提案する。
論文 参考訳(メタデータ) (2024-02-22T18:58:28Z) - BTR: Binary Token Representations for Efficient Retrieval Augmented Language Models [77.0501668780182]
Retrieval augmentationは、大規模言語モデルにおける多くの重要な問題に対処する。
検索拡張言語モデル(LM)の実行は遅く、大量の検索されたテキストを処理するため、スケールが困難である。
1ビットベクトルを用いて各トークンを前処理するバイナリトークン表現(BTR)を導入する。
論文 参考訳(メタデータ) (2023-10-02T16:48:47Z) - Introducing Language Guidance in Prompt-based Continual Learning [95.03110230754423]
本稿では,Prompt-based Continual Learning (LGCL) のための言語指導手法を提案する。
LGCLは、新しい最先端技術を設定するために、プロンプトベースの連続学習手法の性能を一貫して改善する。
論文 参考訳(メタデータ) (2023-08-30T08:03:49Z) - CHERI Performance Enhancement for a Bytecode Interpreter [0.0]
我々は、ネイティブポインタ(一般に64ビット)と比較して、CHERI機能(128ビット)が大きいため、ある種類のソフトウェアが引き起こすランタイムオーバーヘッドを取り除くことができることを示す。
最悪の場合のスローダウンは100倍(最適化前)から2倍(最適化後)まで大幅に改善される。
論文 参考訳(メタデータ) (2023-08-09T17:12:23Z) - LongCoder: A Long-Range Pre-trained Language Model for Code Completion [56.813974784131624]
LongCoderは自己アテンションにスライディングウィンドウ機構を採用し、グローバルアクセス可能なトークンを2種類導入している。
ブリッジトークンは入力シーケンス全体を通して挿入され、ローカル情報を集約し、グローバルな相互作用を促進する。
メモリトークンは、後で呼び出され、記憶する必要がある重要なステートメントをハイライトするために含まれます。
論文 参考訳(メタデータ) (2023-06-26T17:59:24Z) - Python Wrapper for Simulating Multi-Fidelity Optimization on HPO
Benchmarks without Any Wait [1.370633147306388]
我々はPythonラッパーを開発し、各ワーカーが数時間待つ代わりに10~2ドル秒で実際の実験と全く同じ評価順序を得られるようにします。
論文 参考訳(メタデータ) (2023-05-27T23:28:54Z) - POSET-RL: Phase ordering for Optimizing Size and Execution Time using
Reinforcement Learning [0.0]
位相順序付け問題に対する強化学習に基づく解法を提案する。
Oz Dependence Graph (ODG) と呼ばれるグラフを手動順序付けでモデル化する2つの手法を提案する。
論文 参考訳(メタデータ) (2022-07-27T08:32:23Z) - GRAPHSPY: Fused Program Semantic-Level Embedding via Graph Neural
Networks for Dead Store Detection [4.82596017481926]
低オーバーヘッドで不必要なメモリ操作をインテリジェントに識別するための学習精度の高いアプローチを提案する。
プログラムセマンティクスの抽出にいくつかの有意なグラフニューラルネットワークモデルを適用することにより,新しいハイブリッドなプログラム埋め込み手法を提案する。
その結果、我々のモデルは精度の90%を達成でき、最先端ツールのオーバーヘッドの半分程度しか発生しないことがわかった。
論文 参考訳(メタデータ) (2020-11-18T19:17:15Z) - PolyDL: Polyhedral Optimizations for Creation of High Performance DL
primitives [55.79741270235602]
本稿では,Deep Learningプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。
我々は多面体モデルを用いた新しいデータ再利用分析アルゴリズムを開発した。
また、このようなハイブリッドコンパイラとライブラリ使用の最小限のアプローチが、最先端のパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-02T06:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。