論文の概要: CloudEval-YAML: A Practical Benchmark for Cloud Configuration Generation
- arxiv url: http://arxiv.org/abs/2401.06786v1
- Date: Fri, 10 Nov 2023 01:49:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 12:26:52.610979
- Title: CloudEval-YAML: A Practical Benchmark for Cloud Configuration Generation
- Title(参考訳): CloudEval-YAML: クラウド構成生成のための実践的なベンチマーク
- Authors: Yifei Xu, Yuning Chen, Xumiao Zhang, Xianshang Lin, Pan Hu, Yunfei Ma,
Songwu Lu, Wan Du, Zhuoqing Mao, Ennan Zhai, Dennis Cai
- Abstract要約: クラウド構成生成のための実用的なベンチマークであるCloudEval-YAMLを提案する。
データセットは、実践シナリオをターゲットにした単体テストに関する手書きの問題で構成されている。
データセットは、1200時間以上かかる1011の問題で構成されている。
- 参考スコア(独自算出の注目度): 9.320732264679238
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Among the thriving ecosystem of cloud computing and the proliferation of
Large Language Model (LLM)-based code generation tools, there is a lack of
benchmarking for code generation in cloud-native applications. In response to
this need, we present CloudEval-YAML, a practical benchmark for cloud
configuration generation. CloudEval-YAML tackles the diversity challenge by
focusing on YAML, the de facto standard of numerous cloud-native tools. We
develop the CloudEval-YAML benchmark with practicality in mind: the dataset
consists of hand-written problems with unit tests targeting practical
scenarios. We further enhanced the dataset to meet practical needs by
rephrasing questions in a concise, abbreviated, and bilingual manner. The
dataset consists of 1011 problems that take more than 1200 human hours to
complete. To improve practicality during evaluation, we build a scalable
evaluation platform for CloudEval-YAML that achieves a 20 times speedup over a
single machine. To the best of our knowledge, the CloudEval-YAML dataset is the
first hand-written dataset targeting cloud-native applications. We present an
in-depth evaluation of 12 LLMs, leading to a deeper understanding of the
problems and LLMs, as well as effective methods to improve task performance and
reduce cost.
- Abstract(参考訳): クラウドコンピューティングの活発なエコシステムと、大規模な言語モデル(llm)ベースのコード生成ツールの急増の中で、クラウドネイティブなアプリケーションではコード生成のベンチマークが不足している。
このニーズに応えるために,クラウド構成生成のための実用的なベンチマークであるCloudEval-YAMLを提案する。
CloudEval-YAMLは、多くのクラウドネイティブツールのデファクトスタンダードであるYAMLに焦点を当てることで、多様性の課題に取り組む。
実用性を考慮したCloudEval-YAMLベンチマークを開発する。このデータセットは,実践シナリオをターゲットにした単体テストに関する手書き問題からなる。
我々はさらに、簡潔で簡潔でバイリンガルな方法で質問を言い換えることで、現実的なニーズを満たすためにデータセットをさらに強化した。
データセットは、1200時間以上かかる1011の問題で構成されている。
評価中の実用性を改善するため,CloudEval-YAMLのスケーラブルな評価プラットフォームを構築し,単一マシン上で20倍の高速化を実現した。
cloudeval-yamlデータセットは、クラウドネイティブなアプリケーションを対象とした、最初の手書きデータセットです。
12 llmsの詳細な評価を行い,問題や llm の理解を深めるとともに,タスク性能の向上とコスト削減のための効果的な手法を提案する。
関連論文リスト
- AdaSwitch: Adaptive Switching between Small and Large Agents for Effective Cloud-Local Collaborative Learning [36.37717583840935]
本研究では,大規模クラウドベースLLMと小規模ローカルデプロイLLMの協調運用を容易にする新しいLCM利用パラダイムを提案する。
本フレームワークは,比較的小型のLLMをインスタンス化したローカルエージェントと,大型のLLMを搭載したクラウドエージェントの2つの主要モジュールから構成される。
この協調処理は、ローカルエージェントがエラーを内観的に識別し、クラウドエージェントから積極的に支援を求める適応機構によって実現される。
論文 参考訳(メタデータ) (2024-10-17T03:07:37Z) - Efficient Hybrid Inference for LLMs: Reward-Based Token Modelling with Selective Cloud Assistance [0.0]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおける例外的な性能で知られている。
より小型の言語モデル(SLM)は、より低価格のエッジデバイスにデプロイできるが、より大きなデバイスの性能に匹敵する。
本稿では,両モデルの強みを生かした新しいハイブリッド推論手法を提案する。
論文 参考訳(メタデータ) (2024-09-15T15:12:45Z) - Online Adaptation of Language Models with a Memory of Amortized Contexts [82.02369596879817]
MAC(Memory of Amortized Contexts)は、大規模言語モデルのための効率的かつ効果的なオンライン適応フレームワークである。
MACとMACを組み合わせれば,検索の高速化など,一般的な代替手段の性能が向上することを示す。
論文 参考訳(メタデータ) (2024-03-07T08:34:57Z) - PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - Accelerated Cloud for Artificial Intelligence (ACAI) [24.40451195277244]
我々は、エンドツーエンドのクラウドベースの機械学習プラットフォームであるAccelerated Cloud for AI (ACAI)を提案する。
ACAIは、インデックス付き、ラベル付き、検索可能なデータのクラウドストレージと、自動リソースプロビジョニング、ジョブスケジューリング、実験追跡を可能にする。
自動プロビジョン装置は1.7倍のスピードアップと39%のコスト削減を実現し,典型的なMLのユースケースにおいて,ML科学者の実験時間を20%短縮することを示した。
論文 参考訳(メタデータ) (2024-01-30T07:09:48Z) - Holistic Autonomous Driving Understanding by Bird's-Eye-View Injected
Multi-Modal Large Models [76.99140362751787]
我々は17のサブタスクで91Kのマルチビュービデオ-QAペアを持つ新しいデータセットであるNuInstructを提案する。
また,BirdのEye-View特徴を効率的に抽出するエンドツーエンド手法であるBEV-InMLLMを提案する。
論文 参考訳(メタデータ) (2024-01-02T01:54:22Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - Scaling Data Science Solutions with Semantics and Machine Learning:
Bosch Case [8.445414390004636]
SemCloudはセマンティックスに強化されたクラウドシステムで、セマンティック技術と機械学習を備えている。
このシステムは、何百万ものデータ、何千もの繰り返し実行、ドメインユーザによる産業ユースケースで評価され、有望な結果を示している。
論文 参考訳(メタデータ) (2023-08-02T11:58:30Z) - MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [73.86954509967416]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。
本稿では,MLLM 評価ベンチマーク MME について述べる。
知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文 参考訳(メタデータ) (2023-06-23T09:22:36Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Machine learning for cloud resources management -- An overview [0.0]
本研究では,機械学習と組み合わされたクラウドリソース管理の最も重要な課題について考察する。
さまざまな種類のクラウドリソース管理分野で使用されるML技術と,その比較を合理的に行うために,大規模な研究コレクションが使用されている。
本稿では,各分野に最適なMLモデルを提案する。
論文 参考訳(メタデータ) (2021-01-28T13:23:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。