論文の概要: Does Configuration Encoding Matter in Learning Software Performance? An
Empirical Study on Encoding Schemes
- arxiv url: http://arxiv.org/abs/2203.15988v1
- Date: Wed, 30 Mar 2022 01:46:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-01 02:32:49.987753
- Title: Does Configuration Encoding Matter in Learning Software Performance? An
Empirical Study on Encoding Schemes
- Title(参考訳): ソフトウェアパフォーマンスの学習において構成は重要か?
符号化方式に関する実証的研究
- Authors: Jingzhi Gong, Tao Chen
- Abstract要約: この研究は、5つのシステム、7つのモデル、3つの符号化スキームをカバーし、105件の調査に繋がった。
ソフトウェアのパフォーマンス学習において広く使われている符号化方式,すなわちラベル,スケールラベル,ワンホット符号化を実証的に比較した。
その結果,(1)ケースで最高の符号化方式を見つけるための試行錯誤は,いくつかのモデルやシステムで最大400時間以上の時間を要する場合が多いこと,(2)スケールされたラベル符号化が異なるモデルよりも精度が低い場合,(2)スケールされたラベル符号化は一般的に最も正確な結果をもたらすこと,(3)逆に,スケールされたラベル符号化は高い傾向にあることがわかった。
- 参考スコア(独自算出の注目度): 5.781900408390438
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning and predicting the performance of a configurable software system
helps to provide better quality assurance. One important engineering decision
therein is how to encode the configuration into the model built. Despite the
presence of different encoding schemes, there is still little understanding of
which is better and under what circumstances, as the community often relies on
some general beliefs that inform the decision in an ad-hoc manner. To bridge
this gap, in this paper, we empirically compared the widely used encoding
schemes for software performance learning, namely label, scaled label, and
one-hot encoding. The study covers five systems, seven models, and three
encoding schemes, leading to 105 cases of investigation.
Our key findings reveal that: (1) conducting trial-and-error to find the best
encoding scheme in a case by case manner can be rather expensive, requiring up
to 400+ hours on some models and systems; (2) the one-hot encoding often leads
to the most accurate results while the scaled label encoding is generally weak
on accuracy over different models; (3) conversely, the scaled label encoding
tends to result in the fastest training time across the models/systems while
the one-hot encoding is the slowest; (4) for all models studied, label and
scaled label encoding often lead to relatively less biased outcomes between
accuracy and training time, but the paired model varies according to the
system.
We discuss the actionable suggestions derived from our findings, hoping to
provide a better understanding of this topic for the community. To promote open
science, the data and code of this work can be publicly accessed at
https://github.com/ideas-labo/MSR2022-encoding-study.
- Abstract(参考訳): 構成可能なソフトウェアシステムのパフォーマンスを学習し、予測することは、よりよい品質保証を提供するのに役立つ。
そこで重要なエンジニアリング上の決定は、構成をモデルにエンコードする方法である。
異なる符号化スキームが存在するにもかかわらず、コミュニティはしばしば、その決定をアドホックな方法で知らせる一般的な信念に依存しているため、どちらが良いか、どのような状況下にあるかについての理解はほとんどない。
このギャップを埋めるため,本稿では,ソフトウェアのパフォーマンス学習に広く用いられている符号化方式であるラベル,スケールドラベル,ワンホットエンコーディングを比較した。
この研究は、5つのシステム、7つのモデル、3つの符号化スキームをカバーし、105件の調査に繋がった。
Our key findings reveal that: (1) conducting trial-and-error to find the best encoding scheme in a case by case manner can be rather expensive, requiring up to 400+ hours on some models and systems; (2) the one-hot encoding often leads to the most accurate results while the scaled label encoding is generally weak on accuracy over different models; (3) conversely, the scaled label encoding tends to result in the fastest training time across the models/systems while the one-hot encoding is the slowest; (4) for all models studied, label and scaled label encoding often lead to relatively less biased outcomes between accuracy and training time, but the paired model varies according to the system.
我々は,この話題をコミュニティにもっと理解してもらうために,我々の発見から導かれる実行可能な提案について議論する。
オープンサイエンスを促進するために、この作業のデータとコードはhttps://github.com/ideas-labo/MSR2022-encoding-studyで公開することができる。
関連論文リスト
- Decoding at the Speed of Thought: Harnessing Parallel Decoding of Lexical Units for LLMs [57.27982780697922]
大規模言語モデルは、自然言語の理解と生成において例外的な能力を示した。
しかし、それらの生成速度は、その復号過程の本質的にシーケンシャルな性質によって制限される。
本稿では,データ駆動方式で実装された新しいデコーディング手法であるLexical Unit Decodingを紹介する。
論文 参考訳(メタデータ) (2024-05-24T04:35:13Z) - Triple-Encoders: Representations That Fire Together, Wire Together [51.15206713482718]
コントラスト学習(Contrastive Learning)は、バイエンコーダを介して発話間の相対距離を埋め込み空間に符号化する表現学習法である。
本研究では,これら独立に符号化された発話から分散発話混合物を効率よく計算する三重エンコーダを提案する。
トリプルエンコーダはバイエンコーダよりも大幅に改善され、シングルベクトル表現モデルよりもゼロショットの一般化が向上することがわかった。
論文 参考訳(メタデータ) (2024-02-19T18:06:02Z) - An Exploration of Encoder-Decoder Approaches to Multi-Label
Classification for Legal and Biomedical Text [20.100081284294973]
マルチラベル分類のための4つの手法を比較し,エンコーダのみに基づく2つの手法と,エンコーダ-デコーダに基づく2つの手法を比較した。
その結果、エンコーダ-デコーダ法はエンコーダのみの手法よりも優れており、より複雑なデータセットに有利であることがわかった。
論文 参考訳(メタデータ) (2023-05-09T17:13:53Z) - Enriching Source Code with Contextual Data for Code Completion Models:
An Empirical Study [4.438873396405334]
コンテクストデータを用いてコードを理解しやすくすることで、コード補完作業のための事前学習された言語モデルの性能が向上するかどうかを問う。
コメントについては、マルチラインコメントの存在下でモデルの性能が向上していることが分かる。
論文 参考訳(メタデータ) (2023-04-24T17:09:14Z) - Revisiting Code Search in a Two-Stage Paradigm [67.02322603435628]
TOSSは2段階のフュージョンコード検索フレームワークである。
まずIRベースのバイエンコーダモデルを使用して、少数のトップkコード候補を効率的にリコールする。
その後、より微細なクロスエンコーダを使用してランク付けを行う。
論文 参考訳(メタデータ) (2022-08-24T02:34:27Z) - Learning to Improve Code Efficiency [27.768476489523163]
Google Code Jamコンペティションから、大規模な競合プログラミングデータセットを分析します。
効率的なコードは確かに稀であり、中央値ランタイムと90分の1のソリューションとでは2倍の違いがある。
我々は、機械学習を用いてヒントの形で規範的なフィードバックを自動的に提供し、プログラマが高性能なコードを書くよう誘導することを提案する。
論文 参考訳(メタデータ) (2022-08-09T01:28:30Z) - ED2LM: Encoder-Decoder to Language Model for Faster Document Re-ranking
Inference [70.36083572306839]
本稿では,再ランク付けのための新しいトレーニングおよび推論パラダイムを提案する。
文書形式を用いて事前訓練したエンコーダ・デコーダモデルを精査し,クエリ生成を行う。
このエンコーダ-デコーダアーキテクチャは,推論中にデコーダのみの言語モデルに分解可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T06:26:29Z) - Rate Coding or Direct Coding: Which One is Better for Accurate, Robust,
and Energy-efficient Spiking Neural Networks? [4.872468969809081]
スパイキングニューラルネットワーク(SNN)は画像分類タスクに重点を置いているため、画像を時間的バイナリスパイクに変換するための様々なコーディング技術が提案されている。
これらのうち、レートコーディングとダイレクトコーディングは、実用的なSNNシステムを構築するための候補として期待されている。
我々は3つの視点から2つの符号化を包括的に分析する。
論文 参考訳(メタデータ) (2022-01-31T16:18:07Z) - Adversarial Neural Networks for Error Correcting Codes [76.70040964453638]
機械学習(ML)モデルの性能と適用性を高めるための一般的なフレームワークを紹介する。
本稿では,MLデコーダと競合する識別器ネットワークを組み合わせることを提案する。
我々のフレームワークはゲーム理論であり、GAN(Generative Adversarial Network)によって動機付けられている。
論文 参考訳(メタデータ) (2021-12-21T19:14:44Z) - A Transformer-based Approach for Source Code Summarization [86.08359401867577]
コードトークン間のペア関係をモデル化することにより,要約のためのコード表現を学習する。
アプローチは単純であるにもかかわらず、最先端技術よりもかなりの差があることが示される。
論文 参考訳(メタデータ) (2020-05-01T23:29:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。