論文の概要: On the Evaluation of NLP-based Models for Software Engineering
- arxiv url: http://arxiv.org/abs/2203.17166v1
- Date: Thu, 31 Mar 2022 16:42:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-01 15:40:56.141374
- Title: On the Evaluation of NLP-based Models for Software Engineering
- Title(参考訳): ソフトウェア工学におけるNLPモデルの評価について
- Authors: Maliheh Izadi, Matin Nili Ahmadabadi
- Abstract要約: 我々は,NLPに基づくSE問題モデルがどのように評価されているのかを研究者らにより検討する。
この結果から,これらのモデルの評価には一貫性があり,広く受け入れられているプロトコルが存在しないことが示唆された。
- 参考スコア(独自算出の注目度): 0.8122270502556374
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: NLP-based models have been increasingly incorporated to address SE problems.
These models are either employed in the SE domain with little to no change, or
they are greatly tailored to source code and its unique characteristics. Many
of these approaches are considered to be outperforming or complementing
existing solutions. However, an important question arises here: "Are these
models evaluated fairly and consistently in the SE community?". To answer this
question, we reviewed how NLP-based models for SE problems are being evaluated
by researchers. The findings indicate that currently there is no consistent and
widely-accepted protocol for the evaluation of these models. While different
aspects of the same task are being assessed in different studies, metrics are
defined based on custom choices, rather than a system, and finally, answers are
collected and interpreted case by case. Consequently, there is a dire need to
provide a methodological way of evaluating NLP-based models to have a
consistent assessment and preserve the possibility of fair and efficient
comparison.
- Abstract(参考訳): NLPベースのモデルはSE問題に対処するためにますます取り入れられている。
これらのモデルは、ほとんど変更のないSEドメインで採用されるか、ソースコードとそのユニークな特徴に非常に適しています。
これらのアプローチの多くは、既存のソリューションを上回ったり補完したりするものだと考えられている。
これらのモデルは、seコミュニティにおいて、公平かつ一貫して評価されているか?
そこで本研究では,se問題に対するnlpモデルの評価方法について検討した。
この結果から,これらのモデルの評価には一貫性があり,広く受け入れられているプロトコルが存在しないことが示唆された。
同じタスクの異なる側面が異なる研究で評価されているが、メトリクスはシステムではなくカスタム選択に基づいて定義されており、最終的に回答が収集され、ケースごとに解釈される。
したがって、一貫した評価と公正かつ効率的な比較の可能性を維持するために、NLPモデルを評価する方法論的な方法を提供する必要がある。
関連論文リスト
- A Probabilistic Perspective on Unlearning and Alignment for Large Language Models [48.96686419141881]
大規模言語モデル(LLM)における最初の形式的確率的評価フレームワークを紹介する。
モデルの出力分布に関する高い確率保証を持つ新しい指標を導出する。
私たちのメトリクスはアプリケーションに依存しないので、デプロイ前にモデル機能についてより信頼性の高い見積を行うことができます。
論文 参考訳(メタデータ) (2024-10-04T15:44:23Z) - Comparative study of regression vs pairwise models for surrogate-based heuristic optimisation [1.2535250082638645]
本稿では, シュロゲート問題の定式化を, 適合度を近似する回帰モデル(表面シュロゲートモデル)と, 分類モデル(ペアワイズ・シュロゲートモデル)を結合する新しい方法の両方として扱う。
オンライン機械学習に基づくサロゲートモデルを用いる場合の全体探索の性能は、予測モデルの精度だけでなく、正または負のケースに対するバイアスの種類にも依存する。
論文 参考訳(メタデータ) (2024-10-04T13:19:06Z) - OLMES: A Standard for Language Model Evaluations [64.85905119836818]
再現可能な言語モデル評価のための実用的でオープンな標準であるOLMESを提案する。
我々は,コミュニティが採用する評価実践において,様々な要因を特定し,検討する。
OLMESは、複数の質問の非自然な「閉じた」定式化を必要とする小さなベースモデル間の有意義な比較をサポートする。
論文 参考訳(メタデータ) (2024-06-12T17:37:09Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Automatic Generation of Attention Rules For Containment of Machine
Learning Model Errors [1.4987559345379062]
我々は、観測を分離するために最適な規則を決定するためのいくつかのアルゴリズム(ストラテジー')を提案する。
特に,機能ベースのスライシングを利用する戦略は,人間の解釈可能で,モデル非依存であり,補足的な入力や知識を最小限に抑える必要がある。
戦略を評価するために、我々は、その性能、安定性、そして、目に見えないデータに対する一般化可能性など、様々な望ましい品質を測定するための指標を導入する。
論文 参考訳(メタデータ) (2023-05-14T10:15:35Z) - Think Twice: Measuring the Efficiency of Eliminating Prediction
Shortcuts of Question Answering Models [3.9052860539161918]
そこで本研究では,任意の特徴量に対するモデルのスケール依存度を簡易に測定する手法を提案する。
質問回答(QA: Question Answering)における各種事前学習モデルとデバイアス法について、既知の予測バイアスと新たに発見された予測バイアスの集合に対するロバスト性を評価する。
既存のデバイアス法は、選択された刺激的特徴への依存を軽減することができるが、これらの手法のOOD性能向上は、偏りのある特徴への依存を緩和することによって説明できない。
論文 参考訳(メタデータ) (2023-05-11T14:35:00Z) - In Search of Insights, Not Magic Bullets: Towards Demystification of the
Model Selection Dilemma in Heterogeneous Treatment Effect Estimation [92.51773744318119]
本稿では,異なるモデル選択基準の長所と短所を実験的に検討する。
選択戦略,候補推定器,比較に用いるデータの間には,複雑な相互作用があることを強調した。
論文 参考訳(メタデータ) (2023-02-06T16:55:37Z) - Off-policy evaluation for learning-to-rank via interpolating the
item-position model and the position-based model [83.83064559894989]
産業レコメンデーションシステムにとって重要なニーズは、製品にデプロイする前に、レコメンデーションポリシーをオフラインで評価する機能である。
我々は、最も人気のある2つの非政治推定器の問題を緩和する新しい推定器を開発する。
特に、InterPOLと呼ばれる新しい推定器は、潜在的に不特定位置ベースモデルのバイアスに対処する。
論文 参考訳(メタデータ) (2022-10-15T17:22:30Z) - Which Model To Trust: Assessing the Influence of Models on the
Performance of Reinforcement Learning Algorithms for Continuous Control Tasks [0.0]
アルゴリズムの改善やモデルの改善による最近の進歩の程度は明らかになっていない。
モデル比較のために、一般的に採用されているモデルのセットが確立されている。
結果,モデル性能に有意な差が認められた。
論文 参考訳(メタデータ) (2021-10-25T16:17:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。