論文の概要: Aligning Offline Metrics and Human Judgments of Value of AI-Pair
Programmers
- arxiv url: http://arxiv.org/abs/2210.16494v1
- Date: Sat, 29 Oct 2022 05:03:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 19:05:33.889475
- Title: Aligning Offline Metrics and Human Judgments of Value of AI-Pair
Programmers
- Title(参考訳): オフラインメトリクスの調整とAI-Pairプログラマの価値判断
- Authors: Victor Dibia, Adam Fourney, Gagan Bansal, Forough Poursabzi-Sangdeh,
Han Liu and Saleema Amershi
- Abstract要約: 本稿では,機能的正しさと類似度に基づくメトリクスを組み合わせて,プログラマが重視するさまざまな次元をキャプチャする,シンプルなハイブリッドメトリックを提案する。
私たちの発見は、AIペアプログラマに必要なものや価値をキャプチャする、人間中心のメトリクスを設計することの重要性を強調しています。
- 参考スコア(独自算出の注目度): 25.726216146776054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models trained on massive amounts of natural language data and
code have shown impressive capabilities in automatic code generation scenarios.
Development and evaluation of these models has largely been driven by offline
functional correctness metrics, which consider a task to be solved if the
generated code passes corresponding unit tests. While functional correctness is
clearly an important property of a code generation model, we argue that it may
not fully capture what programmers value when collaborating with their AI pair
programmers. For example, while a nearly correct suggestion that does not
consider edge cases may fail a unit test, it may still provide a substantial
starting point or hint to the programmer, thereby reducing total needed effort
to complete a coding task. To investigate this, we conduct a user study with
(N=49) experienced programmers, and find that while both correctness and effort
correlate with value, the association is strongest for effort. We argue that
effort should be considered as an important dimension of evaluation in code
generation scenarios.
We also find that functional correctness remains better at identifying the
highest-value generations; but participants still saw considerable value in
code that failed unit tests. Conversely, similarity-based metrics are very good
at identifying the lowest-value generations among those that fail unit tests.
Based on these findings, we propose a simple hybrid metric, which combines
functional correctness and similarity-based metrics to capture different
dimensions of what programmers might value and show that this hybrid metric
more strongly correlates with both value and effort. Our findings emphasize the
importance of designing human-centered metrics that capture what programmers
need from and value in their AI pair programmers.
- Abstract(参考訳): 膨大な量の自然言語データとコードに基づいてトレーニングされた大規模言語モデルは、自動コード生成シナリオにおいて素晴らしい能力を示している。
これらのモデルの開発と評価は、生成したコードが対応する単体テストに合格した場合に解決すべきタスクを考えるオフライン機能正当性メトリクスによって主に進められている。
関数的正当性は明らかにコード生成モデルの重要な特性であるが、AIペアプログラマとの共同作業では、プログラマの価値を完全に把握できないかもしれない。
例えば、エッジケースを考慮しないほぼ正しい提案は単体テストに失敗するかもしれないが、プログラマに実質的な出発点やヒントを提供する可能性があるため、コーディングタスクの完了に要する労力を削減できる。
そこで本研究では, (N=49) 経験者を対象にユーザスタディを行い, 正確さと努力はともに価値と相関するが, 努力には最も強い関係があることを見出した。
我々は、コード生成シナリオにおいて、努力は評価の重要な要素であると考えるべきであると論じている。
また、最も価値の高い世代を特定するのに機能的な正確さは依然として優れていることが分かりました。
逆に、類似度ベースのメトリクスは、ユニットテストに失敗するものの中で最低値の世代を特定するのに非常に適しています。
これらの知見に基づいて,機能的正しさと類似度に基づくメトリクスを組み合わせることで,プログラマの持つ価値の異なる次元を抽出し,このハイブリッドメトリックが,価値と労力の両面でより強く相関していることを示す。
私たちの発見は、AIペアプログラマに必要なものや価値をキャプチャする、人間中心のメトリクスを設計することの重要性を強調しています。
関連論文リスト
- Code Representation Learning At Scale [75.04686476303436]
2段階の事前学習スキームを用いて,大量のコードデータを用いてコード表現学習を行う。
まず、マスキング言語モデリングにおけるランダム性と、プログラミング言語の構造的側面の両方を活用して、エンコーダを訓練する。
そして、教師なしの方法で強陰性かつ強正に構築された対照的な学習を通して表現を強化する。
論文 参考訳(メタデータ) (2024-02-02T22:19:15Z) - ICE-Score: Instructing Large Language Models to Evaluate Code [7.556444391696562]
コードアセスメントのための大規模言語モデルに基づく新しい評価指標であるtextttICE-Score を提案する。
提案手法は,機能的正しさと人的嗜好との相関性に優れ,既存のアプローチの限界に対処する。
以上の結果から,コード生成の最先端の指標を超越した結果が得られた。
論文 参考訳(メタデータ) (2023-04-27T16:38:17Z) - AI-assisted coding: Experiments with GPT-4 [0.22366638308792727]
GPT-4は、かなりのカバレッジでテストを生成することができるが、ほとんどのテストは関連するコードに適用されない。
これらの結果は、AIコーディングツールは非常に強力であるが、結果の妥当性と正確性を保証するためには、まだ人間を必要とすることを示唆している。
論文 参考訳(メタデータ) (2023-04-25T22:59:01Z) - Enriching Source Code with Contextual Data for Code Completion Models:
An Empirical Study [4.438873396405334]
コンテクストデータを用いてコードを理解しやすくすることで、コード補完作業のための事前学習された言語モデルの性能が向上するかどうかを問う。
コメントについては、マルチラインコメントの存在下でモデルの性能が向上していることが分かる。
論文 参考訳(メタデータ) (2023-04-24T17:09:14Z) - Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文 参考訳(メタデータ) (2023-04-11T10:43:43Z) - On the Reliability and Explainability of Language Models for Program
Generation [15.569926313298337]
自動プログラム生成手法の能力と限界について検討する。
私たちは、コード変換に大きく貢献するトークンを強調するために、高度な説明可能なAIアプローチを採用しています。
解析の結果,言語モデルではコード文法や構造情報を認識できるが,入力シーケンスの変化に対するロバスト性は限られていることがわかった。
論文 参考訳(メタデータ) (2023-02-19T14:59:52Z) - ReCode: Robustness Evaluation of Code Generation Models [90.10436771217243]
コード生成モデルのための総合的ロバストネス評価ベンチマークであるReCodeを提案する。
ドクストリング、関数と変数名、コード構文、コードフォーマットのコードに特化して、30以上の変換をカスタマイズします。
ヒトのアノテータでは、摂動プロンプトの90%以上が本来のプロンプトの意味を変えていないことが確認された。
論文 参考訳(メタデータ) (2022-12-20T14:11:31Z) - Coder Reviewer Reranking for Code Generation [56.80381384717]
本稿では,コード言語モデルから多様なプログラムを抽出し,モデル確率で再ランク付けする手法として,Coder-Reviewerの再ランク付けを提案する。
実験の結果、Coder-Reviewerのリランクは、Coderモデルのみのリランクよりも一貫性と大幅な改善をもたらすことが示された。
Coder-Reviewerのリランクは、プロンプトによって実装が容易で、異なるプログラミング言語に一般化でき、既定のハイパーパラメータとうまく機能する。
論文 参考訳(メタデータ) (2022-11-29T18:56:33Z) - CodeExp: Explanatory Code Document Generation [94.43677536210465]
既存のコード・トゥ・テキスト生成モデルは、コードの高レベルな要約のみを生成する。
我々は、コードのための高品質な説明記述の基準を特定するために、人間の研究を行う。
タスクのための多段階微調整戦略とベースラインモデルを提案する。
論文 参考訳(メタデータ) (2022-11-25T18:05:44Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。