論文の概要: Aligning Offline Metrics and Human Judgments of Value of AI-Pair
Programmers
- arxiv url: http://arxiv.org/abs/2210.16494v1
- Date: Sat, 29 Oct 2022 05:03:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 19:05:33.889475
- Title: Aligning Offline Metrics and Human Judgments of Value of AI-Pair
Programmers
- Title(参考訳): オフラインメトリクスの調整とAI-Pairプログラマの価値判断
- Authors: Victor Dibia, Adam Fourney, Gagan Bansal, Forough Poursabzi-Sangdeh,
Han Liu and Saleema Amershi
- Abstract要約: 本稿では,機能的正しさと類似度に基づくメトリクスを組み合わせて,プログラマが重視するさまざまな次元をキャプチャする,シンプルなハイブリッドメトリックを提案する。
私たちの発見は、AIペアプログラマに必要なものや価値をキャプチャする、人間中心のメトリクスを設計することの重要性を強調しています。
- 参考スコア(独自算出の注目度): 25.726216146776054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models trained on massive amounts of natural language data and
code have shown impressive capabilities in automatic code generation scenarios.
Development and evaluation of these models has largely been driven by offline
functional correctness metrics, which consider a task to be solved if the
generated code passes corresponding unit tests. While functional correctness is
clearly an important property of a code generation model, we argue that it may
not fully capture what programmers value when collaborating with their AI pair
programmers. For example, while a nearly correct suggestion that does not
consider edge cases may fail a unit test, it may still provide a substantial
starting point or hint to the programmer, thereby reducing total needed effort
to complete a coding task. To investigate this, we conduct a user study with
(N=49) experienced programmers, and find that while both correctness and effort
correlate with value, the association is strongest for effort. We argue that
effort should be considered as an important dimension of evaluation in code
generation scenarios.
We also find that functional correctness remains better at identifying the
highest-value generations; but participants still saw considerable value in
code that failed unit tests. Conversely, similarity-based metrics are very good
at identifying the lowest-value generations among those that fail unit tests.
Based on these findings, we propose a simple hybrid metric, which combines
functional correctness and similarity-based metrics to capture different
dimensions of what programmers might value and show that this hybrid metric
more strongly correlates with both value and effort. Our findings emphasize the
importance of designing human-centered metrics that capture what programmers
need from and value in their AI pair programmers.
- Abstract(参考訳): 膨大な量の自然言語データとコードに基づいてトレーニングされた大規模言語モデルは、自動コード生成シナリオにおいて素晴らしい能力を示している。
これらのモデルの開発と評価は、生成したコードが対応する単体テストに合格した場合に解決すべきタスクを考えるオフライン機能正当性メトリクスによって主に進められている。
関数的正当性は明らかにコード生成モデルの重要な特性であるが、AIペアプログラマとの共同作業では、プログラマの価値を完全に把握できないかもしれない。
例えば、エッジケースを考慮しないほぼ正しい提案は単体テストに失敗するかもしれないが、プログラマに実質的な出発点やヒントを提供する可能性があるため、コーディングタスクの完了に要する労力を削減できる。
そこで本研究では, (N=49) 経験者を対象にユーザスタディを行い, 正確さと努力はともに価値と相関するが, 努力には最も強い関係があることを見出した。
我々は、コード生成シナリオにおいて、努力は評価の重要な要素であると考えるべきであると論じている。
また、最も価値の高い世代を特定するのに機能的な正確さは依然として優れていることが分かりました。
逆に、類似度ベースのメトリクスは、ユニットテストに失敗するものの中で最低値の世代を特定するのに非常に適しています。
これらの知見に基づいて,機能的正しさと類似度に基づくメトリクスを組み合わせることで,プログラマの持つ価値の異なる次元を抽出し,このハイブリッドメトリックが,価値と労力の両面でより強く相関していることを示す。
私たちの発見は、AIペアプログラマに必要なものや価値をキャプチャする、人間中心のメトリクスを設計することの重要性を強調しています。
関連論文リスト
- Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z) - Is Functional Correctness Enough to Evaluate Code Language Models? Exploring Diversity of Generated Codes [17.95094238686012]
言語モデル(LM)は、自然言語の要求からコードを生成する素晴らしい能力を示した。
我々は、LMが生成するコードの多様性を、コード生成能力を評価するための重要な基準として強調する。
本稿では,コード間の類似性や機能的正しさを指標として,生成コードの多様性を評価するための体系的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-08-24T07:40:22Z) - LLM-Based Test-Driven Interactive Code Generation: User Study and Empirical Evaluation [13.800675921118348]
本稿では,ガイド付き意図明確化のための対話型ワークフローTiCoderを提案する。
コード生成精度を向上させるためのワークフローの有効性を実証的に評価する。
我々は,5つのユーザインタラクション内において,データセットと全LLMのパス@1コード生成精度が平均45.97%向上したことを観察した。
論文 参考訳(メタデータ) (2024-04-15T19:16:32Z) - ICE-Score: Instructing Large Language Models to Evaluate Code [7.556444391696562]
コードアセスメントのための大規模言語モデルに基づく新しい評価指標であるtextttICE-Score を提案する。
提案手法は,機能的正しさと人的嗜好との相関性に優れ,既存のアプローチの限界に対処する。
以上の結果から,コード生成の最先端の指標を超越した結果が得られた。
論文 参考訳(メタデータ) (2023-04-27T16:38:17Z) - AI-assisted coding: Experiments with GPT-4 [0.22366638308792727]
GPT-4は、かなりのカバレッジでテストを生成することができるが、ほとんどのテストは関連するコードに適用されない。
これらの結果は、AIコーディングツールは非常に強力であるが、結果の妥当性と正確性を保証するためには、まだ人間を必要とすることを示唆している。
論文 参考訳(メタデータ) (2023-04-25T22:59:01Z) - Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文 参考訳(メタデータ) (2023-04-11T10:43:43Z) - On the Reliability and Explainability of Language Models for Program
Generation [15.569926313298337]
自動プログラム生成手法の能力と限界について検討する。
私たちは、コード変換に大きく貢献するトークンを強調するために、高度な説明可能なAIアプローチを採用しています。
解析の結果,言語モデルではコード文法や構造情報を認識できるが,入力シーケンスの変化に対するロバスト性は限られていることがわかった。
論文 参考訳(メタデータ) (2023-02-19T14:59:52Z) - Generation Probabilities Are Not Enough: Uncertainty Highlighting in AI Code Completions [54.55334589363247]
本研究では,不確実性に関する情報を伝達することで,プログラマがより迅速かつ正確にコードを生成することができるかどうかを検討する。
トークンのハイライトは、編集される可能性が最も高いので、タスクの完了が早くなり、よりターゲットを絞った編集が可能になることがわかりました。
論文 参考訳(メタデータ) (2023-02-14T18:43:34Z) - ReCode: Robustness Evaluation of Code Generation Models [90.10436771217243]
コード生成モデルのための総合的ロバストネス評価ベンチマークであるReCodeを提案する。
ドクストリング、関数と変数名、コード構文、コードフォーマットのコードに特化して、30以上の変換をカスタマイズします。
ヒトのアノテータでは、摂動プロンプトの90%以上が本来のプロンプトの意味を変えていないことが確認された。
論文 参考訳(メタデータ) (2022-12-20T14:11:31Z) - Coder Reviewer Reranking for Code Generation [56.80381384717]
本稿では,コード言語モデルから多様なプログラムを抽出し,モデル確率で再ランク付けする手法として,Coder-Reviewerの再ランク付けを提案する。
実験の結果、Coder-Reviewerのリランクは、Coderモデルのみのリランクよりも一貫性と大幅な改善をもたらすことが示された。
Coder-Reviewerのリランクは、プロンプトによって実装が容易で、異なるプログラミング言語に一般化でき、既定のハイパーパラメータとうまく機能する。
論文 参考訳(メタデータ) (2022-11-29T18:56:33Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。