論文の概要: Generation Probabilities Are Not Enough: Exploring the Effectiveness of
Uncertainty Highlighting in AI-Powered Code Completions
- arxiv url: http://arxiv.org/abs/2302.07248v1
- Date: Tue, 14 Feb 2023 18:43:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-15 14:31:46.091027
- Title: Generation Probabilities Are Not Enough: Exploring the Effectiveness of
Uncertainty Highlighting in AI-Powered Code Completions
- Title(参考訳): AIによるコード補完における不確実性ハイライトの有効性を探る
- Authors: Helena Vasconcelos, Gagan Bansal, Adam Fourney, Q. Vera Liao, and
Jennifer Wortman Vaughan
- Abstract要約: 本研究では,不確実性に関する情報を伝達することで,プログラマがより迅速かつ正確にコードを生成することができるかどうかを検討する。
トークンのハイライトは、編集される可能性が最も高いので、タスクの完了が早くなり、よりターゲットを絞った編集が可能になることがわかりました。
- 参考スコア(独自算出の注目度): 40.961506036644444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale generative models enabled the development of AI-powered code
completion tools to assist programmers in writing code. However, much like
other AI-powered tools, AI-powered code completions are not always accurate,
potentially introducing bugs or even security vulnerabilities into code if not
properly detected and corrected by a human programmer. One technique that has
been proposed and implemented to help programmers identify potential errors is
to highlight uncertain tokens. However, there have been no empirical studies
exploring the effectiveness of this technique-- nor investigating the different
and not-yet-agreed-upon notions of uncertainty in the context of generative
models. We explore the question of whether conveying information about
uncertainty enables programmers to more quickly and accurately produce code
when collaborating with an AI-powered code completion tool, and if so, what
measure of uncertainty best fits programmers' needs. Through a mixed-methods
study with 30 programmers, we compare three conditions: providing the AI
system's code completion alone, highlighting tokens with the lowest likelihood
of being generated by the underlying generative model, and highlighting tokens
with the highest predicted likelihood of being edited by a programmer. We find
that highlighting tokens with the highest predicted likelihood of being edited
leads to faster task completion and more targeted edits, and is subjectively
preferred by study participants. In contrast, highlighting tokens according to
their probability of being generated does not provide any benefit over the
baseline with no highlighting. We further explore the design space of how to
convey uncertainty in AI-powered code completion tools, and find that
programmers prefer highlights that are granular, informative, interpretable,
and not overwhelming.
- Abstract(参考訳): 大規模な生成モデルにより、AIを使ったコード補完ツールの開発が可能になった。
しかし、他のaiツールと同様に、aiによるコード補完は常に正確ではなく、人間のプログラマが正しく検出して修正しなければ、コードにバグやセキュリティ上の脆弱性をもたらす可能性がある。
プログラマが潜在的なエラーを特定するために提案され実装されたテクニックのひとつは、不確実なトークンを強調することである。
しかし、この手法の有効性を探求する実証的研究は行われておらず、また、生成モデルの文脈における不確実性の概念の相違について調査もされていない。
我々は、不確実性に関する情報を伝えることで、AIによるコード補完ツールとの共同作業において、プログラマがより迅速かつ正確にコードを生成することができるかどうか、そしてもしそうであれば、プログラマのニーズに最も適した不確実性の測定方法を検討する。
30人のプログラマによる混合メソッドスタディを通じて、AIシステムのコード補完のみを提供すること、基礎となる生成モデルによって生成される可能性が最も低いトークンの強調、プログラマが編集される可能性が最も高いトークンの強調の3つの条件を比較した。
その結果,トークンの強調表示はより高速なタスク完了とよりターゲット的な編集につながることが判明し,研究参加者が主観的に好んでいる。
対照的に、生成される確率に応じてトークンをハイライトすることは、ハイライトなしでベースラインに何の利益も与えない。
AIによるコード補完ツールにおける不確実性を伝えるための設計空間をさらに探求し、プログラマは粒度、情報、解釈可能、そして圧倒的ではないハイライトを好む。
関連論文リスト
- Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z) - DeVAIC: A Tool for Security Assessment of AI-generated Code [5.383910843560784]
DeVAIC (Detection of Vulnerabilities in AI Generated Code)は、AI生成のPythonコードのセキュリティを評価するツールである。
論文 参考訳(メタデータ) (2024-04-11T08:27:23Z) - Genetic Auto-prompt Learning for Pre-trained Code Intelligence Language Models [54.58108387797138]
コードインテリジェンスタスクにおける即時学習の有効性について検討する。
既存の自動プロンプト設計手法は、コードインテリジェンスタスクに限られている。
本稿では、精巧な遺伝的アルゴリズムを用いてプロンプトを自動設計する遺伝的オートプロンプト(GenAP)を提案する。
論文 参考訳(メタデータ) (2024-03-20T13:37:00Z) - Students' Perspective on AI Code Completion: Benefits and Challenges [2.936007114555107]
学生の視点から,AIコード補完のメリット,課題,期待について検討した。
その結果,AIコード補完は,正しい構文提案を提供することで,学生の生産性と効率を向上させることがわかった。
将来的には、AIコード補完は説明可能であり、教育プロセスを強化するための最高のコーディングプラクティスを提供するべきである。
論文 参考訳(メタデータ) (2023-10-31T22:41:16Z) - Robots That Ask For Help: Uncertainty Alignment for Large Language Model
Planners [85.03486419424647]
KnowNoは、大きな言語モデルの不確実性を測定し、調整するためのフレームワークである。
KnowNoは、タスク完了に関する統計的保証を提供する共形予測理論に基づいている。
論文 参考訳(メタデータ) (2023-07-04T21:25:12Z) - From Copilot to Pilot: Towards AI Supported Software Development [3.0585424861188844]
我々は、CopilotのようなAIをサポートするコード補完ツールの限界を研究し、この分野でAIをサポートするコード補完ツールの分類を理解するための分類を提供する。
次に、CopilotのようなAIをサポートするコード補完ツールの現在の境界を決定するために、さらなる調査を行います。
我々は、私たちの分類学における設計レベルの抽象化に到達するために、AIをサポートするコード補完ツールの今後の開発に関する課題について、議論することで締めくくります。
論文 参考訳(メタデータ) (2023-03-07T18:56:52Z) - Chatbots As Fluent Polyglots: Revisiting Breakthrough Code Snippets [0.0]
この研究は、AI駆動のコードアシスタントを使用して、現代技術を形成する影響力のあるコンピュータコードの選択を分析する。
この研究の最初の貢献は、過去50年で最も重要なコードの進歩の半分を調査することであった。
論文 参考訳(メタデータ) (2023-01-05T23:17:17Z) - Aligning Offline Metrics and Human Judgments of Value for Code
Generation Models [25.726216146776054]
正確性は高価値な世代をキャプチャするが、プログラマは、コーディングタスクの完了に必要な全体的な労力を減らすことで、単体テストに失敗するコードを価値として評価する。
本稿では,機能的正しさと構文的類似性を組み合わせたハイブリッド計量を提案し,値との相関が14%強いことを示す。
論文 参考訳(メタデータ) (2022-10-29T05:03:28Z) - Fault-Aware Neural Code Rankers [64.41888054066861]
サンプルプログラムの正しさを予測できる故障認識型ニューラルネットワークローダを提案する。
我々のフォールト・アウェア・ローダは、様々なコード生成モデルのpass@1精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-06-04T22:01:05Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。