Fugu-MT 論文翻訳(概要): Generation Probabilities Are Not Enough: Uncertainty Highlighting in AI Code Completions

論文の概要: Generation Probabilities Are Not Enough: Uncertainty Highlighting in AI Code Completions

arxiv url: http://arxiv.org/abs/2302.07248v2
Date: Mon, 28 Oct 2024 20:07:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:28.644545
Title: Generation Probabilities Are Not Enough: Uncertainty Highlighting in AI Code Completions
Title（参考訳）: AIコード補完における不確かさのハイライト
Authors: Helena Vasconcelos, Gagan Bansal, Adam Fourney, Q. Vera Liao, Jennifer Wortman Vaughan,
Abstract要約: 本研究では,不確実性に関する情報を伝達することで,プログラマがより迅速かつ正確にコードを生成することができるかどうかを検討する。トークンのハイライトは、編集される可能性が最も高いので、タスクの完了が早くなり、よりターゲットを絞った編集が可能になることがわかりました。
参考スコア（独自算出の注目度）: 54.55334589363247
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large-scale generative models enabled the development of AI-powered code completion tools to assist programmers in writing code. However, much like other AI-powered tools, AI-powered code completions are not always accurate, potentially introducing bugs or even security vulnerabilities into code if not properly detected and corrected by a human programmer. One technique that has been proposed and implemented to help programmers identify potential errors is to highlight uncertain tokens. However, there have been no empirical studies exploring the effectiveness of this technique -- nor investigating the different and not-yet-agreed-upon notions of uncertainty in the context of generative models. We explore the question of whether conveying information about uncertainty enables programmers to more quickly and accurately produce code when collaborating with an AI-powered code completion tool, and if so, what measure of uncertainty best fits programmers' needs. Through a mixed-methods study with 30 programmers, we compare three conditions: providing the AI system's code completion alone, highlighting tokens with the lowest likelihood of being generated by the underlying generative model, and highlighting tokens with the highest predicted likelihood of being edited by a programmer. We find that highlighting tokens with the highest predicted likelihood of being edited leads to faster task completion and more targeted edits, and is subjectively preferred by study participants. In contrast, highlighting tokens according to their probability of being generated does not provide any benefit over the baseline with no highlighting. We further explore the design space of how to convey uncertainty in AI-powered code completion tools, and find that programmers prefer highlights that are granular, informative, interpretable, and not overwhelming.
Abstract（参考訳）: 大規模な生成モデルにより、AIを使ったコード補完ツールの開発が可能になった。しかし、AIを使った他のツールと同様、AIによるコード補完は必ずしも正確ではなく、人間のプログラマが正しく検出し修正しなければ、バグやセキュリティ上の脆弱性をコードに導入する可能性がある。プログラマが潜在的なエラーを特定するために提案され、実装されているテクニックは、不確実なトークンを強調することである。しかし、この手法の有効性を探求する実証的研究は存在せず、また、生成モデルの文脈における不確実性の概念の相違を調査もしていない。我々は、不確実性に関する情報を伝えることで、AIによるコード補完ツールとの共同作業において、プログラマがより迅速かつ正確にコードを生成することができるかどうか、そしてもしそうであれば、不確実性の測定がプログラマのニーズに最も適しているかどうかを調査する。 30人のプログラマによる混合メソッドスタディを通じて、AIシステムのコード補完のみを提供すること、基礎となる生成モデルによって生成される可能性が最も低いトークンの強調、プログラマが編集される可能性が最も高いトークンの強調の3つの条件を比較した。その結果,トークンの強調表示はより高速なタスク完了とよりターゲット的な編集につながることが判明し,研究参加者が主観的に好んでいる。対照的に、生成される確率に応じてトークンをハイライトすることは、ハイライトなしでベースラインに対して利益をもたらすことはない。 AIによるコード補完ツールにおける不確実性を伝えるための設計空間をさらに探求し、プログラマは粒度、情報、解釈可能、そして圧倒的ではないハイライトを好むことに気付く。

関連論文リスト

Do AI models help produce verified bug fixes? [62.985237003585674]
大規模言語モデルは、ソフトウェアバグの修正に使用される。本稿では,プログラマが大規模言語モデルを用いて,自身のスキルを補完する方法について検討する。その結果は、プログラムバグに対する保証された修正を提供するAIとLLMの適切な役割への第一歩となる。
論文参考訳（メタデータ） (2025-07-21T17:30:16Z)
ACE: Automated Technical Debt Remediation with Validated Large Language Model Refactorings [8.0322025529523]
本稿では、検証された出力を使用してコード改善を自動化するツールであるAugmented Code Engineering (ACE)を紹介する。ユーザからの初期のフィードバックは、AIが利用できることが、そうでなければほとんど起こらないコードレベルの技術的負債を軽減するのに役立つことを示唆している。
論文参考訳（メタデータ） (2025-07-04T12:39:27Z)
Bridging LLM-Generated Code and Requirements: Reverse Generation technique and SBC Metric for Developer Insights [0.0]
本稿では,SBCスコアと呼ばれる新しいスコアリング機構を提案する。これは、大規模言語モデルの自然言語生成能力を活用するリバースジェネレーション技術に基づいている。直接コード解析とは異なり、我々のアプローチはAI生成コードからシステム要求を再構築し、元の仕様と比較する。
論文参考訳（メタデータ） (2025-02-11T01:12:11Z)
Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。 Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文参考訳（メタデータ） (2024-10-02T09:11:10Z)
DeVAIC: A Tool for Security Assessment of AI-generated Code [5.383910843560784]
DeVAIC (Detection of Vulnerabilities in AI Generated Code)は、AI生成のPythonコードのセキュリティを評価するツールである。
論文参考訳（メタデータ） (2024-04-11T08:27:23Z)
Genetic Auto-prompt Learning for Pre-trained Code Intelligence Language Models [54.58108387797138]
コードインテリジェンスタスクにおける即時学習の有効性について検討する。既存の自動プロンプト設計手法は、コードインテリジェンスタスクに限られている。本稿では、精巧な遺伝的アルゴリズムを用いてプロンプトを自動設計する遺伝的オートプロンプト(GenAP)を提案する。
論文参考訳（メタデータ） (2024-03-20T13:37:00Z)
Students' Perspective on AI Code Completion: Benefits and Challenges [2.936007114555107]
学生の視点から,AIコード補完のメリット,課題,期待について検討した。その結果,AIコード補完は,正しい構文提案を提供することで,学生の生産性と効率を向上させることがわかった。将来的には、AIコード補完は説明可能であり、教育プロセスを強化するための最高のコーディングプラクティスを提供するべきである。
論文参考訳（メタデータ） (2023-10-31T22:41:16Z)
Robots That Ask For Help: Uncertainty Alignment for Large Language Model Planners [85.03486419424647]
KnowNoは、大きな言語モデルの不確実性を測定し、調整するためのフレームワークである。 KnowNoは、タスク完了に関する統計的保証を提供する共形予測理論に基づいている。
論文参考訳（メタデータ） (2023-07-04T21:25:12Z)
From Copilot to Pilot: Towards AI Supported Software Development [3.0585424861188844]
我々は、CopilotのようなAIをサポートするコード補完ツールの限界を研究し、この分野でAIをサポートするコード補完ツールの分類を理解するための分類を提供する。次に、CopilotのようなAIをサポートするコード補完ツールの現在の境界を決定するために、さらなる調査を行います。我々は、私たちの分類学における設計レベルの抽象化に到達するために、AIをサポートするコード補完ツールの今後の開発に関する課題について、議論することで締めくくります。
論文参考訳（メタデータ） (2023-03-07T18:56:52Z)
Chatbots As Fluent Polyglots: Revisiting Breakthrough Code Snippets [0.0]
この研究は、AI駆動のコードアシスタントを使用して、現代技術を形成する影響力のあるコンピュータコードの選択を分析する。この研究の最初の貢献は、過去50年で最も重要なコードの進歩の半分を調査することであった。
論文参考訳（メタデータ） (2023-01-05T23:17:17Z)
Aligning Offline Metrics and Human Judgments of Value for Code Generation Models [25.726216146776054]
正確性は高価値な世代をキャプチャするが、プログラマは、コーディングタスクの完了に必要な全体的な労力を減らすことで、単体テストに失敗するコードを価値として評価する。本稿では,機能的正しさと構文的類似性を組み合わせたハイブリッド計量を提案し,値との相関が14%強いことを示す。
論文参考訳（メタデータ） (2022-10-29T05:03:28Z)
Fault-Aware Neural Code Rankers [64.41888054066861]
サンプルプログラムの正しさを予測できる故障認識型ニューラルネットワークローダを提案する。我々のフォールト・アウェア・ローダは、様々なコード生成モデルのpass@1精度を大幅に向上させることができる。
論文参考訳（メタデータ） (2022-06-04T22:01:05Z)
Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。私たちのベンチマークには1万の問題が含まれています。 GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文参考訳（メタデータ） (2021-05-20T17:58:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。