論文の概要: Reassessing Java Code Readability Models with a Human-Centered Approach
- arxiv url: http://arxiv.org/abs/2401.14936v1
- Date: Fri, 26 Jan 2024 15:18:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-29 14:37:45.640875
- Title: Reassessing Java Code Readability Models with a Human-Centered Approach
- Title(参考訳): 人中心アプローチによるJavaコードの可読性モデルの再評価
- Authors: Agnia Sergeyuk, Olga Lvova, Sergey Titov, Anastasiia Serova, Farid
Bagirov, Evgeniia Kirillova, Timofey Bryksin
- Abstract要約: 本研究では,Large Language Models (LLM) 調整のための既存の Java Code Readability (CR) モデルを評価する。
120個のAI生成スニペットをラベル付けする際、390人のプログラマによって評価されたCRに影響を与える12の重要なコード側面を同定する。
我々の研究結果は、AIが簡潔で実行可能なコードを生成する場合、CRモデルや開発者が読みやすいと考えることが多いことを示唆している。
- 参考スコア(独自算出の注目度): 3.798885293742468
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To ensure that Large Language Models (LLMs) effectively support user
productivity, they need to be adjusted. Existing Code Readability (CR) models
can guide this alignment. However, there are concerns about their relevance in
modern software engineering since they often miss the developers' notion of
readability and rely on outdated code. This research assesses existing Java CR
models for LLM adjustments, measuring the correlation between their and
developers' evaluations of AI-generated Java code. Using the Repertory Grid
Technique with 15 developers, we identified 12 key code aspects influencing CR
that were consequently assessed by 390 programmers when labeling 120
AI-generated snippets. Our findings indicate that when AI generates concise and
executable code, it is often considered readable by CR models and developers.
However, a limited correlation between these evaluations underscores the
importance of future research on learning objectives for adjusting LLMs and on
the aspects influencing CR evaluations included in predictive models.
- Abstract(参考訳): 大きな言語モデル(llm)がユーザの生産性を効果的にサポートするためには、調整する必要があります。
既存のコード可読性(CR)モデルは、このアライメントを導くことができる。
しかしながら、開発者が可読性の概念を見逃し、時代遅れのコードに依存することが多いため、現代のソフトウェアエンジニアリングにおけるそれらの関係性には懸念がある。
本研究は,LLM調整のための既存のJava CRモデルを評価し,AI生成Javaコードの開発者評価との相関性を評価する。
15人の開発者によるRepertory Grid Techniqueを用いて、120のAI生成スニペットのラベル付け時に390人のプログラマによって評価されたCRに影響を与える12の重要なコード側面を特定した。
我々の研究結果は、AIが簡潔で実行可能なコードを生成する場合、CRモデルや開発者が読みやすいと考えることが多いことを示唆している。
しかし,これらの評価の相関関係は,LLMの調整のための学習目標と,予測モデルに含まれるCR評価に影響を与える側面について,今後の研究の重要性を浮き彫りにしている。
関連論文リスト
- Evaluating Large Language Models with Runtime Behavior of Program Execution [25.451857140926943]
コードのための大規模な言語モデル(LLM)は、強力なコード理解と生成能力を示している。
コード推論は、コードLLMの最も重要な能力の1つである。
本稿では,コードの推論能力とLLMの整合性を評価するためのフレームワークであるRevalを提案する。
論文 参考訳(メタデータ) (2024-03-25T05:37:16Z) - DeAL: Decoding-time Alignment for Large Language Models [59.63643988872571]
大規模言語モデル(LLM)は、現在、人間の好みに沿ったコンテンツを生成することが期待されている。
本稿では,報酬関数をカスタマイズ可能なフレームワークであるDeALを提案し,LLMのDetime Alignmentを可能にする。
実験の結果,粒度の細かいトレードオフでDeALを実現できること,アライメント目標への適合性の向上,LLMの残差の解消が可能であることがわかった。
論文 参考訳(メタデータ) (2024-02-05T06:12:29Z) - Improving the Learning of Code Review Successive Tasks with Cross-Task
Knowledge Distillation [1.0878040851638]
本研究では,これらのタスクを同時に処理するために,クロスタスク知識蒸留を利用した新しいディープラーニングアーキテクチャdisCOREVを紹介する。
提案手法は, BLEUスコアによる評価値と, CodeBLEUスコアによるより正確なコード修正値から, より良いレビューコメントを生成する。
論文 参考訳(メタデータ) (2024-02-03T07:02:22Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [113.72984199026094]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
生成モデルのカウンターファクトの能力を効果的に評価するために,革新的な評価指標であるLogicAware Counterfactual Scoreを提案する。
分析の結果,提案手法は人間の好みとよく一致していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Towards Automated Classification of Code Review Feedback to Support
Analytics [4.423428708304586]
本研究の目的は,自動コードレビューコメント分類システムを開発することである。
コードコンテキスト、コメントテキスト、コードメトリクスのセットを活用した教師付き学習ベースのDNNモデルを訓練し、評価した。
提案手法はFregnanらのアプローチよりも18.7%高い精度を実現している。
論文 参考訳(メタデータ) (2023-07-07T21:53:20Z) - CRITIC: Large Language Models Can Self-Correct with Tool-Interactive
Critiquing [139.77117915309023]
CRITICは、大規模な言語モデルに対して、ツールとのヒューマンインタラクションに似た方法で、自分たちのアウトプットの検証と修正を可能にする。
自由形式の質問応答、数学的プログラム合成、毒性低減を含む包括的評価は、CRITICがLLMの性能を一貫して向上することを証明している。
論文 参考訳(メタデータ) (2023-05-19T15:19:44Z) - What Makes a Code Review Useful to OpenDev Developers? An Empirical
Investigation [4.061135251278187]
コードレビューの有効性が少し改善されても、ソフトウェア開発組織にとってかなりの節約が得られます。
本研究の目的は,コードレビューコメントをOSS開発者に有用なものにする方法を,より精細に理解することである。
論文 参考訳(メタデータ) (2023-02-22T22:48:27Z) - ReCode: Robustness Evaluation of Code Generation Models [90.10436771217243]
コード生成モデルのための総合的ロバストネス評価ベンチマークであるReCodeを提案する。
ドクストリング、関数と変数名、コード構文、コードフォーマットのコードに特化して、30以上の変換をカスタマイズします。
ヒトのアノテータでは、摂動プロンプトの90%以上が本来のプロンプトの意味を変えていないことが確認された。
論文 参考訳(メタデータ) (2022-12-20T14:11:31Z) - Aligning Offline Metrics and Human Judgments of Value for Code
Generation Models [25.726216146776054]
正確性は高価値な世代をキャプチャするが、プログラマは、コーディングタスクの完了に必要な全体的な労力を減らすことで、単体テストに失敗するコードを価値として評価する。
本稿では,機能的正しさと構文的類似性を組み合わせたハイブリッド計量を提案し,値との相関が14%強いことを示す。
論文 参考訳(メタデータ) (2022-10-29T05:03:28Z) - CodeRL: Mastering Code Generation through Pretrained Models and Deep
Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。
推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。
モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文 参考訳(メタデータ) (2022-07-05T02:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。