論文の概要: Reassessing Java Code Readability Models with a Human-Centered Approach
- arxiv url: http://arxiv.org/abs/2401.14936v1
- Date: Fri, 26 Jan 2024 15:18:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-29 14:37:45.640875
- Title: Reassessing Java Code Readability Models with a Human-Centered Approach
- Title(参考訳): 人中心アプローチによるJavaコードの可読性モデルの再評価
- Authors: Agnia Sergeyuk, Olga Lvova, Sergey Titov, Anastasiia Serova, Farid
Bagirov, Evgeniia Kirillova, Timofey Bryksin
- Abstract要約: 本研究では,Large Language Models (LLM) 調整のための既存の Java Code Readability (CR) モデルを評価する。
120個のAI生成スニペットをラベル付けする際、390人のプログラマによって評価されたCRに影響を与える12の重要なコード側面を同定する。
我々の研究結果は、AIが簡潔で実行可能なコードを生成する場合、CRモデルや開発者が読みやすいと考えることが多いことを示唆している。
- 参考スコア(独自算出の注目度): 3.798885293742468
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To ensure that Large Language Models (LLMs) effectively support user
productivity, they need to be adjusted. Existing Code Readability (CR) models
can guide this alignment. However, there are concerns about their relevance in
modern software engineering since they often miss the developers' notion of
readability and rely on outdated code. This research assesses existing Java CR
models for LLM adjustments, measuring the correlation between their and
developers' evaluations of AI-generated Java code. Using the Repertory Grid
Technique with 15 developers, we identified 12 key code aspects influencing CR
that were consequently assessed by 390 programmers when labeling 120
AI-generated snippets. Our findings indicate that when AI generates concise and
executable code, it is often considered readable by CR models and developers.
However, a limited correlation between these evaluations underscores the
importance of future research on learning objectives for adjusting LLMs and on
the aspects influencing CR evaluations included in predictive models.
- Abstract(参考訳): 大きな言語モデル(llm)がユーザの生産性を効果的にサポートするためには、調整する必要があります。
既存のコード可読性(CR)モデルは、このアライメントを導くことができる。
しかしながら、開発者が可読性の概念を見逃し、時代遅れのコードに依存することが多いため、現代のソフトウェアエンジニアリングにおけるそれらの関係性には懸念がある。
本研究は,LLM調整のための既存のJava CRモデルを評価し,AI生成Javaコードの開発者評価との相関性を評価する。
15人の開発者によるRepertory Grid Techniqueを用いて、120のAI生成スニペットのラベル付け時に390人のプログラマによって評価されたCRに影響を与える12の重要なコード側面を特定した。
我々の研究結果は、AIが簡潔で実行可能なコードを生成する場合、CRモデルや開発者が読みやすいと考えることが多いことを示唆している。
しかし,これらの評価の相関関係は,LLMの調整のための学習目標と,予測モデルに含まれるCR評価に影響を与える側面について,今後の研究の重要性を浮き彫りにしている。
関連論文リスト
- Can We Further Elicit Reasoning in LLMs? Critic-Guided Planning with Retrieval-Augmentation for Solving Challenging Tasks [68.49251303172674]
最先端の大規模言語モデル(LLM)は、目覚ましい問題解決能力を示すが、複雑な推論と事実の正しさに苦慮する可能性がある。
既存の手法では、チェーン・オブ・ソートと検索強化生成(RAG)の強みを利用して、複雑な問題をより単純なステップに分解し、検索を適用して事実の正しさを向上させる。
CR-Planner(CR-Planner, CR-Planner, CR-Planner)は, 微調整された批判モデルを利用して, 推論と検索の両方のプロセスを計画を通してガイドする新しいフレームワークである。
論文 参考訳(メタデータ) (2024-10-02T11:26:02Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - Automating Patch Set Generation from Code Review Comments Using Large Language Models [2.045040820541428]
5つの人気のあるLarge Language Model(LLM)にコードコンテキストを提供します。
実世界のコードレビューコメントから提案したコード変更(パッチセット)を得る。
生成したパッチセットを人為的なパッチセットの履歴データと比較することにより、各モデルの性能を慎重に評価する。
論文 参考訳(メタデータ) (2024-04-10T02:46:08Z) - DeAL: Decoding-time Alignment for Large Language Models [59.63643988872571]
大規模言語モデル(LLM)は、現在、人間の好みに沿ったコンテンツを生成することが期待されている。
本稿では,報酬関数をカスタマイズ可能なフレームワークであるDeALを提案し,LLMのDetime Alignmentを可能にする。
実験の結果,粒度の細かいトレードオフでDeALを実現できること,アライメント目標への適合性の向上,LLMの残差の解消が可能であることがわかった。
論文 参考訳(メタデータ) (2024-02-05T06:12:29Z) - Improving the Learning of Code Review Successive Tasks with Cross-Task
Knowledge Distillation [1.0878040851638]
本研究では,これらのタスクを同時に処理するために,クロスタスク知識蒸留を利用した新しいディープラーニングアーキテクチャdisCOREVを紹介する。
提案手法は, BLEUスコアによる評価値と, CodeBLEUスコアによるより正確なコード修正値から, より良いレビューコメントを生成する。
論文 参考訳(メタデータ) (2024-02-03T07:02:22Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Towards Automated Classification of Code Review Feedback to Support
Analytics [4.423428708304586]
本研究の目的は,自動コードレビューコメント分類システムを開発することである。
コードコンテキスト、コメントテキスト、コードメトリクスのセットを活用した教師付き学習ベースのDNNモデルを訓練し、評価した。
提案手法はFregnanらのアプローチよりも18.7%高い精度を実現している。
論文 参考訳(メタデータ) (2023-07-07T21:53:20Z) - CRITIC: Large Language Models Can Self-Correct with Tool-Interactive
Critiquing [139.77117915309023]
CRITICは、大規模な言語モデルに対して、ツールとのヒューマンインタラクションに似た方法で、自分たちのアウトプットの検証と修正を可能にする。
自由形式の質問応答、数学的プログラム合成、毒性低減を含む包括的評価は、CRITICがLLMの性能を一貫して向上することを証明している。
論文 参考訳(メタデータ) (2023-05-19T15:19:44Z) - What Makes a Code Review Useful to OpenDev Developers? An Empirical
Investigation [4.061135251278187]
コードレビューの有効性が少し改善されても、ソフトウェア開発組織にとってかなりの節約が得られます。
本研究の目的は,コードレビューコメントをOSS開発者に有用なものにする方法を,より精細に理解することである。
論文 参考訳(メタデータ) (2023-02-22T22:48:27Z) - Aligning Offline Metrics and Human Judgments of Value for Code
Generation Models [25.726216146776054]
正確性は高価値な世代をキャプチャするが、プログラマは、コーディングタスクの完了に必要な全体的な労力を減らすことで、単体テストに失敗するコードを価値として評価する。
本稿では,機能的正しさと構文的類似性を組み合わせたハイブリッド計量を提案し,値との相関が14%強いことを示す。
論文 参考訳(メタデータ) (2022-10-29T05:03:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。