Fugu-MT 論文翻訳(概要): Reassessing Java Code Readability Models with a Human-Centered Approach

論文の概要: Reassessing Java Code Readability Models with a Human-Centered Approach

arxiv url: http://arxiv.org/abs/2401.14936v1
Date: Fri, 26 Jan 2024 15:18:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-29 14:37:45.640875
Title: Reassessing Java Code Readability Models with a Human-Centered Approach
Title（参考訳）: 人中心アプローチによるJavaコードの可読性モデルの再評価
Authors: Agnia Sergeyuk, Olga Lvova, Sergey Titov, Anastasiia Serova, Farid Bagirov, Evgeniia Kirillova, Timofey Bryksin
Abstract要約: 本研究では,Large Language Models (LLM) 調整のための既存の Java Code Readability (CR) モデルを評価する。 120個のAI生成スニペットをラベル付けする際、390人のプログラマによって評価されたCRに影響を与える12の重要なコード側面を同定する。我々の研究結果は、AIが簡潔で実行可能なコードを生成する場合、CRモデルや開発者が読みやすいと考えることが多いことを示唆している。
参考スコア（独自算出の注目度）: 3.798885293742468
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: To ensure that Large Language Models (LLMs) effectively support user productivity, they need to be adjusted. Existing Code Readability (CR) models can guide this alignment. However, there are concerns about their relevance in modern software engineering since they often miss the developers' notion of readability and rely on outdated code. This research assesses existing Java CR models for LLM adjustments, measuring the correlation between their and developers' evaluations of AI-generated Java code. Using the Repertory Grid Technique with 15 developers, we identified 12 key code aspects influencing CR that were consequently assessed by 390 programmers when labeling 120 AI-generated snippets. Our findings indicate that when AI generates concise and executable code, it is often considered readable by CR models and developers. However, a limited correlation between these evaluations underscores the importance of future research on learning objectives for adjusting LLMs and on the aspects influencing CR evaluations included in predictive models.
Abstract（参考訳）: 大きな言語モデル(llm)がユーザの生産性を効果的にサポートするためには、調整する必要があります。既存のコード可読性(CR)モデルは、このアライメントを導くことができる。しかしながら、開発者が可読性の概念を見逃し、時代遅れのコードに依存することが多いため、現代のソフトウェアエンジニアリングにおけるそれらの関係性には懸念がある。本研究は,LLM調整のための既存のJava CRモデルを評価し,AI生成Javaコードの開発者評価との相関性を評価する。 15人の開発者によるRepertory Grid Techniqueを用いて、120のAI生成スニペットのラベル付け時に390人のプログラマによって評価されたCRに影響を与える12の重要なコード側面を特定した。我々の研究結果は、AIが簡潔で実行可能なコードを生成する場合、CRモデルや開発者が読みやすいと考えることが多いことを示唆している。しかし,これらの評価の相関関係は,LLMの調整のための学習目標と,予測モデルに含まれるCR評価に影響を与える側面について,今後の研究の重要性を浮き彫りにしている。

関連論文リスト

IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。 IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文参考訳（メタデータ） (2025-07-30T08:08:48Z)
MERA Code: A Unified Framework for Evaluating Code Generation Across Tasks [56.34018316319873]
我々は,最新のLLMをロシア語で評価するためのベンチマークであるMERA Codeを提案する。このベンチマークには、8つのプログラミング言語にまたがる11の評価タスクが含まれている。我々はオープンなLLMとフロンティアAPIモデルを評価し、非英語言語における実用的なコーディングタスクの観点からそれらの制限を分析した。
論文参考訳（メタデータ） (2025-07-16T14:31:33Z)
Leveraging Reward Models for Guiding Code Review Comment Generation [13.306560805316103]
コードレビューは、コード品質の評価、潜在的な問題に対するフィードバックの提供、特定された問題に対処するためのコード修正を含む、現代のソフトウェア開発において重要なコンポーネントである。ディープラーニングのテクニックは、人間のレビュアーが行うようなコードにコメントすることで、コードレビューのジェネレーティブな側面に取り組むことができる。本稿では,報酬機構を備えた強化学習を活用することによって,レビューコメント生成を自動化するディープラーニングフレームワークであるCoRALを紹介する。
論文参考訳（メタデータ） (2025-06-04T21:31:38Z)
Think Like Human Developers: Harnessing Community Knowledge for Structured Code Reasoning [10.727882609644578]
大きな言語モデル(LLM)は、かなり高度な自動コード生成を持っているが、論理的推論を必要とする複雑なコーディングタスクに苦労している。既存のアプローチは、計算コストの高い強化学習(RL)か、LLMによって合成されたエラーを起こしやすい推論チェーンに依存している。我々は、ソフトウェアエンジニアリングプラットフォームに関するコミュニティ主導の議論から推論チェーンをマイニングし、再構成し、強化する新しいフレームワークであるSVRCを提案する。
論文参考訳（メタデータ） (2025-03-19T02:45:13Z)
Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
RefineCoder: Iterative Improving of Large Language Models via Adaptive Critique Refinement for Code Generation [13.75248879205993]
本稿では,自己生成コードと外部批判によってモデルを洗練できる適応的批評精細化(ACR)を提案する。 ACRは、コード応答の品質を評価するためのLCM-as-a-Judgeを備えた複合スコアシステムを含む。我々は、ACRを反復的に適用し、複数のコード生成ベンチマークで連続的な性能改善を実現するRefineCoderシリーズを開発した。
論文参考訳（メタデータ） (2025-02-13T11:17:53Z)
Bridging LLM-Generated Code and Requirements: Reverse Generation technique and SBC Metric for Developer Insights [0.0]
本稿では,SBCスコアと呼ばれる新しいスコアリング機構を提案する。これは、大規模言語モデルの自然言語生成能力を活用するリバースジェネレーション技術に基づいている。直接コード解析とは異なり、我々のアプローチはAI生成コードからシステム要求を再構築し、元の仕様と比較する。
論文参考訳（メタデータ） (2025-02-11T01:12:11Z)
Enabling Scalable Oversight via Self-Evolving Critic [59.861013614500024]
SCRIT(Self-evolving CRITic)は、批評能力の真の自己進化を可能にするフレームワークである。コントラストベースの自己批判によって生成される合成データのトレーニングによって自己改善する。最大で10.3%の改善が達成されている。
論文参考訳（メタデータ） (2025-01-10T05:51:52Z)
Can We Further Elicit Reasoning in LLMs? Critic-Guided Planning with Retrieval-Augmentation for Solving Challenging Tasks [68.49251303172674]
最先端の大規模言語モデル(LLM)は、目覚ましい問題解決能力を示すが、複雑な推論と事実の正しさに苦慮する可能性がある。既存の手法では、チェーン・オブ・ソートと検索強化生成(RAG)の強みを利用して、複雑な問題をより単純なステップに分解し、検索を適用して事実の正しさを向上させる。 CR-Planner(CR-Planner, CR-Planner, CR-Planner)は, 微調整された批判モデルを利用して, 推論と検索の両方のプロセスを計画を通してガイドする新しいフレームワークである。
論文参考訳（メタデータ） (2024-10-02T11:26:02Z)
SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文参考訳（メタデータ） (2024-08-28T06:33:03Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
Automating Patch Set Generation from Code Review Comments Using Large Language Models [2.045040820541428]
5つの人気のあるLarge Language Model(LLM)にコードコンテキストを提供します。実世界のコードレビューコメントから提案したコード変更(パッチセット)を得る。生成したパッチセットを人為的なパッチセットの履歴データと比較することにより、各モデルの性能を慎重に評価する。
論文参考訳（メタデータ） (2024-04-10T02:46:08Z)
DeAL: Decoding-time Alignment for Large Language Models [59.63643988872571]
大規模言語モデル(LLM)は、現在、人間の好みに沿ったコンテンツを生成することが期待されている。本稿では,報酬関数をカスタマイズ可能なフレームワークであるDeALを提案し,LLMのDetime Alignmentを可能にする。実験の結果,粒度の細かいトレードオフでDeALを実現できること,アライメント目標への適合性の向上,LLMの残差の解消が可能であることがわかった。
論文参考訳（メタデータ） (2024-02-05T06:12:29Z)
Improving the Learning of Code Review Successive Tasks with Cross-Task Knowledge Distillation [1.0878040851638]
本研究では,これらのタスクを同時に処理するために,クロスタスク知識蒸留を利用した新しいディープラーニングアーキテクチャdisCOREVを紹介する。提案手法は, BLEUスコアによる評価値と, CodeBLEUスコアによるより正確なコード修正値から, より良いレビューコメントを生成する。
論文参考訳（メタデータ） (2024-02-03T07:02:22Z)
CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。 LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文参考訳（メタデータ） (2023-11-29T08:29:54Z)
Towards Automated Classification of Code Review Feedback to Support Analytics [4.423428708304586]
本研究の目的は,自動コードレビューコメント分類システムを開発することである。コードコンテキスト、コメントテキスト、コードメトリクスのセットを活用した教師付き学習ベースのDNNモデルを訓練し、評価した。提案手法はFregnanらのアプローチよりも18.7%高い精度を実現している。
論文参考訳（メタデータ） (2023-07-07T21:53:20Z)
CRITIC: Large Language Models Can Self-Correct with Tool-Interactive Critiquing [139.77117915309023]
CRITICは、大規模な言語モデルに対して、ツールとのヒューマンインタラクションに似た方法で、自分たちのアウトプットの検証と修正を可能にする。自由形式の質問応答、数学的プログラム合成、毒性低減を含む包括的評価は、CRITICがLLMの性能を一貫して向上することを証明している。
論文参考訳（メタデータ） (2023-05-19T15:19:44Z)
What Makes a Code Review Useful to OpenDev Developers? An Empirical Investigation [4.061135251278187]
コードレビューの有効性が少し改善されても、ソフトウェア開発組織にとってかなりの節約が得られます。本研究の目的は,コードレビューコメントをOSS開発者に有用なものにする方法を,より精細に理解することである。
論文参考訳（メタデータ） (2023-02-22T22:48:27Z)
Aligning Offline Metrics and Human Judgments of Value for Code Generation Models [25.726216146776054]
正確性は高価値な世代をキャプチャするが、プログラマは、コーディングタスクの完了に必要な全体的な労力を減らすことで、単体テストに失敗するコードを価値として評価する。本稿では,機能的正しさと構文的類似性を組み合わせたハイブリッド計量を提案し,値との相関が14%強いことを示す。
論文参考訳（メタデータ） (2022-10-29T05:03:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。