論文の概要: More Code, Less Reuse: Investigating Code Quality and Reviewer Sentiment towards AI-generated Pull Requests
- arxiv url: http://arxiv.org/abs/2601.21276v1
- Date: Thu, 29 Jan 2026 05:13:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.58723
- Title: More Code, Less Reuse: Investigating Code Quality and Reviewer Sentiment towards AI-generated Pull Requests
- Title(参考訳): コードの改善と再利用の削減 - AI生成プルリクエストに対するコード品質とレビューアの感性の調査
- Authors: Haoming Huang, Pongchai Jaisri, Shota Shimizu, Lingfeng Chen, Sota Nakashima, Gema Rodríguez-Pérez,
- Abstract要約: 大規模言語モデル(LLM)エージェントは急速に進歩しており、コード生成のような開発タスクを支援するためにLLMエージェントの利用が増加している。
既存のメトリクスは、パスレートのみを計測し、長期的な保守性と可読性への影響を反映しない。
コードメトリクスに基づいてPR内のコード品質と保守性を観察し、人間とLLM世代の両方からのプルリクエストに対する客観的特性と開発者の反応を評価する。
- 参考スコア(独自算出の注目度): 1.2314765641075438
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Model (LLM) Agents are advancing quickly, with the increasing leveraging of LLM Agents to assist in development tasks such as code generation. While LLM Agents accelerate code generation, studies indicate they may introduce adverse effects on development. However, existing metrics solely measure pass rates, failing to reflect impacts on long-term maintainability and readability, and failing to capture human intuitive evaluations of PR. To increase the comprehensiveness of this problem, we investigate and evaluate the characteristics of LLM to know the pull requests' characteristics beyond the pass rate. We observe the code quality and maintainability within PRs based on code metrics to evaluate objective characteristics and developers' reactions to the pull requests from both humans and LLM's generation. Evaluation results indicate that LLM Agents frequently disregard code reuse opportunities, resulting in higher levels of redundancy compared to human developers. In contrast to the quality issues, our emotions analysis reveals that reviewers tend to express more neutral or positive emotions towards AI-generated contributions than human ones. This disconnect suggests that the surface-level plausibility of AI code masks redundancy, leading to the silent accumulation of technical debt in real-world development environments. Our research provides insights for improving human-AI collaboration.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは急速に進歩しており、コード生成のような開発タスクを支援するためにLLMエージェントの利用が増加している。
LLMエージェントはコード生成を加速するが、研究は開発に悪影響を及ぼす可能性があることを示している。
しかし、既存のメトリクスはパスレートのみを計測し、長期的な保守性と可読性への影響を反映せず、人間によるPRの直感的な評価を捉えていない。
この問題の包括性を高めるため,パスレートを超えるプルリクエストの特性を知るため,LLMの特性を調査し,評価する。
コードメトリクスに基づいてPR内のコード品質と保守性を観察し、人間とLLM世代の両方からのプルリクエストに対する客観的特性と開発者の反応を評価する。
評価結果から, LLMエージェントはコード再利用の機会を無視することが多く, 開発者に比べて冗長度が高いことが示唆された。
品質問題とは対照的に、私たちの感情分析は、レビュアーが人間よりもAIが生み出す貢献に対してより中立的あるいはポジティブな感情を表現する傾向があることを示している。
この断絶は、AIコードの表面的な可視性は冗長性を隠蔽し、現実世界の開発環境における技術的負債のサイレントな蓄積につながることを示唆している。
我々の研究は、人間とAIのコラボレーションを改善するための洞察を提供する。
関連論文リスト
- AI IDEs or Autonomous Agents? Measuring the Impact of Coding Agents on Software Development [12.50615284537175]
大規模言語モデル(LLM)ベースのコーディングエージェントは、プルリクエストの生成とマージを行う自律的なコントリビュータとして機能するようになっている。
本稿では,オープンソースリポジトリにおけるエージェント導入の経時的因果関係について検討する。
論文 参考訳(メタデータ) (2026-01-20T04:51:56Z) - A Causal Perspective on Measuring, Explaining and Mitigating Smells in LLM-Generated Code [49.09545217453401]
Propensity Smelly Score (PSC) は、特定の臭いの種類を生成する確率を推定する計量である。
我々は、生成戦略、モデルサイズ、モデルアーキテクチャ、および生成したコードの構造特性をいかに形成するかを識別する。
PSCは、開発者がモデルの振る舞いを解釈し、コード品質を評価するのに役立つ。
論文 参考訳(メタデータ) (2025-11-19T19:18:28Z) - CoCoNUTS: Concentrating on Content while Neglecting Uninformative Textual Styles for AI-Generated Peer Review Detection [60.52240468810558]
我々は、AI生成ピアレビューの詳細なデータセットの上に構築されたコンテンツ指向ベンチマークであるCoCoNUTSを紹介する。
また、マルチタスク学習フレームワークを介してAIレビュー検出を行うCoCoDetを開発し、レビューコンテンツにおけるAIのより正確で堅牢な検出を実現する。
論文 参考訳(メタデータ) (2025-08-28T06:03:11Z) - A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code [49.009041488527544]
A.S.Eは、AI生成コードのセキュリティを評価するためのリポジトリレベルの評価ベンチマークである。
現在の大規模言語モデル(LLM)は、セキュアなコーディングに苦戦している。
大きな推論予算は、必ずしもより良いコード生成につながるとは限らない。
論文 参考訳(メタデータ) (2025-08-25T15:11:11Z) - Evaluating LLM-Contaminated Crowdsourcing Data Without Ground Truth [18.069595635842557]
クラウドソーシングワーカーによる大規模言語モデル(LLM)は、人間の入力を反映するデータセットに挑戦する。
LLMの共謀を考慮に入れたクラウドソーシングモデルの下で,理論的保証付き学習自由スコアリング機構を提案する。
論文 参考訳(メタデータ) (2025-06-08T04:38:39Z) - Bridging LLM-Generated Code and Requirements: Reverse Generation technique and SBC Metric for Developer Insights [0.0]
本稿では,SBCスコアと呼ばれる新しいスコアリング機構を提案する。
これは、大規模言語モデルの自然言語生成能力を活用するリバースジェネレーション技術に基づいている。
直接コード解析とは異なり、我々のアプローチはAI生成コードからシステム要求を再構築し、元の仕様と比較する。
論文 参考訳(メタデータ) (2025-02-11T01:12:11Z) - How Far Are LLMs from Believable AI? A Benchmark for Evaluating the Believability of Human Behavior Simulation [46.42384207122049]
我々は,人間の振る舞いをシミュレートする際の大規模言語モデル (LLM) の信頼性を評価するために SimulateBench を設計する。
SimulateBenchに基づいて、文字をシミュレートする際、広く使われている10個のLLMの性能を評価する。
論文 参考訳(メタデータ) (2023-12-28T16:51:11Z) - Self-RAG: Learning to Retrieve, Generate, and Critique through
Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。
自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。
様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-17T18:18:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。