論文の概要: More Code, Less Reuse: Investigating Code Quality and Reviewer Sentiment towards AI-generated Pull Requests
- arxiv url: http://arxiv.org/abs/2601.21276v1
- Date: Thu, 29 Jan 2026 05:13:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.58723
- Title: More Code, Less Reuse: Investigating Code Quality and Reviewer Sentiment towards AI-generated Pull Requests
- Title(参考訳): コードの改善と再利用の削減 - AI生成プルリクエストに対するコード品質とレビューアの感性の調査
- Authors: Haoming Huang, Pongchai Jaisri, Shota Shimizu, Lingfeng Chen, Sota Nakashima, Gema Rodríguez-Pérez,
- Abstract要約: 大規模言語モデル(LLM)エージェントは急速に進歩しており、コード生成のような開発タスクを支援するためにLLMエージェントの利用が増加している。
既存のメトリクスは、パスレートのみを計測し、長期的な保守性と可読性への影響を反映しない。
コードメトリクスに基づいてPR内のコード品質と保守性を観察し、人間とLLM世代の両方からのプルリクエストに対する客観的特性と開発者の反応を評価する。
- 参考スコア(独自算出の注目度): 1.2314765641075438
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Model (LLM) Agents are advancing quickly, with the increasing leveraging of LLM Agents to assist in development tasks such as code generation. While LLM Agents accelerate code generation, studies indicate they may introduce adverse effects on development. However, existing metrics solely measure pass rates, failing to reflect impacts on long-term maintainability and readability, and failing to capture human intuitive evaluations of PR. To increase the comprehensiveness of this problem, we investigate and evaluate the characteristics of LLM to know the pull requests' characteristics beyond the pass rate. We observe the code quality and maintainability within PRs based on code metrics to evaluate objective characteristics and developers' reactions to the pull requests from both humans and LLM's generation. Evaluation results indicate that LLM Agents frequently disregard code reuse opportunities, resulting in higher levels of redundancy compared to human developers. In contrast to the quality issues, our emotions analysis reveals that reviewers tend to express more neutral or positive emotions towards AI-generated contributions than human ones. This disconnect suggests that the surface-level plausibility of AI code masks redundancy, leading to the silent accumulation of technical debt in real-world development environments. Our research provides insights for improving human-AI collaboration.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは急速に進歩しており、コード生成のような開発タスクを支援するためにLLMエージェントの利用が増加している。
LLMエージェントはコード生成を加速するが、研究は開発に悪影響を及ぼす可能性があることを示している。
しかし、既存のメトリクスはパスレートのみを計測し、長期的な保守性と可読性への影響を反映せず、人間によるPRの直感的な評価を捉えていない。
この問題の包括性を高めるため,パスレートを超えるプルリクエストの特性を知るため,LLMの特性を調査し,評価する。
コードメトリクスに基づいてPR内のコード品質と保守性を観察し、人間とLLM世代の両方からのプルリクエストに対する客観的特性と開発者の反応を評価する。
評価結果から, LLMエージェントはコード再利用の機会を無視することが多く, 開発者に比べて冗長度が高いことが示唆された。
品質問題とは対照的に、私たちの感情分析は、レビュアーが人間よりもAIが生み出す貢献に対してより中立的あるいはポジティブな感情を表現する傾向があることを示している。
この断絶は、AIコードの表面的な可視性は冗長性を隠蔽し、現実世界の開発環境における技術的負債のサイレントな蓄積につながることを示唆している。
我々の研究は、人間とAIのコラボレーションを改善するための洞察を提供する。
関連論文リスト
- AI IDEs or Autonomous Agents? Measuring the Impact of Coding Agents on Software Development [12.50615284537175]
大規模言語モデル(LLM)ベースのコーディングエージェントは、プルリクエストの生成とマージを行う自律的なコントリビュータとして機能するようになっている。
本稿では,オープンソースリポジトリにおけるエージェント導入の経時的因果関係について検討する。
論文 参考訳(メタデータ) (2026-01-20T04:51:56Z) - A Causal Perspective on Measuring, Explaining and Mitigating Smells in LLM-Generated Code [49.09545217453401]
Propensity Smelly Score (PSC) は、特定の臭いの種類を生成する確率を推定する計量である。
我々は、生成戦略、モデルサイズ、モデルアーキテクチャ、および生成したコードの構造特性をいかに形成するかを識別する。
PSCは、開発者がモデルの振る舞いを解釈し、コード品質を評価するのに役立つ。
論文 参考訳(メタデータ) (2025-11-19T19:18:28Z) - RECODE-H: A Benchmark for Research Code Development with Interactive Human Feedback [87.97664892075811]
研究論文やリポジトリからの102タスクのベンチマークであるRECODE-Hを提案する。
構造化された命令、単体テスト、現実的な研究者とエージェントのコラボレーションを反映する5段階のフィードバック階層が含まれる。
フィードバックを反復的なコード生成に統合するフレームワークであるReCodeAgentも紹介します。
論文 参考訳(メタデータ) (2025-10-07T17:45:35Z) - CoCoNUTS: Concentrating on Content while Neglecting Uninformative Textual Styles for AI-Generated Peer Review Detection [60.52240468810558]
我々は、AI生成ピアレビューの詳細なデータセットの上に構築されたコンテンツ指向ベンチマークであるCoCoNUTSを紹介する。
また、マルチタスク学習フレームワークを介してAIレビュー検出を行うCoCoDetを開発し、レビューコンテンツにおけるAIのより正確で堅牢な検出を実現する。
論文 参考訳(メタデータ) (2025-08-28T06:03:11Z) - A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code [49.009041488527544]
A.S.Eは、AI生成コードのセキュリティを評価するためのリポジトリレベルの評価ベンチマークである。
現在の大規模言語モデル(LLM)は、セキュアなコーディングに苦戦している。
大きな推論予算は、必ずしもより良いコード生成につながるとは限らない。
論文 参考訳(メタデータ) (2025-08-25T15:11:11Z) - Evaluating LLM-Contaminated Crowdsourcing Data Without Ground Truth [18.069595635842557]
クラウドソーシングワーカーによる大規模言語モデル(LLM)は、人間の入力を反映するデータセットに挑戦する。
LLMの共謀を考慮に入れたクラウドソーシングモデルの下で,理論的保証付き学習自由スコアリング機構を提案する。
論文 参考訳(メタデータ) (2025-06-08T04:38:39Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - Bridging LLM-Generated Code and Requirements: Reverse Generation technique and SBC Metric for Developer Insights [0.0]
本稿では,SBCスコアと呼ばれる新しいスコアリング機構を提案する。
これは、大規模言語モデルの自然言語生成能力を活用するリバースジェネレーション技術に基づいている。
直接コード解析とは異なり、我々のアプローチはAI生成コードからシステム要求を再構築し、元の仕様と比較する。
論文 参考訳(メタデータ) (2025-02-11T01:12:11Z) - RGD: Multi-LLM Based Agent Debugger via Refinement and Generation Guidance [0.6062751776009752]
大規模言語モデル(LLM)は、コード生成タスクにおいて驚くべきポテンシャルを示しています。
LLMはタスク記述に基づいてコードを生成することができるが、精度は限られている。
コード生成と自動デバッグのためのLLMエージェントの新しいアーキテクチャ:Refinement and Guidancebug (RGD)を紹介する。
RGDはコード生成タスクを複数のステップに分割し、より明確なワークフローを確保し、自己回帰とフィードバックに基づいた反復的なコード改善を可能にする。
論文 参考訳(メタデータ) (2024-10-02T05:07:02Z) - How Far Are LLMs from Believable AI? A Benchmark for Evaluating the Believability of Human Behavior Simulation [46.42384207122049]
我々は,人間の振る舞いをシミュレートする際の大規模言語モデル (LLM) の信頼性を評価するために SimulateBench を設計する。
SimulateBenchに基づいて、文字をシミュレートする際、広く使われている10個のLLMの性能を評価する。
論文 参考訳(メタデータ) (2023-12-28T16:51:11Z) - Self-RAG: Learning to Retrieve, Generate, and Critique through
Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。
自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。
様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-17T18:18:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。