論文の概要: code_transformed: The Influence of Large Language Models on Code
- arxiv url: http://arxiv.org/abs/2506.12014v1
- Date: Fri, 13 Jun 2025 17:59:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.919041
- Title: code_transformed: The Influence of Large Language Models on Code
- Title(参考訳): code_transformed: 大規模言語モデルがコードに与える影響
- Authors: Yuliang Xu, Siming Huang, Mingmeng Geng, Yao Wan, Xuanhua Shi, Dongping Chen,
- Abstract要約: 本稿では,大規模言語モデルがコードスタイルに与える影響を調査する先駆的な研究について述べる。
2020年から2025年の間に発行されたarXivの論文にリンクされた19,000以上のGitHubリポジトリからコードを分析します。
実験の結果,LLMが実世界のプログラミングスタイルに影響を及ぼすという,最初の大規模な実証的証拠が得られた。
- 参考スコア(独自算出の注目度): 5.365515830102181
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Coding remains one of the most fundamental modes of interaction between humans and machines. With the rapid advancement of Large Language Models (LLMs), code generation capabilities have begun to significantly reshape programming practices. This development prompts a central question: Have LLMs transformed code style, and how can such transformation be characterized? In this paper, we present a pioneering study that investigates the impact of LLMs on code style, with a focus on naming conventions, complexity, maintainability, and similarity. By analyzing code from over 19,000 GitHub repositories linked to arXiv papers published between 2020 and 2025, we identify measurable trends in the evolution of coding style that align with characteristics of LLM-generated code. For instance, the proportion of snake\_case variable names in Python code increased from 47% in Q1 2023 to 51% in Q1 2025. Furthermore, we investigate how LLMs approach algorithmic problems by examining their reasoning processes. Given the diversity of LLMs and usage scenarios, among other factors, it is difficult or even impossible to precisely estimate the proportion of code generated or assisted by LLMs. Our experimental results provide the first large-scale empirical evidence that LLMs affect real-world programming style.
- Abstract(参考訳): コーディングは、人間と機械の相互作用の最も基本的なモードの1つである。
LLM(Large Language Models)の急速な進歩により、コード生成能力はプログラミングの実践を大きく変え始めた。
LLMはコードスタイルをトランスフォーメーションし、そのようなトランスフォーメーションをどうやって特徴付けることができるのか?
本稿では,LLMがコードスタイルに与える影響について,命名規則,複雑性,保守性,類似性に着目した先駆的な研究を行う。
2020年から2025年の間に発行されたarXivの論文にリンクされた19,000以上のGitHubリポジトリからコードを分析することで、LLM生成コードの特徴に合わせたコーディングスタイルの進化における測定可能なトレンドを特定します。
例えば、Pythonコードのスネークケース変数名の割合は、2023年Q1の47%から2025年Q1の51%に増加した。
さらに,LLMがアルゴリズム的問題にどのようにアプローチするかを,その推論過程を検証して検討する。
LLMの多様性と利用シナリオを考えると、LLMが生成または補助するコードの比率を正確に見積もることは困難または不可能である。
実験の結果,LLMが実世界のプログラミングスタイルに影響を及ぼすという,最初の大規模な実証的証拠が得られた。
関連論文リスト
- Code Evolution Graphs: Understanding Large Language Model Driven Design of Algorithms [2.827573861233375]
大規模言語モデル(LLM)はコード生成において大きな可能性を証明しています。
3つのベンチマーク問題クラスの結果を示し、新しい知見を示す。
論文 参考訳(メタデータ) (2025-03-20T19:30:22Z) - Crystal: Illuminating LLM Abilities on Language and Code [58.5467653736537]
本稿では,自然言語と符号化機能の統合性を高めるための事前学習戦略を提案する。
結果のモデルであるCrystalは、両方のドメインで顕著な能力を示します。
論文 参考訳(メタデータ) (2024-11-06T10:28:46Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - Beyond Functional Correctness: Investigating Coding Style Inconsistencies in Large Language Models [28.295926947968574]
大規模言語モデル(LLM)は、コード生成の分野にパラダイムシフトをもたらした。
我々は、コードLLMによって生成されたコードと、人間の開発者が書いたコードとのコーディングスタイルの違いを経験的に分析する。
論文 参考訳(メタデータ) (2024-06-29T14:56:11Z) - Natural Is The Best: Model-Agnostic Code Simplification for Pre-trained Large Language Models [6.646510073473929]
本稿では,SlimCodeを提案する。SlimCodeは大規模言語モデルのための,モデルに依存しないコード単純化ソリューションである。
SlimCodeは、コード検索と要約におけるMRRおよびBLEUスコアの9.46%と5.15%の最先端技術を改善することができる。
論文 参考訳(メタデータ) (2024-05-18T06:15:52Z) - Perplexed: Understanding When Large Language Models are Confused [3.4208414448496027]
本稿では,言語モデルが複雑になる場所を探索するライブラリであるperplexedを紹介する。
Codetokenizerと呼ばれるコードモデルの解析を支援するために構築した追加ツールを使用して、コード生成のためのLLM(Large Language Models)に焦点を当てたケーススタディを実施しました。
我々の研究したコードLLMは、コードが構文的に正しくないコーディング構造において、最悪のパフォーマンスを示しました。
論文 参考訳(メタデータ) (2024-04-09T22:03:39Z) - InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z) - Assured LLM-Based Software Engineering [51.003878077888686]
この記事では,2024年4月15日にポルトガルのリスボンで開催された International Workshop on Interpretability, Robustness, and Benchmarking in Neural Software Engineering で,Mark Harman 氏による基調講演の内容の概要を紹介する。
論文 参考訳(メタデータ) (2024-02-06T20:38:46Z) - Mutation-based Consistency Testing for Evaluating the Code Understanding
Capability of LLMs [5.549095839198671]
大きな言語モデル(LLM)は、自然言語とプログラミング言語の両方を処理する際、顕著な能力を示している。
本稿では,LLMのコード理解性能を評価する新しい手法を提案し,特にコードと記述の微妙な差異に着目した。
演算子置換やステートメント削除など,さまざまなタイプのコード突然変異を適用して,一貫性のないコード記述ペアを生成する。
我々は,現在最先端のコード生成ベンチマークであるHumanEval-Xを用いて,GPT-3.5とGPT-4の2つのLLMのケーススタディを行う。
論文 参考訳(メタデータ) (2024-01-11T14:27:43Z) - Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。
コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T06:12:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。