Fugu-MT 論文翻訳(概要): Automated Refactoring of Non-Idiomatic Python Code: A Differentiated Replication with LLMs

論文の概要: Automated Refactoring of Non-Idiomatic Python Code: A Differentiated Replication with LLMs

arxiv url: http://arxiv.org/abs/2501.17024v1
Date: Tue, 28 Jan 2025 15:41:54 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-29 22:09:11.184297
Title: Automated Refactoring of Non-Idiomatic Python Code: A Differentiated Replication with LLMs
Title（参考訳）: 非慣用Pythonコードの自動リファクタリング: LLMとの相違
Authors: Alessandro Midolo, Massimiliano Di Penta,
Abstract要約: 本研究は, GPT-4の有効性について検討し, 慣用行動の推奨と示唆について検討した。この結果から,従来は複雑なコード解析に基づくレコメンデータの実装が求められていた,LCMの課題達成の可能性が浮き彫りになった。
参考スコア（独自算出の注目度）: 54.309127753635366
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In the Python ecosystem, the adoption of idiomatic constructs has been fostered because of their expressiveness, increasing productivity and even efficiency, despite controversial arguments concerning familiarity or understandability issues. Recent research contributions have proposed approaches -- based on static code analysis and transformation -- to automatically identify and enact refactoring opportunities of non-idiomatic code into idiomatic ones. Given the potential recently offered by Large Language Models (LLMs) for code-related tasks, in this paper, we present the results of a replication study in which we investigate GPT-4 effectiveness in recommending and suggesting idiomatic refactoring actions. Our results reveal that GPT-4 not only identifies idiomatic constructs effectively but frequently exceeds the benchmark in proposing refactoring actions where the existing baseline failed. A manual analysis of a random sample shows the correctness of the obtained recommendations. Our findings underscore the potential of LLMs to achieve tasks where, in the past, implementing recommenders based on complex code analyses was required.
Abstract（参考訳）: Pythonエコシステムでは、慣れ親しみや理解可能性の問題に関する議論があるにもかかわらず、その表現力、生産性の向上、さらには効率性によって、慣用的な構成物の採用が育まれている。最近の研究では、静的コード分析と変換に基づいて、非慣用的なコードから慣用的なコードへのリファクタリングの機会を自動的に識別し、実行するためのアプローチが提案されている。本稿では,コード関連タスクに対してLarge Language Models (LLMs) が最近提案した可能性を踏まえ,GPT-4の有効性について検討した。その結果, GPT-4は慣用的な構造を効果的に識別するだけでなく, 既存のベースラインが故障したリファクタリング動作において, しばしばベンチマークを超えることが判明した。ランダムなサンプルを手動で分析すると、得られたレコメンデーションの正確性を示す。この結果から,従来,複雑なコード解析に基づくレコメンデータの実装が求められていた,LCMの課題達成の可能性が浮き彫りになった。

関連論文リスト

From Human to Machine Refactoring: Assessing GPT-4's Impact on Python Class Quality and Readability [46.83143241367452]
リファクタリングは、プログラムの振る舞いを変えることなく、コード品質を改善することを目的としている。 LLM(Large Language Models)の最近の進歩は、コードの自動保存に新たな機会をもたらしている。 GPT-4o を用いて,クラスEval ベンチマークから 100 個の Python クラスに適用した LLM 型クラスに関する実証的研究を行った。以上の結果から, GPT-4oは, 可読性の低下を犠牲にしながら, コードの臭いを低減し, 品質指標を改善する行動保存剤を一般的に生産していることが示唆された。
論文参考訳（メタデータ） (2026-01-19T15:22:37Z)
Test Case Generation from Bug Reports via Large Language Models: A Cognitive Layered Evaluation Framework [10.919459368597295]
テストケース生成におけるLarge Language Models(LLM)推論の体系的評価について述べる。言語的・意味的課題を導入した欠陥4J, GHRB, 変異変種についてStarCoderとGPT-4oを評価した。
論文参考訳（メタデータ） (2025-10-06T20:47:12Z)
CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文参考訳（メタデータ） (2025-08-05T17:55:24Z)
On Evaluating Performance of LLM Inference Serving Systems [11.712948114304925]
ベースラインフェアネス、評価設定、メトリックデザインの3つの重要な側面で繰り返し発生するアンチパターンを特定します。これらのアンチパターンは、その二重相の性質のため、Large Language Model (LLM)推論に固有の問題である。分析から得られた包括的なチェックリストを提供し、これらのアンチパターンを認識して回避するためのフレームワークを構築します。
論文参考訳（メタデータ） (2025-07-11T20:58:21Z)
Optimizing Case-Based Reasoning System for Functional Test Script Generation with Large Language Models [18.24326624696047]
テスト意図記述とそれに対応するテストスクリプトのケースバンクを保守し活用するケースベース推論(CBR)システムを提案する。ユーザエクスペリエンスをさらに向上するために,再ランクベースの検索微調整と再利用微調整を併用したCBRシステムの最適化手法であるRe4を導入する。
論文参考訳（メタデータ） (2025-03-26T14:23:59Z)
Self-Corrective Task Planning by Inverse Prompting with Large Language Models [9.283971287618261]
InversePromptは,新しい自己修正型タスクプランニング手法である。提案手法は、明確な解釈可能なフィードバックを提供するための推論ステップを組み込んだものである。ベンチマークデータセットの結果は、既存のLCMベースのタスク計画手法よりも平均16.3%高い成功率を示している。
論文参考訳（メタデータ） (2025-03-10T13:35:51Z)
Scoring Verifiers: Evaluating Synthetic Verification for Code and Reasoning [59.25951947621526]
本稿では,既存の符号化ベンチマークをスコアとランキングデータセットに変換して,合成検証の有効性を評価する手法を提案する。我々は4つの新しいベンチマーク(HE-R, HE-R+, MBPP-R, MBPP-R+)を公表し, 標準, 推論, 報酬に基づくLCMを用いて合成検証手法を解析した。実験の結果, 推論はテストケースの生成を著しく改善し, テストケースのスケーリングによって検証精度が向上することがわかった。
論文参考訳（メタデータ） (2025-02-19T15:32:11Z)
Generating refactored code accurately using reinforcement learning [3.179831861897336]
そこで本研究では,Javaソースコードの自動抽出を行うために,プログラム言語モデルを微調整・整合化するための強化学習に基づく新しい手法を提案する。提案手法は,PPO(Proximal Policy Optimization)アルゴリズムを用いて,シーケンス・ツー・シーケンス生成モデルを微調整する。我々の実験は、我々のアプローチがコードにおける大きな言語モデルの性能を大幅に向上させることを示した。
論文参考訳（メタデータ） (2024-12-23T23:09:48Z)
What You See Is Not Always What You Get: An Empirical Study of Code Comprehension by Large Language Models [0.5735035463793009]
本研究では,LLM を悪用する特殊文字を用いたインジェクション攻撃の一種である,知覚不能な文字攻撃に対する特定の LLM 脆弱性について検討する。攻撃の4つのカテゴリを考案し、コード解析とコード理解に関連するタスクのパフォーマンスへの影響について検討する。
論文参考訳（メタデータ） (2024-12-11T04:52:41Z)
SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文参考訳（メタデータ） (2024-08-28T06:33:03Z)
Source Code Summarization in the Era of Large Language Models [23.715005053430957]
大規模言語モデル(LLM)は、コード関連のタスクのパフォーマンスを大幅に向上させた。本稿では,LLMにおけるコード要約の体系的および包括的研究を行う。
論文参考訳（メタデータ） (2024-07-09T05:48:42Z)
DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文参考訳（メタデータ） (2024-06-25T04:27:53Z)
SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Behaviors [64.9938658716425]
安全でないユーザリクエストを認識して拒否する、大規模な言語モデル(LLM)の既存の評価は、3つの制限に直面している。まず、既存の手法では、安全でないトピックの粗い粒度を使い、いくつかのきめ細かいトピックを過剰に表現している。第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。第3に、既存の評価は大きなLCMに頼っているため、コストがかかる可能性がある。
論文参考訳（メタデータ） (2024-06-20T17:56:07Z)
LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。 GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文参考訳（メタデータ） (2024-01-01T13:53:53Z)
Testing LLMs on Code Generation with Varying Levels of Prompt Specificity [0.0]
大規模言語モデル (LLM) は、人間のようなテキスト生成と処理を模倣する非並列的な技術を示している。自然言語のプロンプトを実行可能なコードに変換する可能性は、ソフトウェア開発プラクティスの大きな変化を約束します。
論文参考訳（メタデータ） (2023-11-10T23:41:41Z)
Benchmarking Large Language Models in Retrieval-Augmented Generation [53.504471079548]
大規模言語モデルに対する検索拡張生成の影響を系統的に検討する。我々は、RAGに必要な4つの基本能力で、異なる大規模言語モデルの性能を解析する。 RGB(Retrieval-Augmented Generation Benchmark)は、英語と中国語の両方でRAG評価を行うための新しいコーパスである。
論文参考訳（メタデータ） (2023-09-04T08:28:44Z)
Benchmarking Causal Study to Interpret Large Language Models for Source Code [6.301373791541809]
本稿では,3つのSEタスクをキュレートしたテストベッドからなるGalerasというベンチマーク戦略を紹介する。本稿では,ChatGPTの性能に関するケーススタディを,個別の迅速なエンジニアリング手法で実施することで,ベンチマーク戦略の知見を述べる。
論文参考訳（メタデータ） (2023-08-23T20:32:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。