論文の概要: The Last Dependency Crusade: Solving Python Dependency Conflicts with LLMs
- arxiv url: http://arxiv.org/abs/2501.16191v2
- Date: Thu, 16 Oct 2025 14:05:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 16:37:10.28635
- Title: The Last Dependency Crusade: Solving Python Dependency Conflicts with LLMs
- Title(参考訳): LLMによるPython Dependency Conflictsの解決
- Authors: Antony Bartlett, Cynthia Liem, Annibale Panichella,
- Abstract要約: 本稿では,Pythonプログラムの依存性問題を自動的に修復するLarge Language Models (LLMs) について検討する。
本稿では,新しい検索拡張世代 (RAG) アプローチであるHGM (plum) を提案する。
- 参考スコア(独自算出の注目度): 10.800983456810165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Resolving Python dependency issues remains a tedious and error-prone process, forcing developers to manually trial compatible module versions and interpreter configurations. Existing automated solutions, such as knowledge-graph-based and database-driven methods, face limitations due to the variety of dependency error types, large sets of possible module versions, and conflicts among transitive dependencies. This paper investigates the use of Large Language Models (LLMs) to automatically repair dependency issues in Python programs. We propose PLLM (pronounced "plum"), a novel retrieval-augmented generation (RAG) approach that iteratively infers missing or incorrect dependencies. PLLM builds a test environment where the LLM proposes module combinations, observes execution feedback, and refines its predictions using natural language processing (NLP) to parse error messages. We evaluate PLLM on the Gistable HG2.9K dataset, a curated collection of real-world Python programs. Using this benchmark, we explore multiple PLLM configurations, including six open-source LLMs evaluated both with and without RAG. Our findings show that RAG consistently improves fix rates, with the best performance achieved by Gemma-2 9B when combined with RAG. Compared to two state-of-the-art baselines, PyEGo and ReadPyE, PLLM achieves significantly higher fix rates; +15.97\% more than ReadPyE and +21.58\% more than PyEGo. Further analysis shows that PLLM is especially effective for projects with numerous dependencies and those using specialized numerical or machine-learning libraries.
- Abstract(参考訳): Python依存問題の解決はいまだに面倒でエラーを起こしやすいプロセスであり、開発者は互換性のあるモジュールバージョンとインタプリタの設定を手動で試せざるを得ない。
知識グラフベースやデータベース駆動メソッドといった既存の自動化ソリューションは、さまざまな依存性エラータイプ、可能なモジュールバージョンの大規模なセット、過渡的依存関係間の競合による制限に直面します。
本稿では,Pythonプログラムの依存性問題を自動的に修復するLarge Language Models (LLMs) について検討する。
PLLM (plum) は, 新規な検索拡張世代 (RAG) アプローチであり, 欠落や不正確な依存関係を反復的に推測する手法である。
PLLMは、LLMがモジュールの組み合わせを提案し、実行フィードバックを観察し、自然言語処理(NLP)を使用してエラーメッセージを解析する、テスト環境を構築する。
実世界のPythonプログラムのキュレートしたコレクションであるGistable HG2.9Kデータセット上でPLLMを評価する。
このベンチマークを用いて,複数のPLLM構成を探索し,RAGと非RAGの両方で評価された6つのオープンソースLCMについて検討した。
以上の結果から,RAGとRAGを併用した場合,Gemma-2 9Bが最高性能を達成し,一貫した修正率の向上が得られた。
PyEGo と ReadPyE の2つのベースラインと比較すると、PLLM は ReadPyE よりも +15.97 %、PyEGo より +21.58 % 高い固定率を達成する。
さらに分析した結果,PLLMは多くの依存関係を持つプロジェクトや,特殊な数値ライブラリや機械学習ライブラリを使用するプロジェクトでは特に有効であることがわかった。
関連論文リスト
- Optimizing Language Models for Crosslingual Knowledge Consistency [90.86445137816942]
大規模な言語モデルは、しばしば一貫性のない知識を示すことが知られている。
これは、モデルが異なる言語で同様の質問をすることが多い、多言語シナリオにおいて特に問題となる。
本研究では,この問題を構造化報酬関数を用いた強化学習を用いて緩和することができることを示す。
論文 参考訳(メタデータ) (2026-03-04T23:36:55Z) - DSL or Code? Evaluating the Quality of LLM-Generated Algebraic Specifications: A Case Study in Optimization at Kinaxis [1.5821080783312833]
大規模言語モデル(LLM)は、自然言語記述からモデルを直接生成することで、コストバランスのシフトを支援する。
しかし、ドメイン固有の言語では、LLM生成モデルはPythonのような主流言語でLLM生成コードよりも正確ではないかもしれない。
AMPLモデルとPythonコードをNL問題記述から導出するLLMベースのアプローチであるEXEOSを導入する。
論文 参考訳(メタデータ) (2026-01-01T20:48:15Z) - GPT-4.1 Sets the Standard in Automated Experiment Design Using Novel Python Libraries [0.649540541957527]
大規模言語モデル(LLM)は、科学研究におけるコード生成を自動化するツールとして急速に進歩してきた。
本研究では,関数型Pythonコードを生成する上で,最先端のLLMの選択を体系的にベンチマークする。
結果は、モデルの小さなサブセットだけが一貫して正しい実行可能なコードを生成することを示している。
論文 参考訳(メタデータ) (2025-07-30T13:11:29Z) - How Robust are LLM-Generated Library Imports? An Empirical Study using Stack Overflow [3.076436880934678]
6つの大言語モデル(LLM)の実証的研究を行う。
我々は、インポートするライブラリの種類、それらのライブラリの特徴、レコメンデーションがすぐに使える範囲を分析します。
以上の結果から,LSMは標準ライブラリよりもサードパーティライブラリを優先し,成熟し,人気があり,寛容にライセンスされた依存関係を推奨することが多かった。
論文 参考訳(メタデータ) (2025-07-14T21:35:29Z) - RankLLM: A Python Package for Reranking with LLMs [36.83343408896376]
本稿では,大規模言語モデル (LLM) をランク付けするオープンソースPythonパッケージである RankLLM を紹介する。
RankLLMは、ユーザビリティを改善するために、検索用のPyseriniとオプションで統合し、マルチステージパイプラインの総合的な評価を提供する。
RankGPT,LRL, RankVicuna, RankZephyr, その他の最近のモデルの結果を再現する。
論文 参考訳(メタデータ) (2025-05-25T19:29:27Z) - DI-BENCH: Benchmarking Large Language Models on Dependency Inference with Testable Repositories at Scale [39.92722886613929]
DI-BENCHは、大規模言語モデルの依存性推論能力を評価するために設計された、大規模なベンチマークおよび評価フレームワークである。
ベンチマークでは、Python、C#、Rust、JavaScriptにまたがるテスト環境を備えた581のリポジトリが提供されている。
テキストと実行ベースのメトリクスによる大規模な実験により、現在の最高のパフォーマンスモデルは42.9%の実行パス率しか達成していないことが明らかになった。
論文 参考訳(メタデータ) (2025-01-23T14:27:11Z) - SWE-Fixer: Training Open-Source LLMs for Effective and Efficient GitHub Issue Resolution [56.9361004704428]
大規模言語モデル(LLM)は、様々な複雑なタスクにまたがる顕著な習熟度を示している。
SWE-Fixerは、GitHubの問題を効果的かつ効率的に解決するように設計された、オープンソースのLLMである。
110万のGitHubイシューと対応するパッチを含む広範なデータセットをコンパイルし、SWE-Fixerの2つのモジュールを個別にトレーニングします。
論文 参考訳(メタデータ) (2025-01-09T07:54:24Z) - Molly: Making Large Language Model Agents Solve Python Problem More Logically [11.317420065020173]
モリーエージェントは、シナリオベースのインタラクションを通じて学習者の質問意図を解析する。
生成段階では、エージェントは生成されたレスポンスを反映して、実際のコンテンツと整合するだけでなく、ユーザのクエリに効果的に答えるようにします。
論文 参考訳(メタデータ) (2024-12-24T02:08:38Z) - ToolScan: A Benchmark for Characterizing Errors in Tool-Use LLMs [77.79172008184415]
TOOLSCANは、ツール使用タスクのLLM出力におけるエラーパターンを特定するための新しいベンチマークである。
もっとも顕著なLCMでも,これらの誤りパターンが出力に現れることを示す。
研究者たちは、TOOLSCANのこれらの洞察を使って、エラー軽減戦略をガイドすることができる。
論文 参考訳(メタデータ) (2024-11-20T18:56:22Z) - Relational Database Augmented Large Language Model [59.38841050766026]
大規模言語モデル(LLM)は多くの自然言語処理(NLP)タスクに優れる。
彼らは、トレーニングや教師付き微調整プロセスを通じてのみ、新しい知識を取り入れることができる。
この正確で最新のプライベート情報は、通常リレーショナルデータベースに格納される。
論文 参考訳(メタデータ) (2024-07-21T06:19:10Z) - WikiContradict: A Benchmark for Evaluating LLMs on Real-World Knowledge Conflicts from Wikipedia [59.96425443250666]
Retrieval-augmented Generation (RAG) は,大規模言語モデル(LLM)の限界を緩和する,有望なソリューションとして登場した。
本研究では,ウィキペディアからの矛盾文に基づく質問に対するLLM生成回答の総合評価を行う。
我々は、単一のパスを持つRAGと2つの矛盾するパスを持つRAGを含む、様々なQAシナリオ下で、クローズドおよびオープンソース両方のLSMをベンチマークする。
論文 参考訳(メタデータ) (2024-06-19T20:13:42Z) - Refactoring to Pythonic Idioms: A Hybrid Knowledge-Driven Approach Leveraging Large Language Models [23.181371435793494]
多くのPythonユーザは、Pythonのイディオムを使うのが難しいと感じている。
規則の決定とLLMの適応性に動機付けられ,我々はハイブリッドアプローチを提案する。
論文 参考訳(メタデータ) (2024-06-06T00:22:46Z) - pyvene: A Library for Understanding and Improving PyTorch Models via
Interventions [79.72930339711478]
$textbfpyvene$は、さまざまなPyTorchモジュールに対するカスタマイズ可能な介入をサポートするオープンソースライブラリである。
私たちは、$textbfpyvene$が、ニューラルモデルへの介入を実行し、他のモデルとインターバルされたモデルを共有するための統一されたフレームワークを提供する方法を示します。
論文 参考訳(メタデータ) (2024-03-12T16:46:54Z) - PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - ModuleGuard:Understanding and Detecting Module Conflicts in Python
Ecosystem [13.242135844684505]
本稿では,モジュール競合問題とそのPythonエコシステムへの影響を系統的に検討する。
InstSimulatorと呼ばれる新しい手法を提案する。これは,セマンティクスとインストールシミュレーションを利用して,高精度かつ効率的なモジュール抽出を実現する。
これに基づいて、Pythonエコシステムのモジュール競合を検出するModuleGuardというツールを実装しました。
論文 参考訳(メタデータ) (2024-01-04T06:26:07Z) - Turbulence: Systematically and Automatically Testing Instruction-Tuned Large Language Models for Code [11.194047962236793]
本稿では,新しいベンチマークである乱流を用いて,命令調整型大規模言語モデル(LLM)のコード生成における正確性と堅牢性を評価する手法を提案する。
乱流は、多数の自然言語の$textitquestion templates$から成り、それぞれがプログラミングの問題であり、様々な形式で問うことができるようにパラメータ化されている。
単一の質問テンプレートから、LLM に $textitneighbourhood$ と非常によく似たプログラミング質問を問うことができ、各質問に対して返された結果の正しさを評価することができる。
論文 参考訳(メタデータ) (2023-12-22T17:29:08Z) - Less is More? An Empirical Study on Configuration Issues in Python PyPI
Ecosystem [38.44692482370243]
Pythonはオープンソースコミュニティで広く使われている。
サードパーティのライブラリは依存関係の衝突を引き起こす可能性があるため、研究者は依存関係の衝突検知器を開発する必要がある。
依存関係を自動的に推論する試みが実施された。
論文 参考訳(メタデータ) (2023-10-19T09:07:51Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z) - pyBART: Evidence-based Syntactic Transformations for IE [52.93947844555369]
pyBARTは、英語のUD木を拡張UDグラフに変換するためのオープンソースのPythonライブラリである。
パターンに基づく関係抽出のシナリオで評価すると、より少ないパターンを必要としながら、より高精細なUDよりも高い抽出スコアが得られる。
論文 参考訳(メタデータ) (2020-05-04T07:38:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。