論文の概要: Prometheus: Unified Knowledge Graphs for Issue Resolution in Multilingual Codebases
- arxiv url: http://arxiv.org/abs/2507.19942v1
- Date: Sat, 26 Jul 2025 13:13:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:56.474033
- Title: Prometheus: Unified Knowledge Graphs for Issue Resolution in Multilingual Codebases
- Title(参考訳): Prometheus: 多言語コードベースにおける課題解決のための統一知識グラフ
- Authors: Zimin Chen, Yue Pan, Siyu Lu, Jiayi Xu, Claire Le Goues, Martin Monperrus, He Ye,
- Abstract要約: 提案するPrometheusは,ベンチマーク設定を超えて現実の問題を解決するように設計されている。
Prometheusはファイル、抽象構文木、自然言語テキストを型付きノードのグラフにエンコードする。
Prometheus は SWE-bench Lite と SWE-bench Multilingual でそれぞれ 28.67% と 13.7% の問題を解決している。
- 参考スコア(独自算出の注目度): 18.0836055939777
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Language model (LM) agents, such as SWE-agent and OpenHands, have made progress toward automated issue resolution. However, existing approaches are often limited to Python-only issues and rely on pre-constructed containers in SWE-bench with reproduced issues, restricting their applicability to real-world and work for multi-language repositories. We present Prometheus, designed to resolve real-world issues beyond benchmark settings. Prometheus is a multi-agent system that transforms an entire code repository into a unified knowledge graph to guide context retrieval for issue resolution. Prometheus encodes files, abstract syntax trees, and natural language text into a graph of typed nodes and five general edge types to support multiple programming languages. Prometheus uses Neo4j for graph persistence, enabling scalable and structured reasoning over large codebases. Integrated by the DeepSeek-V3 model, Prometheus resolves 28.67% and 13.7% of issues on SWE-bench Lite and SWE-bench Multilingual, respectively, with an average API cost of $0.23 and $0.38 per issue. Prometheus resolves 10 unique issues not addressed by prior work and is the first to demonstrate effectiveness across seven programming languages. Moreover, it shows the ability to resolve real-world GitHub issues in the LangChain and OpenHands repositories. We have open-sourced Prometheus at: https://github.com/Pantheon-temple/Prometheus
- Abstract(参考訳): SWEエージェントやOpenHandsのような言語モデル(LM)エージェントは、自動問題解決に向けて進歩している。
しかしながら、既存のアプローチはPythonのみの問題に制限されることが多く、SWE-benchの事前構築されたコンテナに再現された問題に依存しており、現実への適用性やマルチ言語リポジトリでの動作を制限する。
提案するPrometheusは,ベンチマーク設定を超えて現実の問題を解決するように設計されている。
Prometheusは、コードリポジトリ全体を統一知識グラフに変換し、課題解決のためのコンテキスト検索をガイドするマルチエージェントシステムである。
Prometheusは、ファイル、抽象構文木、自然言語テキストを、複数のプログラミング言語をサポートするために、型付きノードと5つの一般的なエッジ型のグラフにエンコードする。
Prometheusはグラフの永続化にNeo4jを使用し、大規模コードベース上でスケーラブルで構造化された推論を可能にする。
DeepSeek-V3モデルによって統合され、PrometheusはSWE-bench LiteとSWE-bench Multilingualでそれぞれ28.67%と13.7%の問題を解決している。
Prometheusは、以前の作業で対処されていない10のユニークな問題を解決し、7つのプログラミング言語で効果を初めて実証した。
さらに、LangChainとOpenHandsリポジトリで現実のGitHub問題を解決する機能を示している。
https://github.com/Pantheon-temple/Prometheus.comでPrometheusをオープンソース化しました。
関連論文リスト
- SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving [90.32201622392137]
We present SwingArena, a competitive evaluation framework for Large Language Models (LLMs)。
従来の静的ベンチマークとは異なり、SwingArenaはLLMをイテレーションとして組み合わせて、テストケースを作成し、継続的インテグレーション(CI)パイプラインを通じてパッチを検証するパッチとレビュアーを生成することで、ソフトウェアのコラボレーションプロセスをモデル化する。
論文 参考訳(メタデータ) (2025-05-29T18:28:02Z) - OmniGIRL: A Multilingual and Multimodal Benchmark for GitHub Issue Resolution [34.087547492498224]
GitHubのイシュー解決タスクは、リポジトリで報告された問題を自動的に解決することを目的としている。
大規模言語モデル(LLM)の進歩に伴い,この課題が注目されている。
我々は、多言語、マルチモーダル、マルチドメインのGitHub Issue ResoLutionベンチマークであるOmniGIRLを提案する。
論文 参考訳(メタデータ) (2025-05-07T17:51:10Z) - SWE-bench Multimodal: Do AI Systems Generalize to Visual Software Domains? [64.34184587727334]
視覚的ユーザ向けJavaScriptソフトウェアにおけるバグ修正機能に基づいて,システム評価を行うSWE-bench Multimodalを提案する。
SWE-bench Mは、Webインターフェース設計、ダイアグラム、データ視覚化、シンタックスハイライト、インタラクティブマッピングに使用される17のJavaScriptライブラリから収集された617のタスクインスタンスを特徴とする。
分析の結果,SWE-benchシステムはSWE-bench Mと競合し,視覚的問題解決や言語間の一般化に限界があることが判明した。
論文 参考訳(メタデータ) (2024-10-04T18:48:58Z) - Improving Automatic Text Recognition with Language Models in the PyLaia Open-Source Library [3.3484434195495605]
本稿では,信頼度スコアの組み入れと復号時の統計的言語モデリングの統合に着目した。
我々の実装は、異なるレベルでPyLaiaとn-gramの言語モデルを簡単に組み合わせる方法を提供する。
我々はPyLaiaの性能を言語モデリングと非言語モデルの両方で12のデータセットで評価した。
論文 参考訳(メタデータ) (2024-04-29T14:11:16Z) - SWE-bench: Can Language Models Resolve Real-World GitHub Issues? [80.52201658231895]
SWE-benchは、実際のGitHub問題から引き出された2,294ドルのソフトウェアエンジニアリング問題と、人気のあるPythonリポジトリ12ドルのプルリクエストで構成される評価フレームワークである。
我々は、最先端のプロプライエタリモデルと微調整モデルSWE-Llamaの両方が、最も単純な問題だけを解決できることを示します。
論文 参考訳(メタデータ) (2023-10-10T16:47:29Z) - ADELT: Transpilation Between Deep Learning Frameworks [12.30248336523211]
Adversarial DEep Learning Transpiler (ADELT)は、ディープラーニングフレームワーク間のソースからソースへのトランスパイラのための新しいアプローチである。
コードスケルトントランスパイレーションでは、大きな言語モデル(LLM)で数発のプロンプトを使用するが、APIキーワードマッピングでは、コード固有のBERTからのコンテキスト埋め込みを使用する。
ADELTは、手作りのルールや並列データに頼ることなく、ラベルなしのWebcrawled Deep Learning Corpusでトレーニングされている。
論文 参考訳(メタデータ) (2023-03-07T01:57:10Z) - Binding Language Models in Symbolic Languages [146.3027328556881]
Binderはトレーニング不要のニューラルシンボリックフレームワークで、タスク入力をプログラムにマッピングする。
解析の段階では、Codexは元のプログラミング言語では答えられないタスク入力の一部を特定することができる。
実行段階では、CodexはAPI呼び出しで適切なプロンプトを与えられた万能機能を実行することができる。
論文 参考訳(メタデータ) (2022-10-06T12:55:17Z) - UniMorph 4.0: Universal Morphology [104.69846084893298]
本稿は,過去2年間のいくつかの前線における展開と改善について述べる。
多くの言語学者による共同作業により、30の絶滅危惧言語を含む67の新しい言語が追加された。
前回のUniMorphリリースに合わせて,16言語で形態素セグメンテーションを施したデータベースも拡張した。
論文 参考訳(メタデータ) (2022-05-07T09:19:02Z) - A Systematic Evaluation of Large Language Models of Code [88.34057460577957]
コードの大規模な言語モデル(LM)は、最近、コードを完成させ、自然言語記述からコードを合成する大きな可能性を示しています。
現在の最先端のコードLMは公開されておらず、モデルやデータ設計の決定について多くの疑問が残されている。
Codexはオープンソースではありませんが、既存のオープンソースモデルはいくつかのプログラミング言語でクローズな結果が得られることが分かりました。
GPT-2アーキテクチャに基づいた2.7Bパラメータを持つ新しいモデルPolyCoderをリリースし、12のプログラミング言語を1台のマシンで249GBのコードでトレーニングした。
論文 参考訳(メタデータ) (2022-02-26T15:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。