Fugu-MT 論文翻訳(概要): Code Researcher: Deep Research Agent for Large Systems Code and Commit History

論文の概要: Code Researcher: Deep Research Agent for Large Systems Code and Commit History

arxiv url: http://arxiv.org/abs/2506.11060v1
Date: Tue, 27 May 2025 04:57:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-22 23:32:14.53054
Title: Code Researcher: Deep Research Agent for Large Systems Code and Commit History
Title（参考訳）: コード研究者:大規模システムコードとコミット履歴のためのディープリサーチエージェント
Authors: Ramneet Singh, Sathvik Joel, Abhav Mehrotra, Nalin Wadhwa, Ramakrishna B Bairi, Aditya Kanade, Nagarajan Natarajan,
Abstract要約: LLM(Large Language Model)ベースのコーディングエージェントは、コーディングベンチマークにおいて有望な結果を示しているが、システムコードに対するその効果は未調査である。 Code Researcherと呼ばれるコードのための最初のディープリサーチエージェントを設計し、システムコードに報告されたクラッシュを緩和するためのパッチを生成する問題に適用する。 Code Researcherは、セマンティクス、パターン、そして十分なコンテキストを集めるためにコードのコミット履歴に関する多段階の推論を実行する。
参考スコア（独自算出の注目度）: 6.13070170140402
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Model (LLM)-based coding agents have shown promising results on coding benchmarks, but their effectiveness on systems code remains underexplored. Due to the size and complexities of systems code, making changes to a systems codebase is a daunting task, even for humans. It requires researching about many pieces of context, derived from the large codebase and its massive commit history, before making changes. Inspired by the recent progress on deep research agents, we design the first deep research agent for code, called Code Researcher, and apply it to the problem of generating patches for mitigating crashes reported in systems code. Code Researcher performs multi-step reasoning about semantics, patterns, and commit history of code to gather sufficient context. The context is stored in a structured memory which is used for synthesizing a patch. We evaluate Code Researcher on kBenchSyz, a benchmark of Linux kernel crashes, and show that it significantly outperforms strong baselines, achieving a crash-resolution rate of 58%, compared to 37.5% by SWE-agent. On an average, Code Researcher explores 10 files in each trajectory whereas SWE-agent explores only 1.33 files, highlighting Code Researcher's ability to deeply explore the codebase. Through another experiment on an open-source multimedia software, we show the generalizability of Code Researcher. Our experiments highlight the importance of global context gathering and multi-faceted reasoning for large codebases.
Abstract（参考訳）: LLM(Large Language Model)ベースのコーディングエージェントは、コーディングベンチマークにおいて有望な結果を示しているが、システムコードに対するその効果は未調査である。システムコードのサイズと複雑さのため、システムコードベースの変更は人間にとっても大変な作業です。変更を行う前に、大規模なコードベースとその巨大なコミット履歴から派生した、多くのコンテキストについて調査する必要があります。最近のディープリサーチエージェントの進歩に触発されて、コード研究者と呼ばれるコードのための最初のディープリサーチエージェントを設計し、システムコードに報告されたクラッシュを緩和するためのパッチを生成する問題に適用する。 Code Researcherは、セマンティクス、パターン、そして十分なコンテキストを集めるためにコードのコミット履歴に関する多段階の推論を実行する。コンテキストは、パッチの合成に使用される構造化メモリに保存される。我々は、LinuxカーネルクラッシュのベンチマークであるkBenchSyz上でCode Researcherを評価し、SWE-Adntの37.5%に比べて、クラッシュ解決率が58%という、強いベースラインを著しく上回っていることを示す。平均して、Code Researcherは各トラジェクトリの10ファイルを探索するが、SWE-agentは1.33ファイルのみを探索し、Code Researcherのコードベースを深く探索する能力を強調している。オープンソースマルチメディアソフトウェアの別の実験を通じて,Code Researcherの一般化可能性を示す。実験では,大規模コードベースに対するグローバルコンテキスト収集と多面的推論の重要性を強調した。

関連論文リスト

MultiAIGCD: A Comprehensive dataset for AI Generated Code Detection Covering Multiple Languages, Models,Prompts, and Scenarios [0.0]
我々は,Python,Java,Go用のAI生成コード検出データセットであるMultiAIGCDを紹介する。全体として、MultiAIGCDは121,271のAI生成と32,148の人間のコードスニペットで構成されている。
論文参考訳（メタデータ） (2025-07-29T11:16:55Z)
MGS3: A Multi-Granularity Self-Supervised Code Search Framework [22.214324677526132]
マルチグラニュラリティ自己監督型コントラスト学習コード検索フレームワーク(MGS$3$)について紹介する。まず、MGS$3$ は Supervised Multi-Granularity Representation Module (HMGR) を特徴としている。様々な粒度のコード検索ベンチマーク実験を行い、複数の粒度のコード検索タスクにおいて優れた性能を示すことを示す。
論文参考訳（メタデータ） (2025-05-30T06:49:39Z)
Paper2Code: Automating Code Generation from Scientific Papers in Machine Learning [57.09163579304332]
機械学習論文を機能コードリポジトリに変換するフレームワークであるPaperCoderを紹介した。 PaperCoderは3つの段階で動作する。計画、図によるシステムアーキテクチャの設計、ファイル依存の特定、構成ファイルの生成である。次に、モデルベースおよび人的評価の両方に基づいて、機械学習論文からコード実装を生成するPaperCoderを評価する。
論文参考訳（メタデータ） (2025-04-24T01:57:01Z)
CodeXEmbed: A Generalist Embedding Model Family for Multiligual and Multi-task Code Retrieval [103.116634967815]
CodeXEmbedは400Mから7Bパラメータの大規模なコード埋め込みモデルのファミリーである。我々の新しいトレーニングパイプラインは、複数のプログラミング言語を統合し、様々なコード関連タスクを共通の検索フレームワークに変換する。私たちの7Bモデルは、コード検索において新しい最先端(SOTA)を設定し、以前の主要なモデルであるVoyage-CodeをCoIRベンチマークで20%以上上回っています。
論文参考訳（メタデータ） (2024-11-19T16:54:45Z)
CodeTree: Agent-guided Tree Search for Code Generation with Large Language Models [106.11371409170818]
大規模言語モデル(LLM)は、生成されたコードを自己定義し、自律的に改善する機能を持つエージェントとして機能する。コード生成プロセスの異なる段階における探索空間を効率的に探索するLLMエージェントのためのフレームワークであるCodeTreeを提案する。具体的には、異なるコーディング戦略を明示的に探求し、対応するコーディングソリューションを生成し、その後、ソリューションを洗練するために統合されたツリー構造を採用しました。
論文参考訳（メタデータ） (2024-11-07T00:09:54Z)
CoIR: A Comprehensive Benchmark for Code Information Retrieval Models [52.61625841028781]
COIR(Code Information Retrieval Benchmark)は、コード検索機能を評価するために設計された、堅牢で包括的なベンチマークである。 COIRは、厳密にキュレートされた10のコードデータセットで構成され、7つの異なるドメインにまたがる8つの特有の検索タスクにまたがる。我々は,COIRを用いた9つの広く使用されている検索モデルを評価し,最先端システムにおいても,コード検索タスクの実行に重大な困難があることを明らかにする。
論文参考訳（メタデータ） (2024-07-03T07:58:20Z)
Enhancing Semantic Code Search with Multimodal Contrastive Learning and Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文参考訳（メタデータ） (2022-04-07T08:49:27Z)
DeSkew-LSH based Code-to-Code Recommendation Engine [3.7011129410662558]
ソースコード上の機械学習のための新しいコード・ツー・コードレコメンデーションエンジンであるemphSenatusを紹介する。 SenatusのコアとなるemphDe-Skew LSHは、ローカリティに敏感なハッシュアルゴリズムで、高速(サブ線形時間)検索のためにデータをインデックスする。コード・ツー・コード・レコメンデーションのタスクにおいて、Senatusはパフォーマンスを6.7%向上し、クエリ時間16xはFacebook Aromaよりも高速であることを示す。
論文参考訳（メタデータ） (2021-11-05T16:56:28Z)
COSEA: Convolutional Code Search with Layer-wise Attention [90.35777733464354]
我々は、畳み込みニューラルネットワークを階層的注意で活用し、コード固有の構造論理をキャプチャする新しいディープラーニングアーキテクチャ、COSEAを提案する。 COSEAは、コード検索タスクの最先端メソッドよりも大幅に改善できる。
論文参考訳（メタデータ） (2020-10-19T13:53:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。