論文の概要: Uncovering Code Insights: Leveraging GitHub Artifacts for Deeper Code Understanding
- arxiv url: http://arxiv.org/abs/2511.03549v1
- Date: Wed, 05 Nov 2025 15:31:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.464129
- Title: Uncovering Code Insights: Leveraging GitHub Artifacts for Deeper Code Understanding
- Title(参考訳): コードインサイト: より深いコード理解のためにGitHubの成果物を活用する
- Authors: Ziv Nevo, Orna Raz, Karen Yorav,
- Abstract要約: 大規模言語モデル(LLM)は、コード説明の生成において有望であることを示している。
GitHubの自然言語アーティファクトを活用する新しいアプローチを提案する。
私たちのシステムは3つのコンポーネントで構成されています。ひとつはGitHubコンテキストの抽出と構造、もうひとつはコード目的の高レベルな説明を生成するためにこのコンテキストを使用する、もうひとつは説明を検証する第3のコンポーネントです。
- 参考スコア(独自算出の注目度): 0.1358202049520503
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding the purpose of source code is a critical task in software maintenance, onboarding, and modernization. While large language models (LLMs) have shown promise in generating code explanations, they often lack grounding in the broader software engineering context. We propose a novel approach that leverages natural language artifacts from GitHub -- such as pull request descriptions, issue descriptions and discussions, and commit messages -- to enhance LLM-based code understanding. Our system consists of three components: one that extracts and structures relevant GitHub context, another that uses this context to generate high-level explanations of the code's purpose, and a third that validates the explanation. We implemented this as a standalone tool, as well as a server within the Model Context Protocol (MCP), enabling integration with other AI-assisted development tools. Our main use case is that of enhancing a standard LLM-based code explanation with code insights that our system generates. To evaluate explanations' quality, we conducted a small scale user study, with developers of several open projects, as well as developers of proprietary projects. Our user study indicates that when insights are generated they often are helpful and non trivial, and are free from hallucinations.
- Abstract(参考訳): ソースコードの目的を理解することは、ソフトウェアのメンテナンス、オンボーディング、モダナイゼーションにおいて重要なタスクである。
大規模言語モデル(LLM)は、コード説明の生成において有望であることを示しているが、より広範なソフトウェア工学の文脈における基盤を欠いていることが多い。
LLMベースのコード理解を強化するために、GitHubの自然言語アーティファクト(プルリクエスト記述、イシュー記述、議論、コミットメッセージなど)を活用する新しいアプローチを提案する。
私たちのシステムは3つのコンポーネントで構成されています。ひとつはGitHubコンテキストの抽出と構造、もうひとつはコード目的の高レベルな説明を生成するためにこのコンテキストを使用する、もうひとつは説明を検証する第3のコンポーネントです。
私たちはこれをスタンドアロンのツールとして実装し、モデルコンテキストプロトコル(MCP)内のサーバとして実装し、他のAI支援開発ツールとの統合を可能にしました。
私たちの主なユースケースは、システムが生成するコードインサイトを使って、標準のLCMベースのコード説明を強化することです。
説明の質を評価するため,いくつかのオープンプロジェクトの開発者とともに,プロプライエタリプロジェクトの開発者とともに,小規模なユーザスタディを実施しました。
私たちのユーザ調査は、洞察が生成されると、しばしば役に立ち、非自明であり、幻覚がないことを示唆しています。
関連論文リスト
- Is Compression Really Linear with Code Intelligence? [60.123628177110206]
textitFormat Annealingは、事前訓練されたモデルの本質的な能力を同等に評価するために設計された、軽量で透明なトレーニング手法である。
我々の経験的結果は、測定されたコードインテリジェンスとビット・パー・キャラクタ(BPC)の基本的な対数関係を明らかにする。
私たちの研究は、コードインテリジェンスの開発における圧縮の役割をより微妙に理解し、コードドメインにおける堅牢な評価フレームワークに貢献します。
論文 参考訳(メタデータ) (2025-05-16T16:59:14Z) - CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.37076502395699]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。
まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。
CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文 参考訳(メタデータ) (2024-06-20T16:59:52Z) - Using an LLM to Help With Code Understanding [13.53616539787915]
大規模言語モデル(LLM)は、コードを書くプロセスに革命をもたらしています。
プラグインはOpenAIのGPT-3.5-turboモデルに対して,ユーザが明示的なプロンプトを書かなくても4つの高レベルリクエストをクエリする。
本システムの評価は,32名の被験者を対象に行ったユーザスタディで行われ,本プラグインがWeb検索よりもタスク完了に有効であることが確認された。
論文 参考訳(メタデータ) (2023-07-17T00:49:06Z) - Topical: Learning Repository Embeddings from Source Code using Attention [3.110769442802435]
本稿では,リポジトリレベルの埋め込みのための新しいディープニューラルネットワークであるTopicalを提案する。
attentionメカニズムはソースコード、フル依存グラフ、スクリプトレベルのテキストデータからリポジトリレベルの表現を生成する。
論文 参考訳(メタデータ) (2022-08-19T18:13:27Z) - Repository-Level Prompt Generation for Large Language Models of Code [28.98699307030983]
本稿では,提案手法を用いてサンプル固有のプロンプトを生成するフレームワークを提案する。
プロンプトプロポーザルはリポジトリ全体からコンテキストを取ります。
我々は,Google Codeアーカイブから取得したコードリポジトリを用いて,単行コード自動補完のタスクについて実験を行った。
論文 参考訳(メタデータ) (2022-06-26T10:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。