Fugu-MT 論文翻訳(概要): Hierarchical Repository-Level Code Summarization for Business Applications Using Local LLMs

論文の概要: Hierarchical Repository-Level Code Summarization for Business Applications Using Local LLMs

arxiv url: http://arxiv.org/abs/2501.07857v1
Date: Tue, 14 Jan 2025 05:48:27 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-15 17:02:04.384142
Title: Hierarchical Repository-Level Code Summarization for Business Applications Using Local LLMs
Title（参考訳）: 局所LLMを用いたビジネスアプリケーションのための階層的レポジトリレベルコード要約
Authors: Nilesh Dhulshette, Sapan Shah, Vinay Kulkarni,
Abstract要約: 既存のメソッドは主に関数のような小さなコードユニットにフォーカスし、ファイルやパッケージのような大きなコードアーティファクトと競合する。本稿では,ビジネスアプリケーションに適した,リポジトリレベルのコード要約のための2段階階層的アプローチを提案する。
参考スコア（独自算出の注目度）: 1.4932549821542682
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In large-scale software development, understanding the functionality and intent behind complex codebases is critical for effective development and maintenance. While code summarization has been widely studied, existing methods primarily focus on smaller code units, such as functions, and struggle with larger code artifacts like files and packages. Additionally, current summarization models tend to emphasize low-level implementation details, often overlooking the domain and business context that are crucial for real-world applications. This paper proposes a two-step hierarchical approach for repository-level code summarization, tailored to business applications. First, smaller code units such as functions and variables are identified using syntax analysis and summarized with local LLMs. These summaries are then aggregated to generate higher-level file and package summaries. To ensure the summaries are grounded in business context, we design custom prompts that capture the intended purpose of code artifacts based on the domain and problem context of the business application. We evaluate our approach on a business support system (BSS) for the telecommunications domain, showing that syntax analysis-based hierarchical summarization improves coverage, while business-context grounding enhances the relevance of the generated summaries.
Abstract（参考訳）: 大規模なソフトウェア開発では、複雑なコードベースの背後にある機能や意図を理解することが、効果的な開発と保守に不可欠です。コード要約は広く研究されているが、既存のメソッドは主に関数のような小さなコードユニットに焦点を当てており、ファイルやパッケージのような大きなコードアーティファクトと戦っている。さらに、現在の要約モデルは、現実のアプリケーションにとって重要なドメインとビジネスのコンテキストを見越して、低レベルの実装の詳細を強調する傾向があります。本稿では,ビジネスアプリケーションに適した,リポジトリレベルのコード要約のための2段階階層的アプローチを提案する。まず、関数や変数などの小さなコードユニットを構文解析を用いて識別し、ローカルLLMで要約する。これらのサマリは集約され、上位のファイルとパッケージのサマリを生成する。要約がビジネス・コンテキストに根ざされていることを保証するため、ビジネス・アプリケーションのドメインと問題・コンテキストに基づいてコード・アーティファクトの意図した目的を捉えるカスタム・プロンプトを設計します。通信分野のビジネスサポートシステム(BSS)に対する我々のアプローチを評価し、構文解析に基づく階層的な要約がカバレッジを向上させる一方で、ビジネスコンテキストのグラウンド化は生成された要約の関連性を高めることを示す。

関連論文リスト

Enhancing Repository-Level Code Generation with Call Chain-Aware Multi-View Context [19.604823896796404]
RepoScopeは、リポジトリレベルのコード生成のためのコールチェーン対応のマルチビューコンテキストである。本稿では,リポジトリの構造的セマンティクスを利用して,対象関数における呼び出し者の識別を改善する新しいコールチェーン予測手法を提案する。 RepoScopeは最先端の手法より優れており、pass@1スコアの36.35%の相対的な改善を達成している。
論文参考訳（メタデータ） (2025-07-20T02:35:36Z)
FuDoBa: Fusing Document and Knowledge Graph-based Representations with Bayesian Optimisation [43.56253799373878]
本稿では,LLMに基づく埋め込みとドメイン固有の構造化知識を統合したベイズ最適化に基づくFuDoBaを紹介する。この融合は、訓練の複雑さを減らし、解釈可能な早期融合重みを生み出すとともに、低次元のタスク関連表現を生成する。 2つの領域における6つのデータセットに対するアプローチの有効性を実証し、提案した表現学習アプローチが、プロプライエタリなLCMベースの埋め込みベースラインでのみ生成されるものと同程度に、あるいは超えていることを示す。
論文参考訳（メタデータ） (2025-07-09T07:49:55Z)
Co-DETECT: Collaborative Discovery of Edge Cases in Text Classification [89.62851347390959]
Co-DETECT (Collaborative Discovery of Edge Case in TExt ClassificaTion)は、新しい混合開始型アノテーションフレームワークである。人間の専門知識と、大きな言語モデルでガイドされた自動アノテーションを統合する。
論文参考訳（メタデータ） (2025-07-07T13:48:54Z)
Large Language Models are Good Relational Learners [55.40941576497973]
本稿では,グラフニューラルネットワーク(GNN)に基づくエンコーダを用いて,大規模言語モデル(LLM)のための構造化リレーショナルプロンプトを生成する新しいアーキテクチャであるRel-LLMを紹介する。従来のテキストベースのシリアライズ手法とは異なり,本手法はデータベース固有の関係構造を保ちながら,LLMが複雑なエンティティ関係を処理・推論することを可能にする。
論文参考訳（メタデータ） (2025-06-06T04:07:55Z)
Code Summarization Beyond Function Level [0.213063058314067]
本研究では,関数レベルを超えたコード要約モデルの有効性について検討した。微調整された最先端のCodeT5+ベースモデルは、コード要約に優れていた。リポジトリレベルの要約は有望なポテンシャルを示したが、かなりの計算資源を必要とした。
論文参考訳（メタデータ） (2025-02-23T20:31:21Z)
Analysis on LLMs Performance for Code Summarization [0.0]
大規模言語モデル(LLM)は、コード要約の分野を著しく進歩させてきた。本研究の目的は,LLaMA-3,Phi-3,Mistral,GemmaなどのオープンソースLLMの比較分析を行うことである。
論文参考訳（メタデータ） (2024-12-22T17:09:34Z)
LITA: An Efficient LLM-assisted Iterative Topic Augmentation Framework [0.0]
大きな言語モデル(LLM)は動的トピックの洗練と発見の可能性を秘めている。これらの課題に対処するため、LLM支援反復トピック拡張フレームワーク(LITA)を提案する。 LITAは、ユーザが提供するシードと埋め込みベースのクラスタリングと反復的な改良を統合している。
論文参考訳（メタデータ） (2024-12-17T01:43:44Z)
SocialGPT: Prompting LLMs for Social Relation Reasoning via Greedy Segment Optimization [70.11167263638562]
社会的関係推論は、友人、配偶者、同僚などの関係カテゴリを画像から識別することを目的としている。まず、VFM(Vision Foundation Models)の知覚能力と、モジュラーフレームワーク内でのLLM(Large Language Models)の推論能力を組み合わせた、シンプルだが巧妙な名前のフレームワークを提示する。
論文参考訳（メタデータ） (2024-10-28T18:10:26Z)
Unlocking Reasoning Potential in Large Langauge Models by Scaling Code-form Planning [94.76546523689113]
CodePlanは、テキストコード形式の計画を生成し、追跡するフレームワークで、高いレベルの構造化された推論プロセスの概要を擬似コードで示します。 CodePlanは、洗練された推論タスク固有のリッチなセマンティクスと制御フローを効果的にキャプチャする。反応を直接生成するのに比べて25.1%の相対的な改善が達成されている。
論文参考訳（メタデータ） (2024-09-19T04:13:58Z)
Fine-tuning Multimodal Large Language Models for Product Bundling [53.01642741096356]
Bundle-MLLMは,大規模言語モデル(LLM)をハイブリットアイテムトークン化アプローチにより微調整する新しいフレームワークである。具体的には、テキスト、メディア、およびリレーショナルデータを統一トークン化に統合し、テキストトークンと非テキストトークンを区別するソフトな分離トークンを導入する。 1)バンドルパターンを学習し,2)製品バンドル固有のマルチモーダルセマンティック理解の強化を行う。
論文参考訳（メタデータ） (2024-07-16T13:30:14Z)
On the Impacts of Contexts on Repository-Level Code Generation [5.641402231731082]
リポジトリレベルのコード生成を評価するために設計された新しいベンチマークである textbfmethodnamews を提案する。実行可能性、包括的なテストケース生成による機能的正当性、ファイル間のコンテキストの正確な利用という3つの重要な側面に注目します。
論文参考訳（メタデータ） (2024-06-17T10:45:22Z)
LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文参考訳（メタデータ） (2024-02-26T07:33:05Z)
T-RAG: Lessons from the LLM Trenches [7.545277950323593]
アプリケーションエリアは、民間企業文書に対する質問応答です。 Retrieval-Augmented Generationは、LLMベースのアプリケーションを構築するための最も顕著なフレームワークである。 Tree-RAG (T-RAG) と呼ばれるシステムは、エンティティ階層を表現するためにツリー構造を使用する。
論文参考訳（メタデータ） (2024-02-12T08:45:08Z)
A Review of Repository Level Prompting for LLMs [0.0]
大規模言語モデル(LLM)は、HumanEvalベンチマークで94.6%の解決率を達成するなど、顕著な成功を収めている。 GitHub CopilotやTab Nineといったリポジトリレベルのインラインコード補完ツールの商用化が進んでいる。本稿では,個々のコーディング問題からリポジトリスケールソリューションへの移行について述べる。
論文参考訳（メタデータ） (2023-12-15T00:34:52Z)
Knowledge Plugins: Enhancing Large Language Models for Domain-Specific Recommendations [50.81844184210381]
本稿では,大規模言語モデルをDOmain固有のKnowledgEで拡張し,実践的アプリケーション,すなわちDOKEの性能を向上させるためのパラダイムを提案する。このパラダイムはドメイン知識抽出器に依存し,1)タスクに効果的な知識を準備すること,2)特定のサンプルごとに知識を選択すること,3)LLMで理解可能な方法で知識を表現すること,の3つのステップで動作する。
論文参考訳（メタデータ） (2023-11-16T07:09:38Z)
Domain-Expanded ASTE: Rethinking Generalization in Aspect Sentiment Triplet Extraction [67.54420015049732]
Aspect Sentiment Triplet extract (ASTE) は感情分析における課題であり、人間の感情に対するきめ細かい洞察を提供することを目的としている。既存のベンチマークは2つのドメインに限定されており、目に見えないドメイン上でのモデルパフォーマンスを評価しない。各種ドメインのサンプルに注釈を付けることでドメイン拡張ベンチマークを導入し,ドメイン内設定とドメイン外設定の両方でモデルの評価を可能にする。
論文参考訳（メタデータ） (2023-05-23T18:01:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。