論文の概要: Hierarchical Repository-Level Code Summarization for Business Applications Using Local LLMs
- arxiv url: http://arxiv.org/abs/2501.07857v1
- Date: Tue, 14 Jan 2025 05:48:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-15 13:27:30.470443
- Title: Hierarchical Repository-Level Code Summarization for Business Applications Using Local LLMs
- Title(参考訳): 局所LLMを用いたビジネスアプリケーションのための階層的レポジトリレベルコード要約
- Authors: Nilesh Dhulshette, Sapan Shah, Vinay Kulkarni,
- Abstract要約: 既存のメソッドは主に関数のような小さなコードユニットにフォーカスし、ファイルやパッケージのような大きなコードアーティファクトと競合する。
本稿では,ビジネスアプリケーションに適した,リポジトリレベルのコード要約のための2段階階層的アプローチを提案する。
- 参考スコア(独自算出の注目度): 1.4932549821542682
- License:
- Abstract: In large-scale software development, understanding the functionality and intent behind complex codebases is critical for effective development and maintenance. While code summarization has been widely studied, existing methods primarily focus on smaller code units, such as functions, and struggle with larger code artifacts like files and packages. Additionally, current summarization models tend to emphasize low-level implementation details, often overlooking the domain and business context that are crucial for real-world applications. This paper proposes a two-step hierarchical approach for repository-level code summarization, tailored to business applications. First, smaller code units such as functions and variables are identified using syntax analysis and summarized with local LLMs. These summaries are then aggregated to generate higher-level file and package summaries. To ensure the summaries are grounded in business context, we design custom prompts that capture the intended purpose of code artifacts based on the domain and problem context of the business application. We evaluate our approach on a business support system (BSS) for the telecommunications domain, showing that syntax analysis-based hierarchical summarization improves coverage, while business-context grounding enhances the relevance of the generated summaries.
- Abstract(参考訳): 大規模なソフトウェア開発では、複雑なコードベースの背後にある機能や意図を理解することが、効果的な開発と保守に不可欠です。
コード要約は広く研究されているが、既存のメソッドは主に関数のような小さなコードユニットに焦点を当てており、ファイルやパッケージのような大きなコードアーティファクトと戦っている。
さらに、現在の要約モデルは、現実のアプリケーションにとって重要なドメインとビジネスのコンテキストを見越して、低レベルの実装の詳細を強調する傾向があります。
本稿では,ビジネスアプリケーションに適した,リポジトリレベルのコード要約のための2段階階層的アプローチを提案する。
まず、関数や変数などの小さなコードユニットを構文解析を用いて識別し、ローカルLLMで要約する。
これらのサマリは集約され、上位のファイルとパッケージのサマリを生成する。
要約がビジネス・コンテキストに根ざされていることを保証するため、ビジネス・アプリケーションのドメインと問題・コンテキストに基づいてコード・アーティファクトの意図した目的を捉えるカスタム・プロンプトを設計します。
通信分野のビジネスサポートシステム(BSS)に対する我々のアプローチを評価し、構文解析に基づく階層的な要約がカバレッジを向上させる一方で、ビジネスコンテキストのグラウンド化は生成された要約の関連性を高めることを示す。
関連論文リスト
- SocialGPT: Prompting LLMs for Social Relation Reasoning via Greedy Segment Optimization [70.11167263638562]
社会的関係推論は、友人、配偶者、同僚などの関係カテゴリを画像から識別することを目的としている。
まず、VFM(Vision Foundation Models)の知覚能力と、モジュラーフレームワーク内でのLLM(Large Language Models)の推論能力を組み合わせた、シンプルだが巧妙な名前のフレームワークを提示する。
論文 参考訳(メタデータ) (2024-10-28T18:10:26Z) - Unlocking Reasoning Potential in Large Langauge Models by Scaling Code-form Planning [94.76546523689113]
CodePlanは、テキストコード形式の計画を生成し、追跡するフレームワークで、高いレベルの構造化された推論プロセスの概要を擬似コードで示します。
CodePlanは、洗練された推論タスク固有のリッチなセマンティクスと制御フローを効果的にキャプチャする。
反応を直接生成するのに比べて25.1%の相対的な改善が達成されている。
論文 参考訳(メタデータ) (2024-09-19T04:13:58Z) - Beyond Relevant Documents: A Knowledge-Intensive Approach for Query-Focused Summarization using Large Language Models [27.90653125902507]
本稿では,知識集約型タスク設定として,クエリ中心の要約を再構成する知識集約型アプローチを提案する。
検索モジュールは、大規模知識コーパスから潜在的に関連のある文書を効率的に検索する。
要約コントローラは、強力な大言語モデル(LLM)ベースの要約器を注意深く調整されたプロンプトとシームレスに統合する。
論文 参考訳(メタデータ) (2024-08-19T18:54:20Z) - Fine-tuning Multimodal Large Language Models for Product Bundling [53.01642741096356]
Bundle-MLLMは,大規模言語モデル(LLM)をハイブリットアイテムトークン化アプローチにより微調整する新しいフレームワークである。
具体的には、テキスト、メディア、およびリレーショナルデータを統一トークン化に統合し、テキストトークンと非テキストトークンを区別するソフトな分離トークンを導入する。
1)バンドルパターンを学習し,2)製品バンドル固有のマルチモーダルセマンティック理解の強化を行う。
論文 参考訳(メタデータ) (2024-07-16T13:30:14Z) - On the Impacts of Contexts on Repository-Level Code Generation [5.641402231731082]
リポジトリレベルのコード生成を評価するために設計された新しいベンチマークである textbfmethodnamews を提案する。
実行可能性、包括的なテストケース生成による機能的正当性、ファイル間のコンテキストの正確な利用という3つの重要な側面に注目します。
論文 参考訳(メタデータ) (2024-06-17T10:45:22Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - T-RAG: Lessons from the LLM Trenches [7.545277950323593]
アプリケーションエリアは、民間企業文書に対する質問応答です。
Retrieval-Augmented Generationは、LLMベースのアプリケーションを構築するための最も顕著なフレームワークである。
Tree-RAG (T-RAG) と呼ばれるシステムは、エンティティ階層を表現するためにツリー構造を使用する。
論文 参考訳(メタデータ) (2024-02-12T08:45:08Z) - A Review of Repository Level Prompting for LLMs [0.0]
大規模言語モデル(LLM)は、HumanEvalベンチマークで94.6%の解決率を達成するなど、顕著な成功を収めている。
GitHub CopilotやTab Nineといったリポジトリレベルのインラインコード補完ツールの商用化が進んでいる。
本稿では,個々のコーディング問題からリポジトリスケールソリューションへの移行について述べる。
論文 参考訳(メタデータ) (2023-12-15T00:34:52Z) - Knowledge Plugins: Enhancing Large Language Models for Domain-Specific
Recommendations [50.81844184210381]
本稿では,大規模言語モデルをDOmain固有のKnowledgEで拡張し,実践的アプリケーション,すなわちDOKEの性能を向上させるためのパラダイムを提案する。
このパラダイムはドメイン知識抽出器に依存し,1)タスクに効果的な知識を準備すること,2)特定のサンプルごとに知識を選択すること,3)LLMで理解可能な方法で知識を表現すること,の3つのステップで動作する。
論文 参考訳(メタデータ) (2023-11-16T07:09:38Z) - Hierarchical Task Network Planning for Facilitating Cooperative
Multi-Agent Reinforcement Learning [33.70599981505335]
本稿では,事前知識を用いて探索空間を減らし,学習を支援するフレームワークであるSOMARLを提案する。
SOMARLではエージェントはMARL環境の一部として扱われ、シンボリック知識は木構造を用いて組み込まれ、知識階層を構築する。
我々はSOMARLをFindTreasureとMoveBoxの2つのベンチマークで評価し、最先端のMARL環境よりも優れた性能を報告した。
論文 参考訳(メタデータ) (2023-06-14T08:51:43Z) - Domain-Expanded ASTE: Rethinking Generalization in Aspect Sentiment Triplet Extraction [67.54420015049732]
Aspect Sentiment Triplet extract (ASTE) は感情分析における課題であり、人間の感情に対するきめ細かい洞察を提供することを目的としている。
既存のベンチマークは2つのドメインに限定されており、目に見えないドメイン上でのモデルパフォーマンスを評価しない。
各種ドメインのサンプルに注釈を付けることでドメイン拡張ベンチマークを導入し,ドメイン内設定とドメイン外設定の両方でモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-05-23T18:01:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。