論文の概要: Towards Leveraging Large Language Model Summaries for Topic Modeling in Source Code
- arxiv url: http://arxiv.org/abs/2504.17426v1
- Date: Thu, 24 Apr 2025 10:30:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.330833
- Title: Towards Leveraging Large Language Model Summaries for Topic Modeling in Source Code
- Title(参考訳): ソースコードにおけるトピックモデリングのための大規模言語モデル要約の活用に向けて
- Authors: Michele Carissimi, Martina Saletta, Claudio Ferretti,
- Abstract要約: 大規模言語モデル (LLM) は、プログラムの理解能力を示す。
トランスフォーマーベースのトピックモデリング技術は、テキストから意味情報を抽出する効果的な方法を提供する。
本稿では,Pythonプログラムのコーパス内で意味のあるトピックを自動的に識別する手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding source code is a topic of great interest in the software engineering community, since it can help programmers in various tasks such as software maintenance and reuse. Recent advances in large language models (LLMs) have demonstrated remarkable program comprehension capabilities, while transformer-based topic modeling techniques offer effective ways to extract semantic information from text. This paper proposes and explores a novel approach that combines these strengths to automatically identify meaningful topics in a corpus of Python programs. Our method consists in applying topic modeling on the descriptions obtained by asking an LLM to summarize the code. To assess the internal consistency of the extracted topics, we compare them against topics inferred from function names alone, and those derived from existing docstrings. Experimental results suggest that leveraging LLM-generated summaries provides interpretable and semantically rich representation of code structure. The promising results suggest that our approach can be fruitfully applied in various software engineering tasks such as automatic documentation and tagging, code search, software reorganization and knowledge discovery in large repositories.
- Abstract(参考訳): ソースコードを理解することは、ソフトウェア保守や再利用といった様々なタスクでプログラマを助けることができるので、ソフトウェアエンジニアリングコミュニティにとって大きな関心事である。
近年の大規模言語モデル (LLM) の進歩により, プログラム理解能力は著しく向上し, トランスフォーマーに基づくトピックモデリング技術は, テキストから意味情報を抽出する効果的な方法を提供している。
本稿では,Pythonプログラムのコーパス内で意味のあるトピックを自動的に識別する手法を提案する。
提案手法は,LLMにコード要約を依頼して得られた記述にトピックモデリングを適用することで構成する。
抽出したトピックの内部整合性を評価するため,関数名のみから推定されるトピックと既存ドクストリングからのトピックとを比較した。
実験結果から,LLM生成した要約を利用することで,コード構造を解釈可能かつ意味的にリッチに表現できることが示唆された。
提案手法は, 自動文書化やタグ付け, コード検索, ソフトウェア再構成, 大規模リポジトリにおける知識発見など, 様々なソフトウェア工学的タスクにおいて実効的に適用可能であることが示唆された。
関連論文リスト
- Bridging Textual-Collaborative Gap through Semantic Codes for Sequential Recommendation [91.13055384151897]
CoCoRecは、シーケンシャルレコメンデーションのための新しいコードベースのテキストおよび協調的セマンティックフュージョン法である。
ベクトル量子化手法を用いて,多視点テキスト埋め込みから細粒度セマンティックコードを生成する。
テキスト・コラボレーティブ・セマンティクスの融合をさらに促進するために,最適化戦略を導入する。
論文 参考訳(メタデータ) (2025-03-15T15:54:44Z) - Analysis on LLMs Performance for Code Summarization [0.0]
大規模言語モデル(LLM)は、コード要約の分野を著しく進歩させてきた。
本研究の目的は,LLaMA-3,Phi-3,Mistral,GemmaなどのオープンソースLLMの比較分析を行うことである。
論文 参考訳(メタデータ) (2024-12-22T17:09:34Z) - Systematic Task Exploration with LLMs: A Study in Citation Text Generation [63.50597360948099]
大規模言語モデル(LLM)は、複雑な創造的自然言語生成(NLG)タスクの定義と実行において、前例のない柔軟性をもたらす。
本稿では,系統的な入力操作,参照データ,出力測定からなる3成分研究フレームワークを提案する。
我々はこのフレームワークを用いて引用テキスト生成を探索する。これは一般的なNLPタスクであり、タスク定義と評価基準に関するコンセンサスを欠いている。
論文 参考訳(メタデータ) (2024-07-04T16:41:08Z) - LILO: Learning Interpretable Libraries by Compressing and Documenting Code [71.55208585024198]
LILOは、反復的に合成、圧縮、文書化を行う、ニューロシンボリックなフレームワークである。
LILOは、LLM誘導プログラム合成と、Stitchから自動化された最近のアルゴリズムの進歩を組み合わせたものである。
LILOのシンセサイザーが学習した抽象化を解釈し、デプロイするのを手助けすることで、AutoDocがパフォーマンスを向上させることが分かりました。
論文 参考訳(メタデータ) (2023-10-30T17:55:02Z) - Exploring Large Language Models for Code Explanation [3.2570216147409514]
大規模言語モデル(LLM)は自然言語処理において顕著な進歩を遂げている。
本研究では,様々なLLMを用いて,コードスニペットの自然言語要約を生成するタスクについて検討する。
論文 参考訳(メタデータ) (2023-10-25T14:38:40Z) - Understanding Code Semantics: An Evaluation of Transformer Models in
Summarization [0.0]
関数と変数名を変更することで,コード要約の有効性を評価する。
3つのプログラミング言語にまたがってデッドコードやコメントコードのような敵を導入します。
論文 参考訳(メタデータ) (2023-10-25T02:41:50Z) - Bridging Code Semantic and LLMs: Semantic Chain-of-Thought Prompting for
Code Generation [22.219645213202178]
本稿では,SeCoT というコードの意味情報を抽出する "Semantic Chain-of-Thought" 手法を提案する。
本研究では,SeCoTが最先端の性能を実現し,大規模モデルやコード生成の可能性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-10-16T05:09:58Z) - Topic Discovery via Latent Space Clustering of Pretrained Language Model
Representations [35.74225306947918]
本研究では, PLM 埋め込みを基盤とした空間学習とクラスタリングの連携フレームワークを提案する。
提案モデルでは,トピック発見のためにPLMがもたらす強力な表現力と言語的特徴を効果的に活用する。
論文 参考訳(メタデータ) (2022-02-09T17:26:08Z) - Using Document Similarity Methods to create Parallel Datasets for Code
Translation [60.36392618065203]
あるプログラミング言語から別のプログラミング言語へのソースコードの翻訳は、重要で時間を要する作業です。
本稿では、文書類似性手法を用いて、ノイズの多い並列データセットを作成することを提案する。
これらのモデルは、妥当なレベルのノイズに対して、地上の真実に基づいて訓練されたモデルと相容れない性能を示す。
論文 参考訳(メタデータ) (2021-10-11T17:07:58Z) - Leveraging Language to Learn Program Abstractions and Search Heuristics [66.28391181268645]
LAPS(Language for Abstraction and Program Search)は、自然言語アノテーションを用いて、ライブラリとニューラルネットワークによる合成のための検索モデルの共同学習をガイドする手法である。
最先端のライブラリ学習システム(DreamCoder)に統合されると、LAPSは高品質なライブラリを生成し、検索効率と一般化を改善する。
論文 参考訳(メタデータ) (2021-06-18T15:08:47Z) - A Transformer-based Approach for Source Code Summarization [86.08359401867577]
コードトークン間のペア関係をモデル化することにより,要約のためのコード表現を学習する。
アプローチは単純であるにもかかわらず、最先端技術よりもかなりの差があることが示される。
論文 参考訳(メタデータ) (2020-05-01T23:29:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。