論文の概要: Semantic Source Code Segmentation using Small and Large Language Models
- arxiv url: http://arxiv.org/abs/2507.08992v1
- Date: Fri, 11 Jul 2025 19:49:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:22.065065
- Title: Semantic Source Code Segmentation using Small and Large Language Models
- Title(参考訳): 小型・大規模言語モデルを用いた意味的ソースコードのセグメンテーション
- Authors: Abdelhalim Dahou, Ansgar Scherp, Sebastian Kurten, Brigitte Mathiak, Madhu Chauhan,
- Abstract要約: 本稿では,Large and Small Language Models (LLMs/SLMs) を用いた研究Rコードセグメンテーションのためのドメイン固有自動手法を提案する。
文脈を用いた線毎解析と範囲に基づくセグメント決定の2つの異なるアプローチについて検討する。
この結果から,コンテキストベースライン・バイ・ライン分析の方が範囲ベースセグメンテーションよりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 2.5748316361772963
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Source code segmentation, dividing code into functionally coherent segments, is crucial for knowledge retrieval and maintenance in software development. While enabling efficient navigation and comprehension of large codebases, manual and syntactic analysis approaches have become impractical as repositories grow, especially for low-resource languages like R and their research domains (e.g., social sciences, psychology).This paper introduces an automated, domain-specific approach for research R code segmentation using Large and Small Language Models (LLMs/SLMs). It presents two novel approaches and a human-annotated dataset, StatCodeSeg. We explore two distinct approaches: line-by-line analysis with context and range-based segment determination. We experiment with LLMs and fine-tuned SLMs. To support the generalizability of our approaches, we also include experiments on Python code from the computer science domain.Our results show that context-based line-by-line analysis is superior over range-based segmentation.Using smaller language models like CodeBERT and an encoder-only version of CodeT5+ are better than their LLM counterparts. Most notably, these two best-performing models did not see R code during pre-training versus the LLMs but were only fine-tuned on 4,130 lines of manually annotated code.
- Abstract(参考訳): ソースコードのセグメンテーションは、コードを機能的に一貫性のあるセグメンテーションに分割し、ソフトウェア開発における知識の検索と保守に不可欠である。
大規模なコードベースの効率的なナビゲーションと理解を可能にする一方で、リポジトリの成長に伴って、特にRのような低リソース言語とその研究領域(例えば、社会科学、心理学)において、手動および構文解析のアプローチは非現実的になっている。
本稿では,Large and Small Language Models (LLMs/SLMs) を用いたR言語セグメンテーションのためのドメイン固有自動手法を提案する。
これには2つの新しいアプローチと、人間による注釈付きデータセットであるStatCodeSegがある。
文脈を用いた線毎解析と範囲に基づくセグメント決定の2つの異なるアプローチについて検討する。
LLMと微調整SLMを実験した。
このアプローチの一般化を支援するため,コンピュータサイエンス分野のPythonコードの実験も実施している。我々の結果は,コンテキストベースの行間解析の方が範囲ベースのセグメンテーションよりも優れていることを示している。CodeBERTやエンコーダのみのバージョンのCodeT5+は,LLMよりも優れている。
中でも注目すべきは、これらの2つの最高の性能のモデルは、事前訓練中にLLMに対してRコードを見たのではなく、4,130行の注釈付きコードでのみ微調整されたことである。
関連論文リスト
- Segment First or Comprehend First? Explore the Limit of Unsupervised Word Segmentation with Large Language Models [92.92512796044471]
本稿では,Large Language Models (LLMs) を用いた教師なし単語セグメンテーションの限界を探索する新しいフレームワークを提案する。
我々は,LLMの「理解」を評価するために,複数の言語にまたがる単語セグメンテーションを行うために,現在主流のLLMを使用している。
本研究では,文脈情報に基づく動的$n$-gramモデルの構築を可能にする,LACAと呼ばれる新しい教師なし手法を提案する。
論文 参考訳(メタデータ) (2025-05-26T07:48:15Z) - Is Compression Really Linear with Code Intelligence? [60.123628177110206]
textitFormat Annealingは、事前訓練されたモデルの本質的な能力を同等に評価するために設計された、軽量で透明なトレーニング手法である。
我々の経験的結果は、測定されたコードインテリジェンスとビット・パー・キャラクタ(BPC)の基本的な対数関係を明らかにする。
私たちの研究は、コードインテリジェンスの開発における圧縮の役割をより微妙に理解し、コードドメインにおける堅牢な評価フレームワークに貢献します。
論文 参考訳(メタデータ) (2025-05-16T16:59:14Z) - OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [76.59316249991657]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - Crystal: Illuminating LLM Abilities on Language and Code [58.5467653736537]
本稿では,自然言語と符号化機能の統合性を高めるための事前学習戦略を提案する。
結果のモデルであるCrystalは、両方のドメインで顕著な能力を示します。
論文 参考訳(メタデータ) (2024-11-06T10:28:46Z) - Bug In the Code Stack: Can LLMs Find Bugs in Large Python Code Stacks [1.3586572110652484]
本研究では,大規模文書から文脈情報を取得する上でのLLM(Large Language Models)の機能について検討する。
我々のベンチマークであるBug In The Code Stack (BICS)は、大規模なソースコード内の単純な構文バグを識別するLLMの能力を評価するために設計されている。
その結果,(1)検索タスクのテキストベースの環境に比べ,コードベースの環境の方が有意に困難であり,(2)異なるモデル間の性能差が大きく,(3)コンテキスト長と性能劣化との間には顕著な相関関係があることが判明した。
論文 参考訳(メタデータ) (2024-06-21T17:37:10Z) - Natural Is The Best: Model-Agnostic Code Simplification for Pre-trained Large Language Models [6.646510073473929]
本稿では,SlimCodeを提案する。SlimCodeは大規模言語モデルのための,モデルに依存しないコード単純化ソリューションである。
SlimCodeは、コード検索と要約におけるMRRおよびBLEUスコアの9.46%と5.15%の最先端技術を改善することができる。
論文 参考訳(メタデータ) (2024-05-18T06:15:52Z) - LLM-Seg: Bridging Image Segmentation and Large Language Model Reasoning [8.379286663107845]
セグメンテーション(Reasoning segmentation)は、セグメンテーションシステムが暗黙のユーザ意図を推論し解釈することを可能にする新しいタスクである。
推論セグメンテーションに関する研究は、方法論設計とデータセットラベリングの両方に寄与する。
論文 参考訳(メタデータ) (2024-04-12T18:45:51Z) - Perplexed: Understanding When Large Language Models are Confused [3.4208414448496027]
本稿では,言語モデルが複雑になる場所を探索するライブラリであるperplexedを紹介する。
Codetokenizerと呼ばれるコードモデルの解析を支援するために構築した追加ツールを使用して、コード生成のためのLLM(Large Language Models)に焦点を当てたケーススタディを実施しました。
我々の研究したコードLLMは、コードが構文的に正しくないコーディング構造において、最悪のパフォーマンスを示しました。
論文 参考訳(メタデータ) (2024-04-09T22:03:39Z) - Novel Preprocessing Technique for Data Embedding in Engineering Code
Generation Using Large Language Model [7.74830226656449]
ドメイン固有コード生成におけるLarge Language Models(LLM)の性能向上に寄与する4つの主な貢献について述べる。
本稿では,LLMによって駆動されるCDRC(Chein of Density for Renovation Credibility)と,データ信頼性を評価するAdaptive Text Renovation(ATR)アルゴリズムを紹介する。
また,Implicit Knowledge Expansion and Contemplation (IKEC) Prompt技術を開発した。
論文 参考訳(メタデータ) (2023-11-27T19:17:39Z) - Exploring Large Language Models for Code Explanation [3.2570216147409514]
大規模言語モデル(LLM)は自然言語処理において顕著な進歩を遂げている。
本研究では,様々なLLMを用いて,コードスニペットの自然言語要約を生成するタスクについて検討する。
論文 参考訳(メタデータ) (2023-10-25T14:38:40Z) - Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。
コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T06:12:58Z) - Deep Graph Matching and Searching for Semantic Code Retrieval [76.51445515611469]
本稿では,グラフニューラルネットワークに基づくエンドツーエンドのディープグラフマッチングと探索モデルを提案する。
まず、自然言語クエリテキストとプログラミング言語のコードスニペットをグラフ構造化データで表現する。
特に、DGMSは、個々のクエリテキストやコードスニペットのより構造的な情報をキャプチャするだけでなく、それらの微妙な類似性も学習する。
論文 参考訳(メタデータ) (2020-10-24T14:16:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。