Fugu-MT 論文翻訳(概要): LLM-Aided Customizable Profiling of Code Data Based On Programming Language Concepts

論文の概要: LLM-Aided Customizable Profiling of Code Data Based On Programming Language Concepts

arxiv url: http://arxiv.org/abs/2503.15571v1
Date: Wed, 19 Mar 2025 11:01:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-21 15:30:52.108713
Title: LLM-Aided Customizable Profiling of Code Data Based On Programming Language Concepts
Title（参考訳）: LLMを用いたプログラミング言語概念に基づくコードデータのカスタマイズ可能なプロファイリング
Authors: Pankaj Thorat, Adnan Qidwai, Adrija Dhar, Aishwariya Chakraborty, Anand Eswaran, Hima Patel, Praveen Jayachandran,
Abstract要約: この作業は、大規模言語モデル(コード-LLM)のコードデータセットのコンテキストにおいて、特にプロファイリングに対処する。プログラミング言語の概念の観点からコードデータセットを特徴づけることで、より良い洞察とターゲットデータキュレーションが可能になる。
参考スコア（独自算出の注目度）: 1.480144196276276
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Data profiling is critical in machine learning for generating descriptive statistics, supporting both deeper understanding and downstream tasks like data valuation and curation. This work addresses profiling specifically in the context of code datasets for Large Language Models (code-LLMs), where data quality directly influences tasks such as code generation and summarization. Characterizing code datasets in terms of programming language concepts enables better insights and targeted data curation. Our proposed methodology decomposes code data profiling into two phases: (1) an offline phase where LLMs are leveraged to derive and learn rules for extracting syntactic and semantic concepts across various programming languages, including previously unseen or low-resource languages, and (2) an online deterministic phase applying these derived rules for efficient real-time analysis. This hybrid approach is customizable, extensible to new syntactic and semantic constructs, and scalable to multiple languages. Experimentally, our LLM-aided method achieves a mean accuracy of 90.33% for syntactic extraction rules and semantic classification accuracies averaging 80% and 77% across languages and semantic concepts, respectively.
Abstract（参考訳）: データプロファイリングは、データバリュエーションやキュレーションといった深い理解と下流のタスクをサポートする、記述統計を生成するための機械学習において重要である。この研究は、大規模言語モデル(コード-LLM)のコードデータセットのコンテキストにおいて、特にプロファイリングに対処する。プログラミング言語の概念の観点からコードデータセットを特徴づけることで、より良い洞察とターゲットデータキュレーションが可能になる。提案手法は,(1)LLMを活用・学習するためのオフラインフェーズを用いて,これまで見つからなかった言語や低リソース言語を含む様々なプログラミング言語の構文的・意味的概念を抽出する。このハイブリッドアプローチは、カスタマイズ可能で、新しい構文とセマンティック構造に拡張可能であり、複数の言語にスケーラブルである。提案手法は,文法的抽出規則の平均精度を90.33%,意味的分類精度を80%,意味的概念の平均77%とした。

関連論文リスト

From Millions of Tweets to Actionable Insights: Leveraging LLMs for User Profiling [3.304341919932024]
ドメイン定義文を活用する新しい大規模言語モデル(LLM)ベースのアプローチを導入する。提案手法は,解釈可能な自然言語ユーザプロファイルを生成し,広範囲なユーザデータをスケールに集約する。実験の結果,本手法は最先端のLCM法および従来手法よりも9.8%優れていた。
論文参考訳（メタデータ） (2025-05-09T16:51:24Z)
Post-Incorporating Code Structural Knowledge into LLMs via In-Context Learning for Code Translation [10.77747590700758]
大規模言語モデル(LLM)はソフトウェアマイニングにおいて大きな進歩を遂げた。ソースコードの構文構造を扱うことは依然として課題です本稿では、コード構造知識を事前学習したLLMに組み込むために、インコンテキスト学習(ICL)を用いる。
論文参考訳（メタデータ） (2025-03-28T10:59:42Z)
LLMs for Generalizable Language-Conditioned Policy Learning under Minimal Data Requirements [50.544186914115045]
本稿では,オフライン言語によるポリシー学習のための新しいトレーニングパイプラインTEDUOを提案する。 TEDUOは、分かりやすい、ラベルなしのデータセットを運用し、いわゆるインザワイルド評価(in-the-wild evaluation)に適している。
論文参考訳（メタデータ） (2024-12-09T18:43:56Z)
Crystal: Illuminating LLM Abilities on Language and Code [58.5467653736537]
本稿では,自然言語と符号化機能の統合性を高めるための事前学習戦略を提案する。結果のモデルであるCrystalは、両方のドメインで顕著な能力を示します。
論文参考訳（メタデータ） (2024-11-06T10:28:46Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
Source Code Summarization in the Era of Large Language Models [23.715005053430957]
大規模言語モデル(LLM)は、コード関連のタスクのパフォーマンスを大幅に向上させた。本稿では,LLMにおけるコード要約の体系的および包括的研究を行う。
論文参考訳（メタデータ） (2024-07-09T05:48:42Z)
Large Language Models are Interpretable Learners [53.56735770834617]
本稿では,Large Language Models(LLM)とシンボルプログラムの組み合わせによって,表現性と解釈可能性のギャップを埋めることができることを示す。自然言語プロンプトを持つ事前訓練されたLLMは、生の入力を自然言語の概念に変換することができる解釈可能な膨大なモジュールセットを提供する。 LSPが学んだ知識は自然言語の記述と記号規則の組み合わせであり、人間(解釈可能)や他のLLMに容易に転送できる。
論文参考訳（メタデータ） (2024-06-25T02:18:15Z)
CLAIM Your Data: Enhancing Imputation Accuracy with Contextual Large Language Models [0.18416014644193068]
本稿では,精度インプット法(CLAIM)の文脈言語モデルを提案する。従来の計算法とは異なり、CLAIMは文脈に関連のある自然言語記述子を使用して、欠落した値を埋める。多様なデータセットや欠落パターンに対する評価は,既存の計算手法よりもCLAIMの方が優れた性能を示している。
論文参考訳（メタデータ） (2024-05-28T00:08:29Z)
Code Needs Comments: Enhancing Code LLMs with Comment Augmentation [91.52444946362547]
本稿では、既存のコードに対するコメントを生成する新しいデータ拡張手法と、自然言語と相関の低いコードデータをフィルタリングするデータフィルタリング戦略を導入する。我々は3つのコード中心の大規模言語モデルの実験を行い、2つの広く使われているプログラミングスキルベンチマークで一貫した性能向上を観察した。
論文参考訳（メタデータ） (2024-02-20T13:56:38Z)
If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練されるコードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文参考訳（メタデータ） (2024-01-01T16:51:20Z)
Exploring Large Language Models for Code Explanation [3.2570216147409514]
大規模言語モデル(LLM)は自然言語処理において顕著な進歩を遂げている。本研究では,様々なLLMを用いて,コードスニペットの自然言語要約を生成するタスクについて検討する。
論文参考訳（メタデータ） (2023-10-25T14:38:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。