論文の概要: MLCPD: A Unified Multi-Language Code Parsing Dataset with Universal AST Schema
- arxiv url: http://arxiv.org/abs/2510.16357v1
- Date: Sat, 18 Oct 2025 05:31:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.961541
- Title: MLCPD: A Unified Multi-Language Code Parsing Dataset with Universal AST Schema
- Title(参考訳): MLCPD: Unified Multi-Language Code Parsing Dataset with Universal AST Schema
- Authors: Jugal Gajjar, Kamalasankari Subramaniakuppusamy,
- Abstract要約: Multi Code Langデータセットは、10つの主要なプログラミング言語にわたるコードの構文と構造を統一した大規模なデータセットである。
MLCPDには、提案したユニバーサル抽象構文木(AST)スキーマの下で正規化された700万以上の解析済みソースファイルが含まれている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce the MultiLang Code Parser Dataset (MLCPD), a large-scale, language-agnostic dataset unifying syntactic and structural representations of code across ten major programming languages. MLCPD contains over seven million parsed source files normalized under our proposed universal Abstract Syntax Tree (AST) schema, enabling consistent cross-language reasoning, structural learning, and multilingual software analysis. Unlike existing corpora that focus purely on token-level code or isolated parsers, MLCPD provides both hierarchical tree representations and rich metadata for every file, ensuring lossless syntactic coverage and structural uniformity. Each entry includes a normalized schema, language-level metadata, and abstracted node semantics stored in Parquet format for scalable retrieval. Empirical analyses reveal strong cross-language structural regularities-demonstrating that syntactic graphs from languages as diverse as Python, Java, and Go can be aligned under a shared schema. We release the dataset publicly on Hugging Face and the accompanying codebase on GitHub, which includes complete pipelines for dataset reproduction, grammar compilation, and a visualization tool for exploring the unified AST across languages. Together, these resources establish MLCPD as an open, reproducible foundation for future research in cross-language representation learning and program analysis.
- Abstract(参考訳): 言語に依存しない大規模データセットであるMultiLang Code Parser Dataset (MLCPD)を導入する。
MLCPDには、提案した汎用抽象構文木(AST)スキーマで正規化された700万以上の解析済みソースファイルが含まれており、一貫した言語間推論、構造学習、多言語ソフトウェア解析を可能にしている。
トークンレベルのコードや独立したパーサに純粋にフォーカスする既存のコーパスとは異なり、MLCPDは階層的なツリー表現と、すべてのファイルに豊富なメタデータを提供し、損失のない構文的カバレッジと構造的均一性を保証する。
各エントリには、正規化されたスキーマ、言語レベルのメタデータ、スケーラブルな検索のためにParquetフォーマットに格納された抽象化されたノードセマンティクスが含まれている。
経験的な分析によると、Python、Java、Goのような多種多様な言語からの構文グラフは、共有スキーマの下で整列可能である、という強い言語間構造規則性を示している。
このデータセットには、データセットの再生、文法コンパイルのための完全なパイプライン、言語間で統一されたASTを探索するための可視化ツールが含まれています。
これらの資源は共に、多言語表現学習とプログラム分析における将来の研究のためのオープンで再現可能な基盤としてLCPDを確立している。
関連論文リスト
- Large Language Model Prompt Datasets: An In-depth Analysis and Insights [17.386420251846953]
プロンプトは、大きな言語モデル(LLM)の特定のタスクを定義する自然言語命令である。
この作業では、初めて、さまざまなチャネルからソースされたプロンプトデータセットの広範なリストをコンパイルしました。
論文 参考訳(メタデータ) (2025-10-10T12:15:55Z) - Parsing the Switch: LLM-Based UD Annotation for Complex Code-Switched and Low-Resource Languages [11.627508350795118]
BiLinguaは、コード変更されたテキストに対するUniversal Dependencies(UD)アノテーションのためのパイプラインである。
まず、スペイン語とスペイン語のGuaran'iデータのためのプロンプトベースのフレームワークを開発する。
第2に、最初のスペインのGuaran'i-parsed corpusを含む2つのデータセットをリリースします。
第3に、言語対と通信コンテキスト間のスイッチポイントの詳細な構文解析を行う。
論文 参考訳(メタデータ) (2025-06-08T20:23:57Z) - Cross-lingual Back-Parsing: Utterance Synthesis from Meaning Representation for Zero-Resource Semantic Parsing [6.074150063191985]
Cross-Lingual Back-Parsing(クロスリンガル・バック・パーシング)は、セマンティック・パーシングのためのクロスリンガル・トランスファーを強化するために設計された新しいデータ拡張手法である。
提案手法は,ゼロリソース設定に挑戦する上で,言語間データ拡張を効果的に行う。
論文 参考訳(メタデータ) (2024-10-01T08:53:38Z) - Modeling Sequential Sentence Relation to Improve Cross-lingual Dense Retrieval [80.43859162884353]
マスク付き文モデル(MSM)と呼ばれる多言語多言語言語モデルを提案する。
MSMは、文表現を生成する文エンコーダと、文書から文ベクトルのシーケンスに適用される文書エンコーダとから構成される。
モデルをトレーニングするために,サンプル負の階層的コントラスト損失によって文ベクトルをマスクし,予測するマスク付き文予測タスクを提案する。
論文 参考訳(メタデータ) (2023-02-03T09:54:27Z) - Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。
これらのデータセットは10以上のプログラミング言語をカバーする。
コード生成モデルの性能を多言語で評価することができる。
論文 参考訳(メタデータ) (2022-10-26T17:17:06Z) - Language-Agnostic Representation Learning of Source Code from Structure
and Context [43.99281651828355]
ソースコードのコンテキストと構造を共同で学習する新しいモデルを提案する。
複数のプログラミング言語から非並列データを共同トレーニングすることで,個々の言語での結果が向上することを示す。
論文 参考訳(メタデータ) (2021-03-21T06:46:06Z) - Deep Graph Matching and Searching for Semantic Code Retrieval [76.51445515611469]
本稿では,グラフニューラルネットワークに基づくエンドツーエンドのディープグラフマッチングと探索モデルを提案する。
まず、自然言語クエリテキストとプログラミング言語のコードスニペットをグラフ構造化データで表現する。
特に、DGMSは、個々のクエリテキストやコードスニペットのより構造的な情報をキャプチャするだけでなく、それらの微妙な類似性も学習する。
論文 参考訳(メタデータ) (2020-10-24T14:16:50Z) - A Multi-Perspective Architecture for Semantic Code Search [58.73778219645548]
テキストマッチングのための新しい多言語間ニューラルネットワークを提案する。
CoNaLaデータセットを用いた実験により,提案したモデルでは,従来の手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-05-06T04:46:11Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。