論文の概要: Language-Agnostic Representation Learning of Source Code from Structure
and Context
- arxiv url: http://arxiv.org/abs/2103.11318v1
- Date: Sun, 21 Mar 2021 06:46:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-25 07:51:55.862644
- Title: Language-Agnostic Representation Learning of Source Code from Structure
and Context
- Title(参考訳): 構造と文脈からのソースコードの言語非依存表現学習
- Authors: Daniel Z\"ugner, Tobias Kirschstein, Michele Catasta, Jure Leskovec,
Stephan G\"unnemann
- Abstract要約: ソースコードのコンテキストと構造を共同で学習する新しいモデルを提案する。
複数のプログラミング言語から非並列データを共同トレーニングすることで,個々の言語での結果が向上することを示す。
- 参考スコア(独自算出の注目度): 43.99281651828355
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Source code (Context) and its parsed abstract syntax tree (AST; Structure)
are two complementary representations of the same computer program.
Traditionally, designers of machine learning models have relied predominantly
either on Structure or Context. We propose a new model, which jointly learns on
Context and Structure of source code. In contrast to previous approaches, our
model uses only language-agnostic features, i.e., source code and features that
can be computed directly from the AST. Besides obtaining state-of-the-art on
monolingual code summarization on all five programming languages considered in
this work, we propose the first multilingual code summarization model. We show
that jointly training on non-parallel data from multiple programming languages
improves results on all individual languages, where the strongest gains are on
low-resource languages. Remarkably, multilingual training only from Context
does not lead to the same improvements, highlighting the benefits of combining
Structure and Context for representation learning on code.
- Abstract(参考訳): ソースコード(Context)とその解析された抽象構文木(AST; Structure)は、同じコンピュータプログラムの2つの補完的な表現である。
伝統的に、機械学習モデルの設計者は、主に構造か文脈に依存してきた。
ソースコードのコンテキストと構造を共同で学習する新しいモデルを提案する。
従来のアプローチとは対照的に,私たちのモデルは,ASTから直接計算可能なソースコードや特徴など,言語に依存しない機能のみを使用する。
本研究は,本研究で検討した5言語すべてに対する単言語コード要約の最先端化に加えて,最初の多言語コード要約モデルを提案する。
複数言語からの並列でないデータの共同トレーニングにより,低リソース言語が最強となる各言語における結果が向上することを示す。
注目すべきなのは、Contextからの多言語トレーニングは、コードでの表現学習において、StructureとContextを組み合わせるメリットを強調しながら、同じ改善につながらないことだ。
関連論文リスト
- Improving Arithmetic Reasoning Ability of Large Language Models through Relation Tuples, Verification and Dynamic Feedback [14.938401898546553]
本稿では,大規模言語モデルの推論ステップを表現するために,半構造化形式を提案する。
具体的には、人間だけでなく、マシンフレンドリで、自然言語よりも容易に検証できる関係を使います。
論文 参考訳(メタデータ) (2024-06-25T18:21:00Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Unified Text Structuralization with Instruction-tuned Language Models [28.869098023025753]
テキストから様々な構造を抽出する大規模言語モデル(LLM)を提案する。
実験により、様々な言語や知識のデータセット上で、言語モデルが他の最先端の手法と同等に動作できることが示されている。
論文 参考訳(メタデータ) (2023-03-27T07:39:05Z) - Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。
これらのデータセットは10以上のプログラミング言語をカバーする。
コード生成モデルの性能を多言語で評価することができる。
論文 参考訳(メタデータ) (2022-10-26T17:17:06Z) - Benchmarking Language Models for Code Syntax Understanding [79.11525961219591]
事前学習された言語モデルは、自然言語処理とプログラム理解の両方において素晴らしい性能を示している。
本研究では,プログラムの構文構造を特定するための,最先端の事前訓練モデルの最初の徹底的なベンチマークを行う。
この結果から,既存のプログラミング言語の事前学習手法の限界が指摘され,構文構造をモデル化することの重要性が示唆された。
論文 参考訳(メタデータ) (2022-10-26T04:47:18Z) - Incorporating Linguistic Knowledge for Abstractive Multi-document
Summarization [20.572283625521784]
ニューラルネットワークに基づく抽象的多文書要約(MDS)モデルを開発した。
依存関係情報を言語誘導型注意機構に処理する。
言語信号の助けを借りて、文レベルの関係を正しく捉えることができる。
論文 参考訳(メタデータ) (2021-09-23T08:13:35Z) - Multilingual Transfer Learning for Code-Switched Language and Speech
Neural Modeling [12.497781134446898]
本稿では,言語非依存なマルチタスク学習手法を提案することにより,言語理論のデータ不足と限界に対処する。
まず,メタラーニングに基づくメタトランスファー学習を提案する。そこでは,高音源単言語音声データから,コードスイッチング領域への情報抽出を行う。
第2に,他の言語で学習した有用な知識を得ることにより,コードスイッチングデータを効果的に表現するための,多言語メタエム手法を提案する。
第3に,言語モデルへの伝達学習戦略として構文情報を統合するために,マルチタスク学習を導入する。
論文 参考訳(メタデータ) (2021-04-13T14:49:26Z) - InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language
Model Pre-Training [135.12061144759517]
本稿では,言語間言語モデルの事前学習を定式化する情報理論フレームワークを提案する。
コントラスト学習に基づく新しい事前学習課題を提案する。
単言語コーパスと並列コーパスの両方を活用することで、事前訓練されたモデルの言語間変換性を向上させるために、プレテキストを共同で訓練する。
論文 参考訳(メタデータ) (2020-07-15T16:58:01Z) - A Multi-Perspective Architecture for Semantic Code Search [58.73778219645548]
テキストマッチングのための新しい多言語間ニューラルネットワークを提案する。
CoNaLaデータセットを用いた実験により,提案したモデルでは,従来の手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-05-06T04:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。