論文の概要: Multilingual training for Software Engineering
- arxiv url: http://arxiv.org/abs/2112.02043v2
- Date: Mon, 6 Dec 2021 01:47:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-07 12:25:08.132617
- Title: Multilingual training for Software Engineering
- Title(参考訳): ソフトウェア工学のための多言語学習
- Authors: Toufique Ahmed and Premkumar Devanbu
- Abstract要約: 異なる言語(同じ機能を持つ)の人間が書いたコードとはかなりよく似ていることを示す証拠を提示する。
本稿では,コード要約,コード検索,関数命名の3つのタスクについて検討する。
このデータ拡張アプローチは、さまざまなタスク、言語、マシンラーニングモデルと広く互換性がある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Well-trained machine-learning models, which leverage large amounts of
open-source software data, have now become an interesting approach to
automating many software engineering tasks. Several SE tasks have all been
subject to this approach, with performance gradually improving over the past
several years with better models and training methods. More, and more diverse,
clean, labeled data is better for training; but constructing good-quality
datasets is time-consuming and challenging. Ways of augmenting the volume and
diversity of clean, labeled data generally have wide applicability. For some
languages (e.g., Ruby) labeled data is less abundant; in others (e.g.,
JavaScript) the available data maybe more focused on some application domains,
and thus less diverse. As a way around such data bottlenecks, we present
evidence suggesting that human-written code in different languages (which
performs the same function), is rather similar, and particularly preserving of
identifier naming patterns; we further present evidence suggesting that
identifiers are a very important element of training data for software
engineering tasks. We leverage this rather fortuitous phenomenon to find
evidence that available multilingual training data (across different languages)
can be used to amplify performance. We study this for 3 different tasks: code
summarization, code retrieval, and function naming. We note that this
data-augmenting approach is broadly compatible with different tasks, languages,
and machine-learning models.
- Abstract(参考訳): 大量のオープンソースソフトウェアデータを活用する機械学習モデルは、今や多くのソフトウェアエンジニアリングタスクを自動化する興味深いアプローチになっている。
いくつかのSEタスクはいずれもこのアプローチの対象であり、パフォーマンスはここ数年で徐々に改善され、より良いモデルとトレーニングメソッドが提供されている。
より多種多様な、よりクリーンなラベル付きデータはトレーニングに適していますが、高品質なデータセットの構築には時間がかかり、困難です。
クリーンなラベル付きデータのボリュームと多様性を増強する方法は、一般的に幅広い適用性を持っている。
一部の言語(Rubyなど)では、ラベル付きデータは豊富ではなく、他の言語(JavaScriptなど)では、利用可能なデータは、いくつかのアプリケーションドメインにもっと集中しているため、多様性が低い。
このようなデータのボトルネックを回避する方法として、異なる言語(同じ機能を実行する)で記述されたコードが、かなり類似しており、特に識別子の命名パターンを保存していることを示す証拠を示すとともに、識別子がソフトウェアエンジニアリングタスクのトレーニングデータの非常に重要な要素であることを示す証拠を示す。
この現象を利用して、利用可能な多言語学習データ(異なる言語にわたって)が性能を増幅するために利用できることを示す。
本稿では,コード要約,コード検索,関数命名の3つのタスクについて検討する。
このデータ拡張アプローチは、さまざまなタスク、言語、機械学習モデルと広く互換性がある。
関連論文リスト
- Contextual Code Switching for Machine Translation using Language Models [1.4866655830571935]
大規模言語モデル(LLM)は近年,多種多様な言語関連タスクに多大な影響を与えている。
本稿では,複数のLLMを比較した機械翻訳タスクに特化して,コード切替タスクについて広範な研究を行う。
以上の結果から,LLMは特定のタスクに有望な結果をもたらすにもかかわらず,機械翻訳タスクにおける多言語大言語モデルよりも比較的少ない複雑性を持つモデルの方が優れていることが示唆された。
論文 参考訳(メタデータ) (2023-12-20T16:40:33Z) - Learning Transfers over Several Programming Languages [5.350495525141013]
言語間転送は、ソース言語からのデータを使用して、ターゲット言語でのモデルパフォーマンスを改善する。
本稿では,変圧器を用いた大規模言語モデルと11から41のプログラミング言語を用いた4つのタスクに関する広範な実験を報告する。
学習は、複数のプログラミング言語間でうまく伝達される。
論文 参考訳(メタデータ) (2023-10-25T19:04:33Z) - XLCoST: A Benchmark Dataset for Cross-lingual Code Intelligence [9.673614921946932]
本稿では,言語間コードインテリジェンスのための新しいベンチマークデータセットであるXLCoST, Cross-Lingual Code SnippeTデータセットを紹介する。
データセットには8言語からの詳細な並列データが含まれており、10の言語間コードタスクをサポートしている。
論文 参考訳(メタデータ) (2022-06-16T22:49:39Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - Towards Best Practices for Training Multilingual Dense Retrieval Models [54.91016739123398]
我々は,このような設計を用いて,多種多様言語における単言語検索の課題に焦点をあてる。
本研究は多言語高密度検索モデルのトレーニングのための「ベストプラクティス」ガイドとして組織されている。
論文 参考訳(メタデータ) (2022-04-05T17:12:53Z) - Breaking Down Multilingual Machine Translation [74.24795388967907]
マルチ言語学習は一般にエンコーダにとって有益であるが,ローソース言語(LRL)ではデコーダにのみ有益であることを示す。
LRLの多言語モデルと一対多モデルは、Aharoniらによって報告された最良の結果よりも優れています。
論文 参考訳(メタデータ) (2021-10-15T14:57:12Z) - Cross-lingual Intermediate Fine-tuning improves Dialogue State Tracking [84.50302759362698]
我々は、事前訓練された多言語モデルの中間微調整により、伝達学習プロセスを強化する。
我々は、パラレルおよび会話型の映画字幕データセットを使用して、言語間中間タスクを設計する。
パラレルなMultiWoZデータセットとMultilingual WoZデータセットの精度を20%向上させる。
論文 参考訳(メタデータ) (2021-09-28T11:22:38Z) - Cross-Lingual Adaptation for Type Inference [29.234418962960905]
弱い型付き言語間で深層学習に基づく型推論を行うための言語間適応フレームワークPLATOを提案する。
強く型付けされた言語からのデータを活用することで、PLATOは、バックボーンのクロスプログラミング言語モデルの難易度を改善する。
論文 参考訳(メタデータ) (2021-07-01T00:20:24Z) - X-FACTR: Multilingual Factual Knowledge Retrieval from Pretrained
Language Models [103.75890012041366]
言語モデル(LM)は、事実の知識を捉えるのに驚くほど成功した。
しかし、LMの実際の表現能力の研究は、ほぼ間違いなく英語で行われている。
我々は23の語型的多様言語に対するクローゼスタイルプローブのベンチマークを作成する。
論文 参考訳(メタデータ) (2020-10-13T05:29:56Z) - Automated Source Code Generation and Auto-completion Using Deep
Learning: Comparing and Discussing Current Language-Model-Related Approaches [0.0]
本稿では、異なるディープラーニングアーキテクチャを比較して、プログラミングコードに基づく言語モデルを作成し、使用する。
それぞれのアプローチのさまざまな長所と短所と、言語モデルを評価したり、実際のプログラミングコンテキストでそれらを適用するためのギャップについて論じる。
論文 参考訳(メタデータ) (2020-09-16T15:17:04Z) - Temporally Correlated Task Scheduling for Sequence Learning [143.70523777803723]
多くのアプリケーションにおいて、シーケンス学習タスクは通常、複数の時間的に相関した補助タスクと関連付けられている。
シーケンス学習に学習可能なスケジューラを導入し、トレーニングのための補助的なタスクを適応的に選択できる。
本手法は,同時翻訳とストックトレンド予測の性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-07-10T10:28:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。