論文の概要: Constructing Multilingual Code Search Dataset Using Neural Machine
Translation
- arxiv url: http://arxiv.org/abs/2306.15604v1
- Date: Tue, 27 Jun 2023 16:42:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-28 12:45:07.727095
- Title: Constructing Multilingual Code Search Dataset Using Neural Machine
Translation
- Title(参考訳): ニューラルマシン翻訳を用いた多言語コード探索データセットの構築
- Authors: Ryo Sekizawa, Nan Duan, Shuai Lu, Hitomi Yanaka
- Abstract要約: 我々は4つの自然言語および4つのプログラミング言語で多言語コード検索データセットを作成する。
その結果,すべての自然言語およびプログラミング言語データで事前学習したモデルが,ほとんどのケースで最善を尽くしていることがわかった。
- 参考スコア(独自算出の注目度): 48.32329232202801
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code search is a task to find programming codes that semantically match the
given natural language queries. Even though some of the existing datasets for
this task are multilingual on the programming language side, their query data
are only in English. In this research, we create a multilingual code search
dataset in four natural and four programming languages using a neural machine
translation model. Using our dataset, we pre-train and fine-tune the
Transformer-based models and then evaluate them on multiple code search test
sets. Our results show that the model pre-trained with all natural and
programming language data has performed best in most cases. By applying
back-translation data filtering to our dataset, we demonstrate that the
translation quality affects the model's performance to a certain extent, but
the data size matters more.
- Abstract(参考訳): コード検索は、与えられた自然言語クエリにセマンティックにマッチするプログラムコードを見つけるためのタスクである。
このタスクの既存のデータセットのいくつかはプログラミング言語側で多言語化されているが、クエリデータは英語のみである。
本研究では,ニューラルマシン翻訳モデルを用いて,自然言語と4つのプログラミング言語の多言語コード検索データセットを作成する。
データセットを使用して、Transformerベースのモデルを事前トレーニングし、微調整し、複数のコード検索テストセットで評価します。
その結果,すべての自然言語およびプログラミング言語データで事前学習されたモデルが,ほとんどのケースで最高の性能を示した。
データセットにバックトランスレーションデータフィルタリングを適用することで、翻訳品質がモデルの性能に一定の影響を及ぼすことを示すが、データサイズはより重要となる。
関連論文リスト
- GenCodeSearchNet: A Benchmark Test Suite for Evaluating Generalization
in Programming Language Understanding [5.9535699822923]
我々は,言語モデルの言語理解能力を評価するために,GenCodeSearchNet (GeCS) という新しいベンチマークデータセットを提案する。
完全なデータセットの一部として、我々が導入した新しい手作業でキュレートされたサブセットであるStatCodeSearchは、人気があるが、これまでのところあまり表現されていないプログラミング言語である。
評価と比較のために、細調整されたBERTスタイルモデルとGPTスタイルの大規模言語モデルを用いて、いくつかのベースライン結果を収集した。
論文 参考訳(メタデータ) (2023-11-16T09:35:00Z) - Natural Language Models for Data Visualization Utilizing nvBench Dataset [6.996262696260261]
自然言語翻訳モデルを構築し、Vega Zeroと呼ばれる言語でデータと視覚化クエリの簡易バージョンを構築する。
本稿では,シーケンシャルトランスフォーマーに基づく機械学習モデルアーキテクチャの設計と性能について検討する。
論文 参考訳(メタデータ) (2023-10-02T00:48:01Z) - Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。
これらのデータセットは10以上のプログラミング言語をカバーする。
コード生成モデルの性能を多言語で評価することができる。
論文 参考訳(メタデータ) (2022-10-26T17:17:06Z) - Multilingual Multimodal Learning with Machine Translated Text [27.7207234512674]
英語のマルチモーダルデータの機械翻訳が、容易に利用できる多言語データの欠如を抑えるための効果的なプロキシとなるかどうかを考察する。
得られたデータセットからそのような翻訳を自動的に除去する2つの指標を提案する。
In experiment on five task across 20 languages in the IGLUE benchmark, we show that translated data can provide a useful signal for multilingual multimodal learning。
論文 参考訳(メタデータ) (2022-10-24T11:41:20Z) - Using Document Similarity Methods to create Parallel Datasets for Code
Translation [60.36392618065203]
あるプログラミング言語から別のプログラミング言語へのソースコードの翻訳は、重要で時間を要する作業です。
本稿では、文書類似性手法を用いて、ノイズの多い並列データセットを作成することを提案する。
これらのモデルは、妥当なレベルのノイズに対して、地上の真実に基づいて訓練されたモデルと相容れない性能を示す。
論文 参考訳(メタデータ) (2021-10-11T17:07:58Z) - Multilingual Neural Semantic Parsing for Low-Resourced Languages [1.6244541005112747]
英語,イタリア語,日本語の新しい多言語意味解析データセットを提案する。
本研究では,事前学習したエンコーダを用いた多言語学習がTOPデータセットのベースラインを大幅に上回ることを示す。
英語データのみに基づいて訓練されたセマンティクスは、イタリア語の文に対して44.9%の精度でゼロショットのパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-06-07T09:53:02Z) - CoDesc: A Large Code-Description Parallel Dataset [4.828053113572208]
CoDescは420万のJavaメソッドと自然言語記述からなる大規模な並列データセットです。
広範囲な分析により、データセットから一般的なノイズパターンを特定し、削除する。
このデータセットは、コード検索を最大22%改善し、コード要約における新しい最先端を実現するのに役立ちます。
論文 参考訳(メタデータ) (2021-05-29T05:40:08Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Code to Comment "Translation": Data, Metrics, Baselining & Evaluation [49.35567240750619]
本稿では,この課題に対する最近のコード・コンパートメント・データセットについて分析する。
それらをWMT19と比較する。WMT19は、アート自然言語翻訳者の状態のトレーニングに頻繁に使用される標準データセットである。
ソースコードデータとWMT19自然言語データの間には,いくつかの興味深い違いがある。
論文 参考訳(メタデータ) (2020-10-03T18:57:26Z) - A Multi-Perspective Architecture for Semantic Code Search [58.73778219645548]
テキストマッチングのための新しい多言語間ニューラルネットワークを提案する。
CoNaLaデータセットを用いた実験により,提案したモデルでは,従来の手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-05-06T04:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。