論文の概要: Programming Language Agnostic Mining of Code and Language Pairs with
Sequence Labeling Based Question Answering
- arxiv url: http://arxiv.org/abs/2203.10744v1
- Date: Mon, 21 Mar 2022 05:33:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-23 03:11:12.527781
- Title: Programming Language Agnostic Mining of Code and Language Pairs with
Sequence Labeling Based Question Answering
- Title(参考訳): 逐次ラベリングに基づく質問応答によるコードと言語ペアの言語非依存マイニング
- Authors: Changran Hu, Akshara Reddi Methukupalli, Yutong Zhou, Chen Wu, Yubo
Chen
- Abstract要約: 自然言語(NL)とプログラミング言語(PL)のペアをマイニングすることは、NL-PL理解にとって重要な課題である。
PLに依存しない方法でNL-PLペアをマイニングするためのシーケンスラベルに基づく質問応答法(SLQA)を提案する。
- 参考スコア(独自算出の注目度): 15.733292367610627
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mining aligned natural language (NL) and programming language (PL) pairs is a
critical task to NL-PL understanding. Existing methods applied specialized
hand-crafted features or separately-trained models for each PL. However, they
usually suffered from low transferability across multiple PLs, especially for
niche PLs with less annotated data. Fortunately, a Stack Overflow answer post
is essentially a sequence of text and code blocks and its global textual
context can provide PL-agnostic supplementary information. In this paper, we
propose a Sequence Labeling based Question Answering (SLQA) method to mine
NL-PL pairs in a PL-agnostic manner. In particular, we propose to apply the BIO
tagging scheme instead of the conventional binary scheme to mine the code
solutions which are often composed of multiple blocks of a post. Experiments on
current single-PL single-block benchmarks and a manually-labeled cross-PL
multi-block benchmark prove the effectiveness and transferability of SLQA. We
further present a parallel NL-PL corpus named Lang2Code automatically mined
with SLQA, which contains about 1.4M pairs on 6 PLs. Under statistical analysis
and downstream evaluation, we demonstrate that Lang2Code is a large-scale
high-quality data resource for further NL-PL research.
- Abstract(参考訳): 自然言語(NL)とプログラミング言語(PL)のペアをマイニングすることは、NL-PL理解にとって重要な課題である。
既存の手法は、PLごとに特殊手作りの特徴や個別に訓練されたモデルを適用した。
しかし、通常、複数のPL、特に注釈付きデータが少ないニッチPL間での転送性が低い。
幸いなことに、stack overflowの回答投稿は基本的にテキストとコードブロックのシーケンスであり、そのグローバルテキストコンテキストはplに依存しない追加情報を提供することができる。
本稿では,NL-PLペアをPLに依存しない方法でマイニングするためのシーケンスラベルに基づく質問応答(SLQA)手法を提案する。
特に,ポストの複数のブロックから構成されるコードソリューションをマイニングするために,従来のバイナリ方式の代わりに,BIOタグ方式を適用することを提案する。
現在のシングルPLシングルブロックベンチマークと、手動でラベル付けされたクロスPLマルチブロックベンチマークの実験は、SLQAの有効性と転送性を証明する。
さらに,Lang2Codeという並列NL-PLコーパスをSLQAで自動的にマイニングし,約1.4万ペアを6 PL上に含む。
統計的解析と下流評価により,Lang2CodeはNL-PL研究のための大規模データ資源であることを示す。
関連論文リスト
- Exploring Large Language Models for Code Explanation [3.2570216147409514]
大規模言語モデル(LLM)は自然言語処理において顕著な進歩を遂げている。
本研究では,様々なLLMを用いて,コードスニペットの自然言語要約を生成するタスクについて検討する。
論文 参考訳(メタデータ) (2023-10-25T14:38:40Z) - An In-Context Schema Understanding Method for Knowledge Base Question
Answering [70.87993081445127]
大きな言語モデル(LLM)は、言語理解において強力な能力を示しており、この課題を解決するために使用することができる。
既存のメソッドは、当初、スキーマ固有の詳細を使わずにLLMを使用してロジックフォームのドラフトを生成することで、この課題を回避している。
そこで本研究では,LLMが文脈内学習を利用してスキーマを直接理解できる簡易なインコンテキスト理解(ICSU)手法を提案する。
論文 参考訳(メタデータ) (2023-10-22T04:19:17Z) - Joint Prompt Optimization of Stacked LLMs using Variational Inference [66.04409787899583]
大規模言語モデル(LLM)は、列上の分布への計算マッピングシーケンスの原子単位と見なすことができる。
そのような2つのレイヤを積み重ねて1つのレイヤの出力を次のレイヤに供給することで、Deep Language Network(DLN)を得る。
DLN-2は単一層よりも高い性能に到達できることを示し、GPT-4に匹敵する性能に達することを約束する。
論文 参考訳(メタデータ) (2023-06-21T18:45:56Z) - ANPL: Towards Natural Programming with Interactive Decomposition [33.58825633046242]
我々は,ユーザが常に生成したコードを洗練できるように,対話型ANPLシステムを導入する。
ANPLプログラムは、それが満たさなければならない入力出力のセットで構成される。
ユーザは、スケッチを変更し、穴を記述するのに使用される言語を変更したり、特定の穴に追加の入力出力を提供することで、ANPLプログラムを更新する。
論文 参考訳(メタデータ) (2023-05-29T14:19:40Z) - ProgSG: Cross-Modality Representation Learning for Programs in
Electronic Design Automation [38.023395256208055]
高レベル合成(HLS)により、開発者はCとC++のソフトウェアコード形式で高レベルな記述をコンパイルできる。
HLSツールは相変わらず、プラグマで表されるマイクロアーキテクチャの決定を必要とする。
本稿では,ソースコードシーケンスのモダリティとグラフのモダリティを深く,きめ細かな方法で相互に相互作用させることができるProgSGを提案する。
論文 参考訳(メタデータ) (2023-05-18T09:44:18Z) - MultiCoder: Multi-Programming-Lingual Pre-Training for Low-Resource Code
Completion [21.100570496144694]
我々は、MultiPLプレトレーニングとMultiPL Mixture-of-Expertsレイヤを用いて、低リソースのコード補完を強化するためのMultiCoderを提案する。
また,全てのPLのコード補完を改善するため,新しいPLレベルMOEルーティング戦略(PL-MoE)を提案する。
論文 参考訳(メタデータ) (2022-12-19T17:50:05Z) - Improving Bilingual Lexicon Induction with Cross-Encoder Reranking [71.56677929420138]
BLICEr (BLI with Cross-Encoder Re rank) と呼ばれる新しい半教師付きポストホックリグレード法を提案する。
鍵となる考え方は、mPLMから言語間の語彙的知識を抽出し、元のCLWEと組み合わせることである。
BLICErは、多様な言語にまたがる2つの標準BLIベンチマークで、新しい結果を確立している。
論文 参考訳(メタデータ) (2022-10-30T21:26:07Z) - Improving Mandarin End-to-End Speech Recognition with Word N-gram
Language Model [57.92200214957124]
外部言語モデル(LM)は、エンドツーエンド(E2E)自動音声認識(ASR)システムの音声認識性能を向上させることができる。
単語レベルの格子をオンザフライで構築し,可能なすべての単語列を考慮可能な,新しい復号アルゴリズムを提案する。
提案手法は,N-gram LMやニューラルネットワーク LM など,サブワードレベルのLMを一貫して上回る。
論文 参考訳(メタデータ) (2022-01-06T10:04:56Z) - Cross-Lingual Abstractive Summarization with Limited Parallel Resources [22.680714603332355]
低リソース環境下でのクロスリンガル抽象要約(MCLAS)のための新しいマルチタスクフレームワークを提案する。
1つの統一デコーダを用いてモノリンガルとクロスリンガルの要約の逐次連結を生成することで、MCLASはモノリンガルの要約タスクをクロスリンガルの要約タスクの前提条件とする。
我々のモデルは、低リソースとフルデータセットの両方のシナリオにおいて、3つのベースラインモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2021-05-28T07:51:42Z) - CodeBERT: A Pre-Trained Model for Programming and Natural Languages [117.34242908773061]
CodeBERTは、プログラミング言語(PL)とナット言語(NL)のための事前訓練されたモデルである。
我々はTransformerベースのニューラルアーキテクチャを用いたCodeBERTを開発した。
モデルパラメータの微調整による2つのNL-PLアプリケーション上でのCodeBERTの評価を行った。
論文 参考訳(メタデータ) (2020-02-19T13:09:07Z) - Synthetic Datasets for Neural Program Synthesis [66.20924952964117]
本稿では,プログラムと仕様の両方で合成データ分布のバイアスを制御し,評価するための新しい手法を提案する。
そこで我々は,Karel DSLと小さなCalculator DSLを用いて,これらの分布上でのディープネットワークのトレーニングにより,分散一般化性能が向上することが実証された。
論文 参考訳(メタデータ) (2019-12-27T21:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。