論文の概要: Programming Language Agnostic Mining of Code and Language Pairs with
Sequence Labeling Based Question Answering
- arxiv url: http://arxiv.org/abs/2203.10744v1
- Date: Mon, 21 Mar 2022 05:33:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-23 03:11:12.527781
- Title: Programming Language Agnostic Mining of Code and Language Pairs with
Sequence Labeling Based Question Answering
- Title(参考訳): 逐次ラベリングに基づく質問応答によるコードと言語ペアの言語非依存マイニング
- Authors: Changran Hu, Akshara Reddi Methukupalli, Yutong Zhou, Chen Wu, Yubo
Chen
- Abstract要約: 自然言語(NL)とプログラミング言語(PL)のペアをマイニングすることは、NL-PL理解にとって重要な課題である。
PLに依存しない方法でNL-PLペアをマイニングするためのシーケンスラベルに基づく質問応答法(SLQA)を提案する。
- 参考スコア(独自算出の注目度): 15.733292367610627
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mining aligned natural language (NL) and programming language (PL) pairs is a
critical task to NL-PL understanding. Existing methods applied specialized
hand-crafted features or separately-trained models for each PL. However, they
usually suffered from low transferability across multiple PLs, especially for
niche PLs with less annotated data. Fortunately, a Stack Overflow answer post
is essentially a sequence of text and code blocks and its global textual
context can provide PL-agnostic supplementary information. In this paper, we
propose a Sequence Labeling based Question Answering (SLQA) method to mine
NL-PL pairs in a PL-agnostic manner. In particular, we propose to apply the BIO
tagging scheme instead of the conventional binary scheme to mine the code
solutions which are often composed of multiple blocks of a post. Experiments on
current single-PL single-block benchmarks and a manually-labeled cross-PL
multi-block benchmark prove the effectiveness and transferability of SLQA. We
further present a parallel NL-PL corpus named Lang2Code automatically mined
with SLQA, which contains about 1.4M pairs on 6 PLs. Under statistical analysis
and downstream evaluation, we demonstrate that Lang2Code is a large-scale
high-quality data resource for further NL-PL research.
- Abstract(参考訳): 自然言語(NL)とプログラミング言語(PL)のペアをマイニングすることは、NL-PL理解にとって重要な課題である。
既存の手法は、PLごとに特殊手作りの特徴や個別に訓練されたモデルを適用した。
しかし、通常、複数のPL、特に注釈付きデータが少ないニッチPL間での転送性が低い。
幸いなことに、stack overflowの回答投稿は基本的にテキストとコードブロックのシーケンスであり、そのグローバルテキストコンテキストはplに依存しない追加情報を提供することができる。
本稿では,NL-PLペアをPLに依存しない方法でマイニングするためのシーケンスラベルに基づく質問応答(SLQA)手法を提案する。
特に,ポストの複数のブロックから構成されるコードソリューションをマイニングするために,従来のバイナリ方式の代わりに,BIOタグ方式を適用することを提案する。
現在のシングルPLシングルブロックベンチマークと、手動でラベル付けされたクロスPLマルチブロックベンチマークの実験は、SLQAの有効性と転送性を証明する。
さらに,Lang2Codeという並列NL-PLコーパスをSLQAで自動的にマイニングし,約1.4万ペアを6 PL上に含む。
統計的解析と下流評価により,Lang2CodeはNL-PL研究のための大規模データ資源であることを示す。
関連論文リスト
- Bridge-Coder: Unlocking LLMs' Potential to Overcome Language Gaps in Low-Resource Code [31.48411893252137]
LLM(Large Language Models)は、Pythonのような高リソースプログラミング言語(HRPL)のコードを生成する能力を示すが、RacketやDのような低リソースプログラミング言語(LRPL)と大きく競合する。
このパフォーマンスギャップは、デジタル格差を深くし、LRPLを使用する開発者がLLMの進歩から等しく利益を得るのを防ぎ、表現不足のプログラミングコミュニティにおけるイノベーションの格差を補強する。
LRPLの性能を高めるために,LLMの本質的な能力を活用したBridge-Coderという新しい手法を導入する。
論文 参考訳(メタデータ) (2024-10-24T17:55:03Z) - SSP: Self-Supervised Prompting for Cross-Lingual Transfer to Low-Resource Languages using Large Language Models [23.522223369054437]
Self-Supervised Prompting (SSP) はゼロラベルのクロスリンガルトランスファー(0-CLT)の設定に適した新しいICLアプローチである。
SSP は、LLM がテキスト内例がターゲット言語からのものである場合、より正確なラベルを出力する、というキーオブザーバーに基づいている。
SSPは、0-CLTセットアップにおいて、既存のSOTAの微調整とプロンプトベースのベースラインを強く上回る。
論文 参考訳(メタデータ) (2024-06-27T04:21:59Z) - Nearest Neighbor Speculative Decoding for LLM Generation and Attribution [87.3259169631789]
Nearest Speculative Decoding (NEST)は、任意の長さの実世界のテキストスパンをLM世代に組み込むことができ、それらのソースへの属性を提供する。
NESTは、様々な知識集約タスクにおいて、基本LMの生成品質と帰属率を大幅に向上させる。
さらに、NESTは、Llama-2-Chat 70Bに適用した場合の推論時間において1.8倍のスピードアップを達成することにより、生成速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-05-29T17:55:03Z) - CodeIP: A Grammar-Guided Multi-Bit Watermark for Large Language Models of Code [56.019447113206006]
大規模言語モデル(LLM)はコード生成において顕著な進歩を遂げた。
CodeIPは、新しいマルチビット透かし技術で、出所の詳細を保存するために追加情報を埋め込む。
5つのプログラミング言語にまたがる実世界のデータセットで実施された実験は、CodeIPの有効性を実証している。
論文 参考訳(メタデータ) (2024-04-24T04:25:04Z) - CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。
まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。
また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文 参考訳(メタデータ) (2024-04-08T21:15:36Z) - ANPL: Towards Natural Programming with Interactive Decomposition [33.58825633046242]
我々は,ユーザが常に生成したコードを洗練できるように,対話型ANPLシステムを導入する。
ANPLプログラムは、それが満たさなければならない入力出力のセットで構成される。
ユーザは、スケッチを変更し、穴を記述するのに使用される言語を変更したり、特定の穴に追加の入力出力を提供することで、ANPLプログラムを更新する。
論文 参考訳(メタデータ) (2023-05-29T14:19:40Z) - ProgSG: Cross-Modality Representation Learning for Programs in
Electronic Design Automation [38.023395256208055]
高レベル合成(HLS)により、開発者はCとC++のソフトウェアコード形式で高レベルな記述をコンパイルできる。
HLSツールは相変わらず、プラグマで表されるマイクロアーキテクチャの決定を必要とする。
本稿では,ソースコードシーケンスのモダリティとグラフのモダリティを深く,きめ細かな方法で相互に相互作用させることができるProgSGを提案する。
論文 参考訳(メタデータ) (2023-05-18T09:44:18Z) - MultiCoder: Multi-Programming-Lingual Pre-Training for Low-Resource Code
Completion [21.100570496144694]
我々は、MultiPLプレトレーニングとMultiPL Mixture-of-Expertsレイヤを用いて、低リソースのコード補完を強化するためのMultiCoderを提案する。
また,全てのPLのコード補完を改善するため,新しいPLレベルMOEルーティング戦略(PL-MoE)を提案する。
論文 参考訳(メタデータ) (2022-12-19T17:50:05Z) - Improving Mandarin End-to-End Speech Recognition with Word N-gram
Language Model [57.92200214957124]
外部言語モデル(LM)は、エンドツーエンド(E2E)自動音声認識(ASR)システムの音声認識性能を向上させることができる。
単語レベルの格子をオンザフライで構築し,可能なすべての単語列を考慮可能な,新しい復号アルゴリズムを提案する。
提案手法は,N-gram LMやニューラルネットワーク LM など,サブワードレベルのLMを一貫して上回る。
論文 参考訳(メタデータ) (2022-01-06T10:04:56Z) - CodeBERT: A Pre-Trained Model for Programming and Natural Languages [117.34242908773061]
CodeBERTは、プログラミング言語(PL)とナット言語(NL)のための事前訓練されたモデルである。
我々はTransformerベースのニューラルアーキテクチャを用いたCodeBERTを開発した。
モデルパラメータの微調整による2つのNL-PLアプリケーション上でのCodeBERTの評価を行った。
論文 参考訳(メタデータ) (2020-02-19T13:09:07Z) - Synthetic Datasets for Neural Program Synthesis [66.20924952964117]
本稿では,プログラムと仕様の両方で合成データ分布のバイアスを制御し,評価するための新しい手法を提案する。
そこで我々は,Karel DSLと小さなCalculator DSLを用いて,これらの分布上でのディープネットワークのトレーニングにより,分散一般化性能が向上することが実証された。
論文 参考訳(メタデータ) (2019-12-27T21:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。