Fugu-MT 論文翻訳(概要): Programming Language Agnostic Mining of Code and Language Pairs with Sequence Labeling Based Question Answering

論文の概要: Programming Language Agnostic Mining of Code and Language Pairs with Sequence Labeling Based Question Answering

arxiv url: http://arxiv.org/abs/2203.10744v1
Date: Mon, 21 Mar 2022 05:33:59 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-23 03:11:12.527781
Title: Programming Language Agnostic Mining of Code and Language Pairs with Sequence Labeling Based Question Answering
Title（参考訳）: 逐次ラベリングに基づく質問応答によるコードと言語ペアの言語非依存マイニング
Authors: Changran Hu, Akshara Reddi Methukupalli, Yutong Zhou, Chen Wu, Yubo Chen
Abstract要約: 自然言語(NL)とプログラミング言語(PL)のペアをマイニングすることは、NL-PL理解にとって重要な課題である。 PLに依存しない方法でNL-PLペアをマイニングするためのシーケンスラベルに基づく質問応答法(SLQA)を提案する。
参考スコア（独自算出の注目度）: 15.733292367610627
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Mining aligned natural language (NL) and programming language (PL) pairs is a critical task to NL-PL understanding. Existing methods applied specialized hand-crafted features or separately-trained models for each PL. However, they usually suffered from low transferability across multiple PLs, especially for niche PLs with less annotated data. Fortunately, a Stack Overflow answer post is essentially a sequence of text and code blocks and its global textual context can provide PL-agnostic supplementary information. In this paper, we propose a Sequence Labeling based Question Answering (SLQA) method to mine NL-PL pairs in a PL-agnostic manner. In particular, we propose to apply the BIO tagging scheme instead of the conventional binary scheme to mine the code solutions which are often composed of multiple blocks of a post. Experiments on current single-PL single-block benchmarks and a manually-labeled cross-PL multi-block benchmark prove the effectiveness and transferability of SLQA. We further present a parallel NL-PL corpus named Lang2Code automatically mined with SLQA, which contains about 1.4M pairs on 6 PLs. Under statistical analysis and downstream evaluation, we demonstrate that Lang2Code is a large-scale high-quality data resource for further NL-PL research.
Abstract（参考訳）: 自然言語(NL)とプログラミング言語(PL)のペアをマイニングすることは、NL-PL理解にとって重要な課題である。既存の手法は、PLごとに特殊手作りの特徴や個別に訓練されたモデルを適用した。しかし、通常、複数のPL、特に注釈付きデータが少ないニッチPL間での転送性が低い。幸いなことに、stack overflowの回答投稿は基本的にテキストとコードブロックのシーケンスであり、そのグローバルテキストコンテキストはplに依存しない追加情報を提供することができる。本稿では,NL-PLペアをPLに依存しない方法でマイニングするためのシーケンスラベルに基づく質問応答(SLQA)手法を提案する。特に,ポストの複数のブロックから構成されるコードソリューションをマイニングするために,従来のバイナリ方式の代わりに,BIOタグ方式を適用することを提案する。現在のシングルPLシングルブロックベンチマークと、手動でラベル付けされたクロスPLマルチブロックベンチマークの実験は、SLQAの有効性と転送性を証明する。さらに,Lang2Codeという並列NL-PLコーパスをSLQAで自動的にマイニングし,約1.4万ペアを6 PL上に含む。統計的解析と下流評価により,Lang2CodeはNL-PL研究のための大規模データ資源であることを示す。

関連論文リスト

CrossPL: Evaluating Large Language Models on Cross Programming Language Code Generation [24.468767564264738]
大規模言語モデル(LLM)のクロスプログラミング言語(CPL)コードを生成する能力を評価するために設計された最初のベンチマークであるCrossPLを提案する。 CrossPLは、IPCを中心とした1,982のタスクで構成され、6つの広く使われているプログラミング言語と7つの代表的CPL技術を含んでいる。 FSMによる検証により,過去3年間にリリースされた14の最先端汎用LLMと6のコード指向LLMをCrossPL上で評価した。
論文参考訳（メタデータ） (2025-07-26T10:28:39Z)
How Programming Concepts and Neurons Are Shared in Code Language Models [55.22005737371843]
2つのLlamaモデルを用いて,21個のPLペアに対して数ショットの翻訳処理を行う。概念空間は英語に近づき(PLキーワードを含む)、中間層後半の英語トークンに高い確率を割り当てる。我々は11個のPLと英語のニューロンの活性化を分析し、言語特異的ニューロンが主に下層に集中しているのに対し、各PL専用のニューロンは上層に現れる傾向にあることを示した。
論文参考訳（メタデータ） (2025-06-01T16:24:13Z)
Bridge-Coder: Unlocking LLMs' Potential to Overcome Language Gaps in Low-Resource Code [31.48411893252137]
LLM(Large Language Models)は、Pythonのような高リソースプログラミング言語(HRPL)のコードを生成する能力を示すが、RacketやDのような低リソースプログラミング言語(LRPL)と大きく競合する。このパフォーマンスギャップは、デジタル格差を深くし、LRPLを使用する開発者がLLMの進歩から等しく利益を得るのを防ぎ、表現不足のプログラミングコミュニティにおけるイノベーションの格差を補強する。 LRPLの性能を高めるために,LLMの本質的な能力を活用したBridge-Coderという新しい手法を導入する。
論文参考訳（メタデータ） (2024-10-24T17:55:03Z)
Position IDs Matter: An Enhanced Position Layout for Efficient Context Compression in Large Language Models [50.637714223178456]
大規模言語モデル(LLM)の文脈圧縮能力を改善するために,拡張位置レイアウト(EPL)を提案する。 EPLはコンテキストトークンと対応する特別なトークンの間の距離を最小化し、同時に位置IDのシーケンス順序を維持する。マルチモーダルシナリオに拡張すると、EPLは視覚圧縮LLMに平均2.6の精度向上をもたらす。
論文参考訳（メタデータ） (2024-09-22T08:51:18Z)
SSP: Self-Supervised Prompting for Cross-Lingual Transfer to Low-Resource Languages using Large Language Models [23.522223369054437]
Self-Supervised Prompting (SSP) はゼロラベルのクロスリンガルトランスファー(0-CLT)の設定に適した新しいICLアプローチである。 SSP は、LLM がテキスト内例がターゲット言語からのものである場合、より正確なラベルを出力する、というキーオブザーバーに基づいている。 SSPは、0-CLTセットアップにおいて、既存のSOTAの微調整とプロンプトベースのベースラインを強く上回る。
論文参考訳（メタデータ） (2024-06-27T04:21:59Z)
Nearest Neighbor Speculative Decoding for LLM Generation and Attribution [87.3259169631789]
Nearest Speculative Decoding (NEST)は、任意の長さの実世界のテキストスパンをLM世代に組み込むことができ、それらのソースへの属性を提供する。 NESTは、様々な知識集約タスクにおいて、基本LMの生成品質と帰属率を大幅に向上させる。さらに、NESTは、Llama-2-Chat 70Bに適用した場合の推論時間において1.8倍のスピードアップを達成することにより、生成速度を大幅に改善する。
論文参考訳（メタデータ） (2024-05-29T17:55:03Z)
Uncovering LLM-Generated Code: A Zero-Shot Synthetic Code Detector via Code Rewriting [78.48355455324688]
原符号とLLM書き換え版との類似性に基づく新しいゼロショット合成符号検出器を提案する。以上の結果から,既存のSOTA合成コンテンツ検出装置よりも顕著な改善が得られた。
論文参考訳（メタデータ） (2024-05-25T08:57:28Z)
CodeIP: A Grammar-Guided Multi-Bit Watermark for Large Language Models of Code [56.019447113206006]
大規模言語モデル(LLM)はコード生成において顕著な進歩を遂げた。 CodeIPは、新しいマルチビット透かし技術で、出所の詳細を保存するために追加情報を埋め込む。 5つのプログラミング言語にまたがる実世界のデータセットで実施された実験は、CodeIPの有効性を実証している。
論文参考訳（メタデータ） (2024-04-24T04:25:04Z)
CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文参考訳（メタデータ） (2024-04-08T21:15:36Z)
ANPL: Towards Natural Programming with Interactive Decomposition [33.58825633046242]
我々は,ユーザが常に生成したコードを洗練できるように,対話型ANPLシステムを導入する。 ANPLプログラムは、それが満たさなければならない入力出力のセットで構成される。ユーザは、スケッチを変更し、穴を記述するのに使用される言語を変更したり、特定の穴に追加の入力出力を提供することで、ANPLプログラムを更新する。
論文参考訳（メタデータ） (2023-05-29T14:19:40Z)
ProgSG: Cross-Modality Representation Learning for Programs in Electronic Design Automation [38.023395256208055]
高レベル合成(HLS)により、開発者はCとC++のソフトウェアコード形式で高レベルな記述をコンパイルできる。 HLSツールは相変わらず、プラグマで表されるマイクロアーキテクチャの決定を必要とする。本稿では,ソースコードシーケンスのモダリティとグラフのモダリティを深く,きめ細かな方法で相互に相互作用させることができるProgSGを提案する。
論文参考訳（メタデータ） (2023-05-18T09:44:18Z)
MultiCoder: Multi-Programming-Lingual Pre-Training for Low-Resource Code Completion [21.100570496144694]
我々は、MultiPLプレトレーニングとMultiPL Mixture-of-Expertsレイヤを用いて、低リソースのコード補完を強化するためのMultiCoderを提案する。また,全てのPLのコード補完を改善するため,新しいPLレベルMOEルーティング戦略(PL-MoE)を提案する。
論文参考訳（メタデータ） (2022-12-19T17:50:05Z)
Improving Mandarin End-to-End Speech Recognition with Word N-gram Language Model [57.92200214957124]
外部言語モデル(LM)は、エンドツーエンド(E2E)自動音声認識(ASR)システムの音声認識性能を向上させることができる。単語レベルの格子をオンザフライで構築し,可能なすべての単語列を考慮可能な,新しい復号アルゴリズムを提案する。提案手法は,N-gram LMやニューラルネットワーク LM など,サブワードレベルのLMを一貫して上回る。
論文参考訳（メタデータ） (2022-01-06T10:04:56Z)
CodeBERT: A Pre-Trained Model for Programming and Natural Languages [117.34242908773061]
CodeBERTは、プログラミング言語(PL)とナット言語(NL)のための事前訓練されたモデルである。我々はTransformerベースのニューラルアーキテクチャを用いたCodeBERTを開発した。モデルパラメータの微調整による2つのNL-PLアプリケーション上でのCodeBERTの評価を行った。
論文参考訳（メタデータ） (2020-02-19T13:09:07Z)
Synthetic Datasets for Neural Program Synthesis [66.20924952964117]
本稿では,プログラムと仕様の両方で合成データ分布のバイアスを制御し,評価するための新しい手法を提案する。そこで我々は,Karel DSLと小さなCalculator DSLを用いて,これらの分布上でのディープネットワークのトレーニングにより,分散一般化性能が向上することが実証された。
論文参考訳（メタデータ） (2019-12-27T21:28:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。