論文の概要: How Does Code Pretraining Affect Language Model Task Performance?
- arxiv url: http://arxiv.org/abs/2409.04556v1
- Date: Fri, 6 Sep 2024 18:33:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 22:10:46.321641
- Title: How Does Code Pretraining Affect Language Model Task Performance?
- Title(参考訳): 言語モデルタスクのパフォーマンスにどのような影響があるのか?
- Authors: Jackson Petty, Sjoerd van Steenkiste, Tal Linzen,
- Abstract要約: 自然言語とコードをインターリーブするデータセット上で、言語モデルを事前訓練する。
高い割合のコードで事前学習を行うことで、構成タスクのパフォーマンスが向上することがわかった。
- 参考スコア(独自算出の注目度): 26.660681317413108
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are increasingly trained on corpora containing both natural language and non-linguistic data like source code. Aside from aiding programming-related tasks, anecdotal evidence suggests that including code in pretraining corpora may improve performance on other, unrelated tasks, yet to date no work has been able to establish a causal connection by controlling between language and code data. Here we do just this. We pretrain language models on datasets which interleave natural language and code in two different settings: additive, in which the total volume of data seen during pretraining is held constant; and competitive, in which the volume of language data is held constant. We study how the pretraining mixture affects performance on (a) a diverse collection of tasks included in the BigBench benchmark, and (b) compositionality, measured by generalization accuracy on semantic parsing and syntactic transformations. We find that pretraining on higher proportions of code improves performance on compositional tasks involving structured output (like semantic parsing), and mathematics. Conversely, increase code mixture can harm performance on other tasks, including on tasks that requires sensitivity to linguistic structure such as syntax or morphology, and tasks measuring real-world knowledge.
- Abstract(参考訳): 大規模な言語モデルは、ソースコードのような自然言語と非言語データの両方を含むコーパスで、ますます訓練されている。
プログラミング関連のタスクを支援すること以外は、事前学習コーパスに含まれるコードを含めると、他の無関係なタスクのパフォーマンスが向上する可能性があるが、言語とコードデータ間の制御によって因果関係を確立できないという逸話的な証拠がある。
ここでは、まさにこれを行う。
我々は、自然言語とコードをインターリーブするデータセット上で、事前学習中に見られるデータの総量を一定に保った添加物と、言語データの体積を一定に保った競合物とを2つの異なる設定で事前訓練する。
プレトレーニング混合物がパフォーマンスに与える影響について検討する。
(a)BigBenchベンチマークに含まれるさまざまなタスクのコレクション。
b) 意味解析と構文変換の一般化精度によって測定された構成性。
高い比率のコードに対する事前学習は、構造化された出力(セマンティックパーシングなど)と数学を含む構成的タスクのパフォーマンスを向上させる。
逆に、コードミックスの増加は、構文や形態学などの言語構造に敏感なタスクや、現実世界の知識を測定するタスクなど、他のタスクのパフォーマンスを損なう可能性がある。
関連論文リスト
- Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data [76.90128359866462]
本稿では,出力確率と事前学習データ頻度の相関を計測する,記憶化,分布記憶化という拡張概念を導入する。
本研究は, より単純で知識集約的なタスクにおいて, 記憶がより大きな役割を担い, 一般化が, より困難で推論に基づくタスクの鍵であることを示す。
論文 参考訳(メタデータ) (2024-07-20T21:24:40Z) - Code Representation Learning At Scale [75.04686476303436]
2段階の事前学習スキームを用いて,大量のコードデータを用いてコード表現学習を行う。
まず、マスキング言語モデリングにおけるランダム性と、プログラミング言語の構造的側面の両方を活用して、エンコーダを訓練する。
そして、教師なしの方法で強陰性かつ強正に構築された対照的な学習を通して表現を強化する。
論文 参考訳(メタデータ) (2024-02-02T22:19:15Z) - Leveraging Language Identification to Enhance Code-Mixed Text
Classification [0.7340017786387767]
既存のディープラーニングモデルは、コード混合テキストの暗黙の言語情報を活用できない。
本研究の目的は,低リソースのCode-Mixed Hindi- Englishデータセット上でのBERTモデルの性能向上である。
論文 参考訳(メタデータ) (2023-06-08T06:43:10Z) - Exploring Data Augmentation for Code Generation Tasks [6.031587388000333]
コード翻訳と要約の一貫性を最大6.9%と7.5%向上させる拡張手法を提案する。
また、テストデータの欠陥についても論じる。
論文 参考訳(メタデータ) (2023-02-05T14:30:32Z) - Python Code Generation by Asking Clarification Questions [57.63906360576212]
本稿では,この課題に対して,より斬新で現実的なセットアップを導入する。
我々は、自然言語記述の過小評価は、明確化を問うことで解決できると仮定する。
我々は、生成した合成明確化質問と回答を含む自然言語記述とコードのペアを含む、CodeClarQAという新しいデータセットを収集し、導入する。
論文 参考訳(メタデータ) (2022-12-19T22:08:36Z) - Synergy with Translation Artifacts for Training and Inference in
Multilingual Tasks [11.871523410051527]
本稿では,両翻訳を同時に組み合わせることで,多言語文分類タスクにおける結果の相乗化が可能であることを示す。
本研究では,SupCon と MixUp を併用した言語間微調整アルゴリズム MUSC を提案する。
論文 参考訳(メタデータ) (2022-10-18T04:55:24Z) - A Balanced Data Approach for Evaluating Cross-Lingual Transfer: Mapping
the Linguistic Blood Bank [13.630306305322094]
プレトレーニング言語の選択は,BERTモデルに対する下流言語間移動に影響を及ぼすことを示す。
本研究では,データサイズを削減し,ドナーとして下流のパフォーマンスを向上させる事前学習言語を分類するために,バランスの取れたデータ条件下でゼロショット性能を検査する。
論文 参考訳(メタデータ) (2022-05-09T07:32:50Z) - A Comprehensive Understanding of Code-mixed Language Semantics using
Hierarchical Transformer [28.3684494647968]
コード混合言語のセマンティクスを学習するための階層型トランスフォーマーベースアーキテクチャ(HIT)を提案する。
提案手法を17のデータセット上で6つのインド語と9つのNLPタスクで評価した。
論文 参考訳(メタデータ) (2022-04-27T07:50:18Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z) - Pre-Training a Language Model Without Human Language [74.11825654535895]
先行学習データの本質的性質が下流性能の微調整にどのように寄与するかを検討する。
非構造化データで事前に訓練されたモデルは、下流のタスクでゼロから訓練されたモデルに勝った。
驚くべきことに、特定の非人間言語データの事前トレーニングがGLUEのパフォーマンスを他の非英語言語で事前トレーニングされたパフォーマンスに近づけることを明らかにしました。
論文 参考訳(メタデータ) (2020-12-22T13:38:06Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。