論文の概要: CodeBPE: Investigating Subtokenization Options for Large Language Model
Pretraining on Source Code
- arxiv url: http://arxiv.org/abs/2308.00683v1
- Date: Tue, 1 Aug 2023 17:40:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-02 13:22:02.632492
- Title: CodeBPE: Investigating Subtokenization Options for Large Language Model
Pretraining on Source Code
- Title(参考訳): CodeBPE:ソースコードに基づく大規模言語モデルのサブトークン化オプションの調査
- Authors: Nadezhda Chirkova, Sergey Troshin
- Abstract要約: ダウンストリーム性能低下を伴わずに平均長を17%削減するサブトケンジ方式を提案する。
慎重に選択したサブトークン化によって品質が0.5-2%向上し,場合によっては長さが増加する可能性が示唆された。
- 参考スコア(独自算出の注目度): 14.904366372190943
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works have widely adopted large language model pretraining for source
code, suggested source code-specific pretraining objectives and investigated
the applicability of various Transformer-based language model architectures for
source code. This work investigates another important aspect of such models,
namely the effect of different subtokenization options, and aims at identifying
most effective and length-efficient subtokenizations, taking into account code
specifics. We propose subtokenziation that reduces average length by 17%
without downstream performance drop, and show that a carefully chosen
subtokenization may improve quality by 0.5-2%, possibly with some length
increase.
- Abstract(参考訳): 最近の研究は、ソースコードに対する大規模言語モデルの事前訓練を広く採用し、ソースコード固有の事前訓練目標を提案し、ソースコードに対するトランスフォーマーベースの言語モデルアーキテクチャの適用性を検討した。
本研究は,このようなモデルの他の重要な側面,すなわち異なるサブトケライズオプションの影響を調査し,コード固有性を考慮した最も効率的で長寿命なサブトケライズを特定することを目的としている。
ダウンストリーム性能低下を伴わずに平均長を17%減らすサブトケンジングを提案し,慎重に選択したサブトケンジングが0.5-2%向上し,ある程度の長さが増加する可能性が示唆された。
関連論文リスト
- Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。
本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。
我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文 参考訳(メタデータ) (2024-07-23T06:21:24Z) - Multilingual Contrastive Decoding via Language-Agnostic Layers Skipping [60.458273797431836]
対照的なレイヤ(DoLa)によるデコーディングは、大規模言語モデルの生成品質を改善するために設計されている。
このアプローチは英語以外のタスクではうまくいきません。
モデルの前方通過における言語遷移に関する従来の解釈可能性の研究から着想を得て,改良されたコントラスト復号アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-07-15T15:14:01Z) - MAGNET: Improving the Multilingual Fairness of Language Models with Adaptive Gradient-Based Tokenization [75.2540291039202]
マルチ言語設定では、非ラテン語スクリプトと低リソース言語は通常、言語モデルの実用性、効率、コストの点で不利である。
適応的勾配に基づくサブワードトークン化による過分割を低減するために,多言語適応型勾配ベーストークン化を提案する。
論文 参考訳(メタデータ) (2024-07-11T18:59:21Z) - Code Representation Learning At Scale [75.04686476303436]
2段階の事前学習スキームを用いて,大量のコードデータを用いてコード表現学習を行う。
まず、マスキング言語モデリングにおけるランダム性と、プログラミング言語の構造的側面の両方を活用して、エンコーダを訓練する。
そして、教師なしの方法で強陰性かつ強正に構築された対照的な学習を通して表現を強化する。
論文 参考訳(メタデータ) (2024-02-02T22:19:15Z) - AdaCCD: Adaptive Semantic Contrasts Discovery Based Cross Lingual
Adaptation for Code Clone Detection [69.79627042058048]
AdaCCDは、その言語でアノテーションを使わずに、新しい言語のクローンコードを検出する新しい言語間適応手法である。
5つのプログラミング言語からなる多言語コードクローン検出ベンチマークを構築し,AdaCCDの言語間適応性を評価する。
論文 参考訳(メタデータ) (2023-11-13T12:20:48Z) - Improving the Diversity of Unsupervised Paraphrasing with Embedding
Outputs [28.16894664889912]
ゼロショットパラフレーズ生成のための新しい手法を提案する。
主な貢献は、翻訳された並列コーパスを用いて訓練されたエンドツーエンドの多言語パラフレーズモデルである。
論文 参考訳(メタデータ) (2021-10-25T19:33:38Z) - Direction is what you need: Improving Word Embedding Compression in
Large Language Models [7.736463504706344]
本稿では,AutoEncoderアーキテクチャを利用してトランスフォーマーモデルにトークン埋め込みを圧縮する新たな損失目標を提案する。
提案手法は,初期の言語モデルであるPerplexityにおいて,よく使われるSVDベースの行列分解手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2021-06-15T14:28:00Z) - DOBF: A Deobfuscation Pre-Training Objective for Programming Languages [17.239334539543883]
プログラミング言語の構造的側面を活用した新しい事前学習目標、DOBFを紹介します。
DOBFで事前訓練されたモデルが、複数の下流タスクにおける既存のアプローチを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2021-02-15T11:50:47Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。