論文の概要: CodeBPE: Investigating Subtokenization Options for Large Language Model
Pretraining on Source Code
- arxiv url: http://arxiv.org/abs/2308.00683v1
- Date: Tue, 1 Aug 2023 17:40:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-02 13:22:02.632492
- Title: CodeBPE: Investigating Subtokenization Options for Large Language Model
Pretraining on Source Code
- Title(参考訳): CodeBPE:ソースコードに基づく大規模言語モデルのサブトークン化オプションの調査
- Authors: Nadezhda Chirkova, Sergey Troshin
- Abstract要約: ダウンストリーム性能低下を伴わずに平均長を17%削減するサブトケンジ方式を提案する。
慎重に選択したサブトークン化によって品質が0.5-2%向上し,場合によっては長さが増加する可能性が示唆された。
- 参考スコア(独自算出の注目度): 14.904366372190943
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works have widely adopted large language model pretraining for source
code, suggested source code-specific pretraining objectives and investigated
the applicability of various Transformer-based language model architectures for
source code. This work investigates another important aspect of such models,
namely the effect of different subtokenization options, and aims at identifying
most effective and length-efficient subtokenizations, taking into account code
specifics. We propose subtokenziation that reduces average length by 17%
without downstream performance drop, and show that a carefully chosen
subtokenization may improve quality by 0.5-2%, possibly with some length
increase.
- Abstract(参考訳): 最近の研究は、ソースコードに対する大規模言語モデルの事前訓練を広く採用し、ソースコード固有の事前訓練目標を提案し、ソースコードに対するトランスフォーマーベースの言語モデルアーキテクチャの適用性を検討した。
本研究は,このようなモデルの他の重要な側面,すなわち異なるサブトケライズオプションの影響を調査し,コード固有性を考慮した最も効率的で長寿命なサブトケライズを特定することを目的としている。
ダウンストリーム性能低下を伴わずに平均長を17%減らすサブトケンジングを提案し,慎重に選択したサブトケンジングが0.5-2%向上し,ある程度の長さが増加する可能性が示唆された。
関連論文リスト
- Code Representation Learning At Scale [75.04686476303436]
2段階の事前学習スキームを用いて,大量のコードデータを用いてコード表現学習を行う。
まず、マスキング言語モデリングにおけるランダム性と、プログラミング言語の構造的側面の両方を活用して、エンコーダを訓練する。
そして、教師なしの方法で強陰性かつ強正に構築された対照的な学習を通して表現を強化する。
論文 参考訳(メタデータ) (2024-02-02T22:19:15Z) - Unlocking Efficiency in Large Language Model Inference: A Comprehensive
Survey of Speculative Decoding [48.23348694701169]
投機的デコーディングは、LLM(Large Language Models)推論のための新しいデコーディングパラダイムとして登場した。
復号処理の各ステップにおいて、この手法はまず、複数の将来のトークンを効率的にドラフトし、それらを並列に検証する。
本稿では,この有望な復号化パラダイムの概観と解析について述べる。
論文 参考訳(メタデータ) (2024-01-15T17:26:50Z) - Multi-Candidate Speculative Decoding [82.05519287513444]
大規模な言語モデルは、様々なNLPタスクで印象的な機能を示してきたが、その生成は自動回帰的に時間を要する。
これは高速なドラフトモデルから候補セグメントを生成し、ターゲットモデルによって並列に検証する。
本稿では,複数の候補をドラフトモデルから抽出し,検証のためにバッチにまとめる手法を提案する。
対象モデルの分布を維持しつつ,効率的な多候補検証のためのアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-01-12T17:15:23Z) - AdaCCD: Adaptive Semantic Contrasts Discovery Based Cross Lingual
Adaptation for Code Clone Detection [69.79627042058048]
AdaCCDは、その言語でアノテーションを使わずに、新しい言語のクローンコードを検出する新しい言語間適応手法である。
5つのプログラミング言語からなる多言語コードクローン検出ベンチマークを構築し,AdaCCDの言語間適応性を評価する。
論文 参考訳(メタデータ) (2023-11-13T12:20:48Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Improving the Diversity of Unsupervised Paraphrasing with Embedding
Outputs [28.16894664889912]
ゼロショットパラフレーズ生成のための新しい手法を提案する。
主な貢献は、翻訳された並列コーパスを用いて訓練されたエンドツーエンドの多言語パラフレーズモデルである。
論文 参考訳(メタデータ) (2021-10-25T19:33:38Z) - Direction is what you need: Improving Word Embedding Compression in
Large Language Models [7.736463504706344]
本稿では,AutoEncoderアーキテクチャを利用してトランスフォーマーモデルにトークン埋め込みを圧縮する新たな損失目標を提案する。
提案手法は,初期の言語モデルであるPerplexityにおいて,よく使われるSVDベースの行列分解手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2021-06-15T14:28:00Z) - DOBF: A Deobfuscation Pre-Training Objective for Programming Languages [17.239334539543883]
プログラミング言語の構造的側面を活用した新しい事前学習目標、DOBFを紹介します。
DOBFで事前訓練されたモデルが、複数の下流タスクにおける既存のアプローチを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2021-02-15T11:50:47Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - A Transformer-based Approach for Source Code Summarization [86.08359401867577]
コードトークン間のペア関係をモデル化することにより,要約のためのコード表現を学習する。
アプローチは単純であるにもかかわらず、最先端技術よりもかなりの差があることが示される。
論文 参考訳(メタデータ) (2020-05-01T23:29:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。