論文の概要: Addressing Leakage in Self-Supervised Contextualized Code Retrieval
- arxiv url: http://arxiv.org/abs/2204.11594v1
- Date: Sun, 17 Apr 2022 12:58:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-01 09:26:37.646264
- Title: Addressing Leakage in Self-Supervised Contextualized Code Retrieval
- Title(参考訳): 自己監督型コード検索における漏洩への対処
- Authors: Johannes Villmow, Viola Campos, Adrian Ulges, Ulrich Schwanecke
- Abstract要約: 部分的な入力プログラムのギャップを埋めるのに役立つコードスニペットの検索である、文脈化されたコード検索に対処する。
提案手法は,ソースコードをランダムにコンテキストとターゲットに分割することで,大規模な自己指導型コントラストトレーニングを促進する。
両者の漏えいに対処するため, 相互識別マスキング, 復号化, 構文に整合したターゲットの選択に基づく新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 3.693362838682697
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address contextualized code retrieval, the search for code snippets
helpful to fill gaps in a partial input program. Our approach facilitates a
large-scale self-supervised contrastive training by splitting source code
randomly into contexts and targets. To combat leakage between the two, we
suggest a novel approach based on mutual identifier masking, dedentation, and
the selection of syntax-aligned targets. Our second contribution is a new
dataset for direct evaluation of contextualized code retrieval, based on a
dataset of manually aligned subpassages of code clones. Our experiments
demonstrate that our approach improves retrieval substantially, and yields new
state-of-the-art results for code clone and defect detection.
- Abstract(参考訳): 部分的な入力プログラムのギャップを埋めるのに役立つコードスニペットの検索である、文脈化されたコード検索に対処する。
提案手法は,ソースコードをランダムにコンテキストとターゲットに分割することで,大規模な自己指導型コントラストトレーニングを促進する。
両者間のリークに対処するため,相互識別マスキング,デデント,構文に整合したターゲットの選択に基づく新しいアプローチを提案する。
第2のコントリビューションは、手作業によるコードクローンのサブパスのデータセットに基づいて、コンテキスト化されたコード検索を直接評価するための新しいデータセットです。
実験により,提案手法が検索を大幅に改善し,コードクローンと欠陥検出のための新たな最先端結果が得られることを示した。
関連論文リスト
- Look-back Decoding for Open-Ended Text Generation [62.53302138266465]
本研究では,現在の復号化過程と過去の復号化過程の分布距離を追跡する改良された復号化アルゴリズムであるLook-backを提案する。
ルックバックは、潜在的反復句とトピックドリフトを自動的に予測し、障害モードを引き起こす可能性のあるトークンを削除することができる。
文書の継続とストーリー生成に関する復号実験を行い、Look-backがより流動的で一貫性のあるテキストを生成することを実証する。
論文 参考訳(メタデータ) (2023-05-22T20:42:37Z) - Soft-Labeled Contrastive Pre-training for Function-level Code
Representation [127.71430696347174]
textbfSoft-labeled contrastive pre-training framework with two positive sample construction method。
大規模コードコーパスにおけるコード間の関連性を考慮すると、ソフトラベル付きコントラスト付き事前学習は、きめ細かいソフトラベルを得ることができる。
SCodeRは、7つのデータセットで4つのコード関連タスクに対して、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2022-10-18T05:17:37Z) - ConTextual Mask Auto-Encoder for Dense Passage Retrieval [49.49460769701308]
CoT-MAEは,高密度経路抽出のための簡易かつ効果的な生成前訓練法である。
文のセマンティクスを高密度ベクトルに圧縮する学習は、自己教師付きおよび文脈教師付きマスキングによる自動エンコーディングによって行われる。
我々は,大規模経路探索ベンチマークの実験を行い,強力なベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2022-08-16T11:17:22Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z) - Autoregressive Belief Propagation for Decoding Block Codes [113.38181979662288]
誤り訂正符号の復号化にグラフニューラルネットワークを用いた最近の手法を再検討する。
本手法は,他手法がゼロワードでのみ学習できる対称性条件に反する。
1つの単語でトレーニングする余地がなく、関連するサンプル空間のごく一部でトレーニングできないにもかかわらず、効果的なトレーニングを実演する。
論文 参考訳(メタデータ) (2021-01-23T17:14:55Z) - Adversarial Training for Code Retrieval with Question-Description
Relevance Regularization [34.29822107097347]
入力問題から難しいコードスニペットを生成するために,簡単な逆学習手法を適用した。
本稿では,逆学習の規則化に質問記述の関連性を活用することを提案する。
我々の対角学習法は,最先端モデルの性能を向上させることができる。
論文 参考訳(メタデータ) (2020-10-19T19:32:03Z) - Self-Supervised Contrastive Learning for Code Retrieval and
Summarization via Semantic-Preserving Transformations [28.61567319928316]
Corderは、ソースコードモデルのための自己教師付きコントラスト学習フレームワークである。
重要なイノベーションは、ソースコードモデルをトレーニングし、類似した、異種のコードスニペットを認識するように要求することです。
Corderで事前訓練されたコードモデルは、コード・ツー・コード検索、テキスト・ツー・コード検索、およびコード・ツー・テキスト要約タスクにおいて、他のベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2020-09-06T13:31:16Z) - Self-Supervised Bernoulli Autoencoders for Semi-Supervised Hashing [1.8899300124593648]
本稿では,変分オートエンコーダに基づくハッシュ手法のロバスト性と,監督の欠如について検討する。
本稿では,モデルがラベル分布予測を用いて一対の目的を実現する新しい監視手法を提案する。
実験の結果,いずれの手法もハッシュコードの品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2020-07-17T07:47:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。