論文の概要: VarCLR: Variable Semantic Representation Pre-training via Contrastive
Learning
- arxiv url: http://arxiv.org/abs/2112.02650v1
- Date: Sun, 5 Dec 2021 18:40:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-07 15:41:31.502357
- Title: VarCLR: Variable Semantic Representation Pre-training via Contrastive
Learning
- Title(参考訳): VarCLR: コントラスト学習による可変意味表現事前学習
- Authors: Qibin Chen, Jeremy Lacomis, Edward J. Schwartz, Graham Neubig, Bogdan
Vasilescu, Claire Le Goues
- Abstract要約: VarCLRは変数名のセマンティック表現を学ぶための新しいアプローチである。
VarCLRはコントラスト学習に適しており、明示的に類似した入力間の距離を最小化することを目的としている。
VarCLRはBERTのような洗練された汎用言語モデルを効果的に適用できることを示す。
- 参考スコア(独自算出の注目度): 84.70916463298109
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Variable names are critical for conveying intended program behavior. Machine
learning-based program analysis methods use variable name representations for a
wide range of tasks, such as suggesting new variable names and bug detection.
Ideally, such methods could capture semantic relationships between names beyond
syntactic similarity, e.g., the fact that the names average and mean are
similar. Unfortunately, previous work has found that even the best of previous
representation approaches primarily capture relatedness (whether two variables
are linked at all), rather than similarity (whether they actually have the same
meaning).
We propose VarCLR, a new approach for learning semantic representations of
variable names that effectively captures variable similarity in this stricter
sense. We observe that this problem is an excellent fit for contrastive
learning, which aims to minimize the distance between explicitly similar
inputs, while maximizing the distance between dissimilar inputs. This requires
labeled training data, and thus we construct a novel, weakly-supervised
variable renaming dataset mined from GitHub edits. We show that VarCLR enables
the effective application of sophisticated, general-purpose language models
like BERT, to variable name representation and thus also to related downstream
tasks like variable name similarity search or spelling correction. VarCLR
produces models that significantly outperform the state-of-the-art on IdBench,
an existing benchmark that explicitly captures variable similarity (as distinct
from relatedness). Finally, we contribute a release of all data, code, and
pre-trained models, aiming to provide a drop-in replacement for variable
representations used in either existing or future program analyses that rely on
variable names.
- Abstract(参考訳): 変数名は意図したプログラムの振る舞いを伝えるのに不可欠である。
機械学習に基づくプログラム解析手法では、新しい変数名の提案やバグ検出など、幅広いタスクに変数名表現を使用する。
理想的には、このような手法は、構文的類似性を超えた名前間の意味的関係をキャプチャすることができる。
残念なことに、以前の研究では、以前の最も優れた表現アプローチでさえも、類似性(実際には同じ意味を持つ)ではなく、主に関連性(2つの変数が全くリンクされている)を捉えていることがわかった。
この厳密な意味で変数の類似性を効果的に捉えた変数名の意味表現を学習するための新しいアプローチであるVarCLRを提案する。
この問題は、類似した入力間の距離を最小化しつつ、異種入力間の距離を最大化することを目的として、コントラスト学習に適している。
これはラベル付きトレーニングデータを必要とするため、GitHub編集から抽出した新しい、弱教師付き可変リネームデータセットを構築します。
VarCLRは、BERTのような洗練された汎用言語モデルの変数名表現への効果的な適用を可能にし、変数名類似性検索やスペル訂正のような関連する下流タスクにも適用可能であることを示す。
VarCLRは、(関連性とは異なる)変数の類似性を明示的にキャプチャする既存のベンチマークであるIdBenchで最先端のモデルを生成する。
最後に、変数名に依存する既存または将来のプログラム分析で使用される変数表現のドロップイン置換を提供することを目的として、すべてのデータ、コード、事前訓練されたモデルのリリースに貢献する。
関連論文リスト
- Evaluating Semantic Variation in Text-to-Image Synthesis: A Causal Perspective [50.261681681643076]
本稿では,SemVarEffectとSemVarBenchというベンチマークを用いて,テキスト・画像合成における入力のセマンティックな変化と出力の因果性を評価する。
本研究は,T2I合成コミュニティによるヒューマンインストラクション理解の探索を促進する効果的な評価枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T08:45:35Z) - Data-driven path collective variables [0.0]
本稿では,集合変数の生成,最適化,比較のための新しい手法を提案する。
結果として得られる集合変数は1次元、解釈可能、微分可能である。
2つの異なるアプリケーションに対して,本手法の有効性を示す。
論文 参考訳(メタデータ) (2023-12-21T14:07:47Z) - Scalable variable selection for two-view learning tasks with projection
operators [0.0]
本稿では,2視点設定やベクトル値による教師付き学習問題に対して,新しい変数選択法を提案する。
当社のフレームワークは,データサンプルの数が数百万にものぼる,非常に大規模な選択タスクを処理できる。
論文 参考訳(メタデータ) (2023-07-04T08:22:05Z) - Scalable Neural Symbolic Regression using Control Variables [7.725394912527969]
本稿では,制御変数を利用したスケーラブルなシンボル回帰モデルであるScaleSRを提案し,精度とスケーラビリティを両立させる。
まず、ディープニューラルネットワーク(DNN)を用いて観測データからデータジェネレータを学習する。
実験結果から,複数の変数を持つ数学的表現の発見において,提案した ScaleSR は最先端のベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-06-07T18:30:25Z) - A Lagrangian Duality Approach to Active Learning [119.36233726867992]
トレーニングデータのサブセットのみをラベル付けするバッチアクティブな学習問題を考察する。
制約付き最適化を用いて学習問題を定式化し、各制約はラベル付きサンプルにモデルの性能を拘束する。
数値実験により,提案手法は最先端の能動学習法と同等かそれ以上に機能することを示した。
論文 参考訳(メタデータ) (2022-02-08T19:18:49Z) - Be More Active! Understanding the Differences between Mean and Sampled
Representations of Variational Autoencoders [6.68999512375737]
不整合表現を学習する変分オートエンコーダの能力は、実践的な応用にアピールしている。
下流のタスクに一般的に使用される平均表現は、最近、サンプリングされたタスクよりも相関が強いことが示されている。
その結果, 受動的変数は, 平均表現において他の変数と高い相関値を示し, サンプルでは相関関係が全くないことがわかった。
論文 参考訳(メタデータ) (2021-09-26T19:04:57Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z) - SChME at SemEval-2020 Task 1: A Model Ensemble for Detecting Lexical
Semantic Change [58.87961226278285]
本稿では,SemEval-2020 Task 1における語彙意味変化の教師なし検出法であるSChMEについて述べる。
SChMEは、分布モデル(単語埋め込み)とワード周波数モデルの信号を組み合わせたモデルアンサンブルを使用し、各モデルは、その特徴に応じて単語が苦しむ確率を示す投票を行う。
論文 参考訳(メタデータ) (2020-12-02T23:56:34Z) - $\ell_0$-based Sparse Canonical Correlation Analysis [7.073210405344709]
正準相関解析(CCA)モデルは、2つの変数の集合間の関連を研究する上で強力である。
その成功にもかかわらず、CCAモデルは、いずれかのモダリティにおける変数数がサンプル数を超えた場合、壊れる可能性がある。
本稿では,2つのモードのスパース部分集合に基づく相関表現の学習法である $ell_0$-CCA を提案する。
論文 参考訳(メタデータ) (2020-10-12T11:44:15Z) - Parameter Space Factorization for Zero-Shot Learning across Tasks and
Languages [112.65994041398481]
本稿では,ニューラルパラメータの空間に対するベイズ生成モデルを提案する。
タスク言語の組み合わせから得られたデータに基づいて、そのような潜伏変数よりも後部を推測する。
我々のモデルは、最先端のゼロショットの言語間転送手法よりも、同等か良い結果が得られる。
論文 参考訳(メタデータ) (2020-01-30T16:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。