論文の概要: Rethinking Negative Pairs in Code Search
- arxiv url: http://arxiv.org/abs/2310.08069v1
- Date: Thu, 12 Oct 2023 06:32:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 12:41:22.941390
- Title: Rethinking Negative Pairs in Code Search
- Title(参考訳): コード検索における負のペアの再検討
- Authors: Haochen Li, Xin Zhou, Luu Anh Tuan, Chunyan Miao
- Abstract要約: 我々は、重み項をInfoNCEに挿入する簡易で効果的なSoft-InfoNCE損失を提案する。
我々は,Soft-InfoNCEが学習したコード表現の分布を制御することと,より正確な相互情報推定の導出に与える影響を分析する。
- 参考スコア(独自算出の注目度): 56.23857828689406
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, contrastive learning has become a key component in fine-tuning code
search models for software development efficiency and effectiveness. It pulls
together positive code snippets while pushing negative samples away given
search queries. Among contrastive learning, InfoNCE is the most widely used
loss function due to its better performance. However, the following problems in
negative samples of InfoNCE may deteriorate its representation learning: 1) The
existence of false negative samples in large code corpora due to duplications.
2). The failure to explicitly differentiate between the potential relevance of
negative samples. As an example, a bubble sorting algorithm example is less
``negative'' than a file saving function for the quick sorting algorithm query.
In this paper, we tackle the above problems by proposing a simple yet effective
Soft-InfoNCE loss that inserts weight terms into InfoNCE. In our proposed loss
function, we apply three methods to estimate the weights of negative pairs and
show that the vanilla InfoNCE loss is a special case of Soft-InfoNCE.
Theoretically, we analyze the effects of Soft-InfoNCE on controlling the
distribution of learnt code representations and on deducing a more precise
mutual information estimation. We furthermore discuss the superiority of
proposed loss functions with other design alternatives. Extensive experiments
demonstrate the effectiveness of Soft-InfoNCE and weights estimation methods
under state-of-the-art code search models on a large-scale public dataset
consisting of six programming languages. Source code is available at
\url{https://github.com/Alex-HaochenLi/Soft-InfoNCE}.
- Abstract(参考訳): 近年,ソフトウェア開発の効率化と効率化のために,コード検索モデルの微調整において,コントラスト学習が重要な要素となっている。
検索クエリの負のサンプルをプッシュしながら、ポジティブなコードスニペットをまとめます。
対照的に、InfoNCEはより優れたパフォーマンスのために最も広く使われている損失関数である。
しかし、インフォランスの負のサンプルにおける以下の問題は、その表現学習を損なう可能性がある: 1) 重複によって大きなコードコーパスに偽の負のサンプルが存在する。
2).
負のサンプルの潜在的な関連性をはっきりと区別できない。
例えば、バブルソートアルゴリズムの例では、クイックソートアルゴリズムクエリのファイル保存関数よりも ``negative''' の方が少ない。
本稿では,重み項をInfoNCEに挿入する簡易で効果的なSoft-InfoNCE損失を提案する。
提案した損失関数では,負対の重みを推定するために3つの手法を適用し,バニラInfoNCE損失がSoft-InfoNCEの特別な場合であることを示す。
理論的には、ソフトインフォデンスが学習コード表現の分布制御とより正確な相互情報推定に与える影響を分析した。
さらに,提案する損失関数と他の設計手法との優位性について考察する。
広範な実験により、6つのプログラミング言語からなる大規模公開データセット上の最先端コード探索モデルにおけるソフトインフォデンスおよび重み付け推定手法の有効性が実証された。
ソースコードは \url{https://github.com/Alex-HaochenLi/Soft-InfoNCE} で入手できる。
関連論文リスト
- Enhancing Consistency and Mitigating Bias: A Data Replay Approach for
Incremental Learning [100.7407460674153]
ディープラーニングシステムは、一連のタスクから学ぶとき、破滅的な忘れがちだ。
問題を緩和するため、新しいタスクを学ぶ際に経験豊富なタスクのデータを再生する手法が提案されている。
しかし、メモリ制約やデータプライバシーの問題を考慮すると、実際には期待できない。
代替として、分類モデルからサンプルを反転させることにより、データフリーなデータ再生法を提案する。
論文 参考訳(メタデータ) (2024-01-12T12:51:12Z) - Generating Enhanced Negatives for Training Language-Based Object Detectors [86.1914216335631]
我々は、現代の生成モデルに組み込まれた膨大な知識を活用して、元のデータにより関連性のある負を自動で構築することを提案する。
具体的には、大言語モデルを用いて、負のテキスト記述を生成するとともに、テキスト間拡散モデルを用いて、対応する負の画像を生成する。
実験により, 生成した負データとの関連性を確認し, 言語ベースの検出器での使用により, 2つの複雑なベンチマークの性能が向上した。
論文 参考訳(メタデータ) (2023-12-29T23:04:00Z) - Siamese Prototypical Contrastive Learning [24.794022951873156]
コントラスト型自己教師学習(Contrastive Self-supervised Learning, CSL)は、大規模データから意味のある視覚的表現を教師なしアプローチで学習する実践的ソリューションである。
本稿では,単純かつ効果的なコントラスト学習フレームワークを導入することで,この問題に対処する。
重要な洞察は、シアメスタイルのメートル法損失を用いて、原型間特徴間の距離を増大させながら、原型内特徴と一致させることである。
論文 参考訳(メタデータ) (2022-08-18T13:25:30Z) - Positive-Negative Equal Contrastive Loss for Semantic Segmentation [8.664491798389662]
従来の作業では、グローバルコンテキストを効果的に抽出し集約するために、プラグアンドプレイモジュールと構造的損失を設計するのが一般的だった。
そこで我々は, 正負の負の正の負の負の正の負の正の負の正の負の負の負の正の負の負の正の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の
総合的な実験を行い、2つのベンチマークデータセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-07-04T13:51:29Z) - Learning Fast Sample Re-weighting Without Reward Data [41.92662851886547]
本稿では,新たな報酬データを必要としない学習ベース高速サンプル再重み付け手法を提案する。
実験により,提案手法は,ラベルノイズや長い尾の認識に関する芸術的状況と比較して,競争力のある結果が得られることを示した。
論文 参考訳(メタデータ) (2021-09-07T17:30:56Z) - Neural Code Summarization: How Far Are We? [30.324396716447602]
ディープラーニング技術を利用して、与えられたコードスニペットの要約を自動的に生成する。
本稿では,5つの最先端のニューラルネットワークの要約モデルについて,系統的かつ詳細な解析を行う。
論文 参考訳(メタデータ) (2021-07-15T04:33:59Z) - Rethinking InfoNCE: How Many Negative Samples Do You Need? [54.146208195806636]
半定量的理論フレームワークを用いて, InfoNCE に最適化された負のサンプル数について検討した。
トレーニングの有効性関数を最大化する$K$値を用いて,最適負サンプリング比を推定する。
論文 参考訳(メタデータ) (2021-05-27T08:38:29Z) - Contrastive Learning with Hard Negative Samples [80.12117639845678]
我々は, 厳密な陰性サンプルを選択するために, 教師なしサンプリング手法を新たに開発する。
このサンプリングの制限ケースは、各クラスをしっかりとクラスタ化し、可能な限り異なるクラスを遠くにプッシュする表現をもたらす。
提案手法は、複数のモードをまたいだダウンストリーム性能を改善し、実装するコード行数が少なく、計算オーバーヘッドを伴わない。
論文 参考訳(メタデータ) (2020-10-09T14:18:53Z) - SCE: Scalable Network Embedding from Sparsest Cut [20.08464038805681]
大規模ネットワーク埋め込みは、教師なしの方法で各ノードの潜在表現を学習することである。
このような対照的な学習手法の成功の鍵は、正と負のサンプルを引き出す方法である。
本稿では, 負のサンプルのみを用いた教師なしネットワーク埋め込みのためのSCEを提案する。
論文 参考訳(メタデータ) (2020-06-30T03:18:15Z) - Reinforced Negative Sampling over Knowledge Graph for Recommendation [106.07209348727564]
我々は、高品質なネガティブを探索する強化学習エージェントとして機能する新しい負サンプリングモデル、知識グラフポリシーネットワーク(kgPolicy)を開発した。
kgPolicyは、ターゲットのポジティブなインタラクションからナビゲートし、知識を意識したネガティブなシグナルを適応的に受信し、最終的にはリコメンダをトレーニングする潜在的なネガティブなアイテムを生成する。
論文 参考訳(メタデータ) (2020-03-12T12:44:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。