論文の概要: OASIS: Order-Augmented Strategy for Improved Code Search
- arxiv url: http://arxiv.org/abs/2503.08161v3
- Date: Fri, 14 Mar 2025 10:09:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:08:23.760557
- Title: OASIS: Order-Augmented Strategy for Improved Code Search
- Title(参考訳): OASIS: コード検索を改善するための秩序強化戦略
- Authors: Zuchen Gao, Zizheng Zhan, Xianming Li, Erxin Yu, Haotian Zhang, Bin Chen, Yuqun Zhang, Jing Li,
- Abstract要約: コード検索の改善のための新しい秩序強化戦略を提案する。
オーダーベースの類似性ラベルを活用してモデルをトレーニングし、負のペア間の類似性の微妙な違いを捉えます。
これは、効果的なコード埋め込みトレーニングのために、オーダラベルと負のペア間の微妙な違いを利用する価値を強調している。
- 参考スコア(独自算出の注目度): 14.15428333014365
- License:
- Abstract: Code embeddings capture the semantic representations of code and are crucial for various code-related large language model (LLM) applications, such as code search. Previous training primarily relies on optimizing the InfoNCE loss by comparing positive natural language (NL)-code pairs with in-batch negatives. However, due to the sparse nature of code contexts, training solely by comparing the major differences between positive and negative pairs may fail to capture deeper semantic nuances. To address this issue, we propose a novel order-augmented strategy for improved code search (OASIS). It leverages order-based similarity labels to train models to capture subtle differences in similarity among negative pairs. Extensive benchmark evaluations demonstrate that our OASIS model significantly outperforms previous state-of-the-art models focusing solely on major positive-negative differences. It underscores the value of exploiting subtle differences among negative pairs with order labels for effective code embedding training.
- Abstract(参考訳): コード埋め込みは、コードのセマンティック表現をキャプチャし、コード検索など、様々なコード関連大規模言語モデル(LLM)アプリケーションに不可欠である。
従来のトレーニングは主に、正の自然言語(NL)コードペアとバッチ内の負のペアを比較することでInfoNCE損失の最適化に頼っている。
しかしながら、コードコンテキストのスパースな性質のため、正と負のペアの大きな違いを比較するトレーニングだけでは、より深いセマンティックなニュアンスを捕捉できない可能性がある。
この問題に対処するため,コード検索の改善のための新しい秩序強化戦略を提案する。
オーダーベースの類似性ラベルを活用してモデルをトレーニングし、負のペア間の類似性の微妙な違いを捉えます。
我々のOASISモデルは、大きな正負の差にのみ焦点をあてた従来の最先端モデルよりも大幅に優れていた。
これは、効果的なコード埋め込みトレーニングのために、オーダラベルと負のペア間の微妙な違いを利用する価値を強調している。
関連論文リスト
- Code Comparison Tuning for Code Large Language Models [7.03872473285061]
コード大言語モデル(Code LLM)の単純かつ効果的なチューニング手法であるコード比較チューニング(CCT)を提案する。
CCTは、トークンレベルとシーケンスレベルの両方において、比較の概念を命令チューニングに統合する。
CCTがpass@1スコアの命令チューニングを最大4ポイント上回っていることを示す。
論文 参考訳(メタデータ) (2024-03-28T03:25:23Z) - Contrastive Instruction Tuning [61.97704869248903]
意味論的に等価な命令-インスタンスペア間の類似性を最大化するために、コントラスト命令チューニングを提案する。
PromptBenchベンチマークの実験によると、CoINはLLMの頑健さを一貫して改善し、文字、単語、文、意味のレベルを平均して2.5%の精度で変化させる。
論文 参考訳(メタデータ) (2024-02-17T00:09:32Z) - Learning by Sorting: Self-supervised Learning with Group Ordering
Constraints [75.89238437237445]
本稿では,対照学習目標である群順序制約(GroCo)の新たなバリエーションを提案する。
正の対と負の対の距離をソートし、正の対が負の対よりも多くの距離を持つかに基づいてそれぞれの損失を計算するという考え方を利用しており、したがって正しく順序付けされていない。
各種自己教師付き学習ベンチマークの定式化について検討し、バニラのコントラスト学習と比較して結果が向上するだけでなく、k-NNの性能において、線形探索や性能向上において同等の手法と競合する性能を示すことを示す。
論文 参考訳(メタデータ) (2023-01-05T11:17:55Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - Fine-grained Temporal Contrastive Learning for Weakly-supervised
Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。
微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。
提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-31T05:13:50Z) - Not All Negatives are Equal: Label-Aware Contrastive Loss for
Fine-grained Text Classification [0.0]
2つの細粒度テキスト分類タスクにおいて、事前訓練された言語モデルの対照的な微調整を解析する。
クラス関係を比較対象関数に適応的に組み込んで、正と負の異なる評価を支援する。
ラベルを意識したContrastive Lossは,従来のコントラスト手法よりも優れていた。
論文 参考訳(メタデータ) (2021-09-12T04:19:17Z) - Disentangled Contrastive Learning for Learning Robust Textual
Representations [13.880693856907037]
運動量表現一貫性の概念を導入し,特徴を整合させ,一様性に適合しながらパワー正規化を活用する。
NLPベンチマークの実験結果から,本手法はベースラインよりも優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2021-04-11T03:32:49Z) - Contrastive Learning with Adversarial Examples [79.39156814887133]
コントラスト学習(Contrastive Learning, CL)は、視覚表現の自己教師型学習(SSL)において一般的な手法である。
本稿では,コンストラクティブ・ラーニングのための新しい逆例群を紹介し,これらの例を用いてCLAEと表記されるSSLの新しい逆トレーニングアルゴリズムを定義する。
論文 参考訳(メタデータ) (2020-10-22T20:45:10Z) - CIMON: Towards High-quality Hash Codes [63.37321228830102]
我々はtextbfComprehensive stextbfImilarity textbfMining と ctextbfOnsistency leartextbfNing (CIMON) という新しい手法を提案する。
まず、グローバルな洗練と類似度統計分布を用いて、信頼性とスムーズなガイダンスを得る。第二に、意味的整合性学習とコントラスト的整合性学習の両方を導入して、乱不変と差別的ハッシュコードの両方を導出する。
論文 参考訳(メタデータ) (2020-10-15T14:47:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。