論文の概要: Hyperbolic Code Retrieval: A Novel Approach for Efficient Code Search
Using Hyperbolic Space Embeddings
- arxiv url: http://arxiv.org/abs/2308.15234v1
- Date: Tue, 29 Aug 2023 11:45:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 12:05:42.379241
- Title: Hyperbolic Code Retrieval: A Novel Approach for Efficient Code Search
Using Hyperbolic Space Embeddings
- Title(参考訳): Hyperbolic Code Retrieval: Hyperbolic Space Embeddingsを用いた効率的なコード検索のための新しいアプローチ
- Authors: Xunzhu Tang and zhenghan Chen and Saad Ezzini and Haoye Tian and Yewei
Song and Jacques Klein and Tegawende F. Bissyande
- Abstract要約: 我々は,HyCoQA(Hyperbolic Code QA Matching)という,高度なコード検索のための新しい手法を提案する。
このアプローチは、コードフラグメントとそれに対応するクエリ間の接続を表現するために、Hyperbolic空間のユニークな特性を活用する。
実験によりHyCoQAは,最先端のコード検索技術と比較して平均3.5%から4%の性能向上を示した。
- 参考スコア(独自算出の注目度): 6.838615442552715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Within the realm of advanced code retrieval, existing methods have primarily
relied on intricate matching and attention-based mechanisms. However, these
methods often lead to computational and memory inefficiencies, posing a
significant challenge to their real-world applicability. To tackle this
challenge, we propose a novel approach, the Hyperbolic Code QA Matching
(HyCoQA). This approach leverages the unique properties of Hyperbolic space to
express connections between code fragments and their corresponding queries,
thereby obviating the necessity for intricate interaction layers. The process
commences with a reimagining of the code retrieval challenge, framed within a
question-answering (QA) matching framework, constructing a dataset with triple
matches characterized as \texttt{<}negative code, description, positive
code\texttt{>}. These matches are subsequently processed via a static BERT
embedding layer, yielding initial embeddings. Thereafter, a hyperbolic embedder
transforms these representations into hyperbolic space, calculating distances
between the codes and descriptions. The process concludes by implementing a
scoring layer on these distances and leveraging hinge loss for model training.
Especially, the design of HyCoQA inherently facilitates self-organization,
allowing for the automatic detection of embedded hierarchical patterns during
the learning phase. Experimentally, HyCoQA showcases remarkable effectiveness
in our evaluations: an average performance improvement of 3.5\% to 4\% compared
to state-of-the-art code retrieval techniques.
- Abstract(参考訳): 高度なコード検索の分野では、既存の手法は主に複雑なマッチングと注意に基づくメカニズムに依存している。
しかし、これらの手法はしばしば計算とメモリの効率の低下を招き、現実の応用に重大な課題をもたらす。
この課題に対処するため,HyCoQA(Hyperbolic Code QA Matching)という新しいアプローチを提案する。
このアプローチは、Hyperbolic空間のユニークな特性を活用して、コードフラグメントとその対応するクエリ間の接続を表現することで、複雑なインタラクション層の必要性を回避します。
このプロセスは、質問応答(QA)マッチングフレームワークでフレーム化されたコード検索チャレンジを再定義し、\texttt{<} negative code, description, positive code\textt{>} として特徴付けられる3つのマッチングを持つデータセットを構築する。
これらのマッチはその後、静的BERT埋め込み層を介して処理され、初期埋め込みが生成される。
その後、双曲埋め込みはこれらの表現を双曲空間に変換し、符号と記述の間の距離を計算する。
このプロセスは、これらの距離にスコアリング層を実装し、モデルのトレーニングにヒンジ損失を活用することで終わる。
特にHyCoQAの設計は、本質的に自己組織化を促進し、学習フェーズ中に組み込み階層パターンを自動的に検出することを可能にする。
実験により,HyCoQAは,最先端のコード検索技術と比較して3.5~4倍の性能向上が見られた。
関連論文リスト
- COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - SparseCL: Sparse Contrastive Learning for Contradiction Retrieval [87.02936971689817]
コントラディション検索(Contradiction Search)とは、クエリの内容に明示的に異を唱える文書を識別し、抽出することである。
類似性探索やクロスエンコーダモデルといった既存の手法には、大きな制限がある。
文間の微妙で矛盾したニュアンスを保存するために特別に訓練された文埋め込みを利用するSparseCLを導入する。
論文 参考訳(メタデータ) (2024-06-15T21:57:03Z) - Efficient Inverted Indexes for Approximate Retrieval over Learned Sparse Representations [8.796275989527054]
本稿では,学習したスパース埋め込みを高速に検索できる逆インデックスの新たな組織を提案する。
提案手法では,逆リストを幾何学的に結合したブロックに整理し,それぞれに要約ベクトルを備える。
以上の結果から, 地震動は, 最先端の逆インデックスベースソリューションよりも1~2桁高速であることが示唆された。
論文 参考訳(メタデータ) (2024-04-29T15:49:27Z) - Sparse Attention-Based Neural Networks for Code Classification [15.296053323327312]
コード分類のためのスパース注意型ニューラルネットワーク(SACC)を提案する。
最初のステップでは、ソースコードは構文解析と前処理を行う。
サブツリーの符号化されたシーケンスは、分類のためにスパースアテンション機構を組み込んだTransformerモデルに入力される。
論文 参考訳(メタデータ) (2023-11-11T14:07:12Z) - Improving Code Search with Hard Negative Sampling Based on Fine-tuning [15.341959871682981]
本稿では,クエリとコードの結合を共同で符号化するコード検索のためのクロスエンコーダアーキテクチャを提案する。
また、両エンコーダとクロスエンコーダをカスケードしたRetriever-Ranker(RR)フレームワークを導入し、評価とオンラインサービスの有効性を高める。
論文 参考訳(メタデータ) (2023-05-08T07:04:28Z) - Noise-Robust Dense Retrieval via Contrastive Alignment Post Training [89.29256833403167]
Contrastive Alignment POst Training (CAPOT) は、指数再生を必要とせず、モデルロバスト性を改善する高効率な微調整法である。
CAPOTはドキュメントエンコーダを凍結することで堅牢な検索を可能にし、クエリエンコーダはノイズの多いクエリを修正されていないルートに整列させる。
MSMARCO、Natural Questions、Trivia QAパス検索のCAPOTノイズ変動を評価し、CAPOTがオーバーヘッドを伴わないデータ増大に類似した影響があることを発見した。
論文 参考訳(メタデータ) (2023-04-06T22:16:53Z) - ReAct: Temporal Action Detection with Relational Queries [84.76646044604055]
本研究は,アクションクエリを備えたエンコーダ・デコーダフレームワークを用いて,時間的行動検出(TAD)の進展を図ることを目的とする。
まず,デコーダ内の関係注意機構を提案し,その関係に基づいてクエリ間の関心を誘導する。
最後に、高品質なクエリを区別するために、推論時に各アクションクエリのローカライズ品質を予測することを提案する。
論文 参考訳(メタデータ) (2022-07-14T17:46:37Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - Self-Supervised Bernoulli Autoencoders for Semi-Supervised Hashing [1.8899300124593648]
本稿では,変分オートエンコーダに基づくハッシュ手法のロバスト性と,監督の欠如について検討する。
本稿では,モデルがラベル分布予測を用いて一対の目的を実現する新しい監視手法を提案する。
実験の結果,いずれの手法もハッシュコードの品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2020-07-17T07:47:10Z) - Asymmetric Correlation Quantization Hashing for Cross-modal Retrieval [11.988383965639954]
クロスモーダルハッシュ法は異種モダリティ間の類似性検索において広く注目を集めている。
本稿では,ACQH法について述べる。
また,不均一なモダリティデータポイントのプロジェクション行列を学習し,クエリを潜在意味空間内の低次元実数値ベクトルに変換する。
学習された実数値コードワードの連続でデータベースポイントを示すために、粗大な方法で埋め込みを積み重ねた合成量子化を構成する。
論文 参考訳(メタデータ) (2020-01-14T04:53:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。