論文の概要: OCoR: An Overlapping-Aware Code Retriever
- arxiv url: http://arxiv.org/abs/2008.05201v2
- Date: Thu, 20 Aug 2020 12:05:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 04:54:13.647809
- Title: OCoR: An Overlapping-Aware Code Retriever
- Title(参考訳): OCoR: 重複するコード検索ツール
- Authors: Qihao Zhu, Zeyu Sun, Xiran Liang, Yingfei Xiong, Lu Zhang
- Abstract要約: 自然言語による記述が与えられた場合、コード検索は一連のコードの中で最も関連性の高いコードを探すことを目的としている。
既存の最先端アプローチでは、ニューラルネットワークをコード検索に適用している。
我々はOCoRという新しいニューラルアーキテクチャを提案し、オーバーラップを捉えるために2つの特別に設計されたコンポーネントを紹介した。
- 参考スコア(独自算出の注目度): 15.531119719750807
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code retrieval helps developers reuse the code snippet in the open-source
projects. Given a natural language description, code retrieval aims to search
for the most relevant code among a set of code. Existing state-of-the-art
approaches apply neural networks to code retrieval. However, these approaches
still fail to capture an important feature: overlaps. The overlaps between
different names used by different people indicate that two different names may
be potentially related (e.g., "message" and "msg"), and the overlaps between
identifiers in code and words in natural language descriptions indicate that
the code snippet and the description may potentially be related. To address
these problems, we propose a novel neural architecture named OCoR, where we
introduce two specifically-designed components to capture overlaps: the first
embeds identifiers by character to capture the overlaps between identifiers,
and the second introduces a novel overlap matrix to represent the degrees of
overlaps between each natural language word and each identifier.
The evaluation was conducted on two established datasets. The experimental
results show that OCoR significantly outperforms the existing state-of-the-art
approaches and achieves 13.1% to 22.3% improvements. Moreover, we also
conducted several in-depth experiments to help understand the performance of
different components in OCoR.
- Abstract(参考訳): コード検索は、開発者がオープンソースプロジェクトでコードスニペットを再利用するのに役立つ。
自然言語の記述が与えられると、コード検索は一連のコードの中で最も関連するコードを探すことを目的としている。
既存の最先端アプローチでは、ニューラルネットワークをコード検索に適用している。
しかし、これらのアプローチは依然として重要な特徴を捉えていない。
異なる人々によって使用される異なる名前間の重複は、2つの異なる名前が潜在的に関連があることを示し(例:messageとmsg)、自然言語記述におけるコード内の識別子と単語の重複は、コードスニペットと記述が関連している可能性があることを示している。
これらの問題に対処するために、我々はOCoRという新しいニューラルネットワークを提案する。このアーキテクチャでは、2つの特別に設計されたコンポーネントを導入し、第1に識別子を文字単位で埋め込み、識別子間の重複をキャプチャし、第2に、各自然言語語と各識別子の重複度を表す新しい重複行列を導入する。
評価は2つの確立されたデータセット上で行われた。
実験の結果、OCoRは既存の最先端アプローチを著しく上回り、13.1%から22.3%の改善が達成された。
さらに,OCoRの異なるコンポーネントの性能を理解するために,いくつかの詳細な実験を行った。
関連論文リスト
- Deep Code Search with Naming-Agnostic Contrastive Multi-View Learning [11.337238450492546]
コントラッシブな多視点コード表現学習に基づく命名非依存コード探索法(NACS)を提案する。
NACSは、ソースコードの抽象構文構造の表現であるAST(Abstract Syntax Tree)から変数名に結びついた情報を取り除き、AST構造のみから固有のプロパティを取得することに重点を置いている。
論文 参考訳(メタデータ) (2024-08-18T03:47:34Z) - When simplicity meets effectiveness: Detecting code comments coherence with word embeddings and LSTM [6.417777780911223]
コードコメントは、プログラマに実用的な情報を提供するため、ソフトウェア開発において重要な役割を果たす。
開発者はコードを更新した後、コメントをそのまま残す傾向があり、2つのアーティファクトの間に相違が生じます。
コードスニペットが与えられたら、そのコメントが一貫性があり、コードの背後にある意図をよく反映しているかどうかを特定することが重要です。
論文 参考訳(メタデータ) (2024-05-25T15:21:27Z) - Language Agnostic Code Embeddings [61.84835551549612]
私たちは、さまざまなプログラミング言語にまたがるコード埋め込みの言語間機能に重点を置いています。
1つは特定の言語のニュアンスと構文に深く結びついており、もう1つは詳細を知らない。
我々は、この言語固有のコンポーネントを分離して排除すると、下流のコード検索タスクが大幅に改善されることを示した。
論文 参考訳(メタデータ) (2023-10-25T17:34:52Z) - Language Models As Semantic Indexers [78.83425357657026]
本稿では,ジェネレーティブ言語モデルを用いてセマンティックIDを学習するための自己教師型フレームワークLMIndexerを紹介する。
学習したIDの質を検証し,推奨,製品検索,文書検索の3つの課題において有効性を示す。
論文 参考訳(メタデータ) (2023-10-11T18:56:15Z) - Multiview Identifiers Enhanced Generative Retrieval [78.38443356800848]
生成検索は、検索対象の通路の識別子文字列を生成する。
本稿では,パスの内容に基づいて生成される新しいタイプの識別子,合成識別子を提案する。
提案手法は生成的検索において最善を尽くし,その有効性とロバスト性を実証する。
論文 参考訳(メタデータ) (2023-05-26T06:50:21Z) - CSSAM:Code Search via Attention Matching of Code Semantics and
Structures [8.547332796736107]
本稿では,CSSAM (Code Semantics and Structures Attention Matching) というコード検索モデルを提案する。
意味的および構造的マッチング機構を導入することにより、CSSAMは多次元コードの特徴を効果的に抽出し、融合する。
残りのインタラクションを活用することで、マッチングモジュールはより多くのコードセマンティクスと記述的機能を保持するように設計されている。
論文 参考訳(メタデータ) (2022-08-08T05:45:40Z) - NS3: Neuro-Symbolic Semantic Code Search [33.583344165521645]
私たちはこのアイデアを実装するためにNeural Module Networkアーキテクチャを使用します。
我々は、NS3 (Neuro-Symbolic Semantic Search) と、最先端のセマンティックコード検索方法を含む多くのベースラインを比較した。
提案手法により,より正確なコード検索が可能であることが実証され,コンポジションクエリ処理におけるモジュール設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-05-21T20:55:57Z) - Label Semantics for Few Shot Named Entity Recognition [68.01364012546402]
名前付きエンティティ認識におけるショットラーニングの問題について検討する。
我々は,ラベル名中の意味情報を,モデルに付加的な信号を与え,よりリッチな事前情報を与える手段として活用する。
本モデルは,第1エンコーダによって計算された名前付きエンティティの表現と,第2エンコーダによって計算されたラベル表現とを一致させることを学習する。
論文 参考訳(メタデータ) (2022-03-16T23:21:05Z) - Deep Graph Matching and Searching for Semantic Code Retrieval [76.51445515611469]
本稿では,グラフニューラルネットワークに基づくエンドツーエンドのディープグラフマッチングと探索モデルを提案する。
まず、自然言語クエリテキストとプログラミング言語のコードスニペットをグラフ構造化データで表現する。
特に、DGMSは、個々のクエリテキストやコードスニペットのより構造的な情報をキャプチャするだけでなく、それらの微妙な類似性も学習する。
論文 参考訳(メタデータ) (2020-10-24T14:16:50Z) - COSEA: Convolutional Code Search with Layer-wise Attention [90.35777733464354]
我々は、畳み込みニューラルネットワークを階層的注意で活用し、コード固有の構造論理をキャプチャする新しいディープラーニングアーキテクチャ、COSEAを提案する。
COSEAは、コード検索タスクの最先端メソッドよりも大幅に改善できる。
論文 参考訳(メタデータ) (2020-10-19T13:53:38Z) - Self-Supervised Contrastive Learning for Code Retrieval and
Summarization via Semantic-Preserving Transformations [28.61567319928316]
Corderは、ソースコードモデルのための自己教師付きコントラスト学習フレームワークである。
重要なイノベーションは、ソースコードモデルをトレーニングし、類似した、異種のコードスニペットを認識するように要求することです。
Corderで事前訓練されたコードモデルは、コード・ツー・コード検索、テキスト・ツー・コード検索、およびコード・ツー・テキスト要約タスクにおいて、他のベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2020-09-06T13:31:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。