Fugu-MT 論文翻訳(概要): Searching by Code: a New SearchBySnippet Dataset and SnippeR Retrieval Model for Searching by Code Snippets

論文の概要: Searching by Code: a New SearchBySnippet Dataset and SnippeR Retrieval Model for Searching by Code Snippets

arxiv url: http://arxiv.org/abs/2305.11625v1
Date: Fri, 19 May 2023 12:09:30 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-22 14:38:40.418966
Title: Searching by Code: a New SearchBySnippet Dataset and SnippeR Retrieval Model for Searching by Code Snippets
Title（参考訳）: コードによる検索:新しいSearchBySnippetデータセットとコードスニペットによる検索のためのSnippeR検索モデル
Authors: Ivan Sedykh, Dmitry Abulkhanov, Nikita Sorokin, Sergey Nikolenko, Valentin Malykh
Abstract要約: コードスニペットをクエリとして使用し、バグフィックス命令とコードサンプルによる回答を探すことは、既存のアプローチではカバーされていない自然なユースケースである、と私たちは主張する。本稿では,新しい単一エンコーダモデルSnippeRを提案する。
参考スコア（独自算出の注目度）: 3.837857877152932
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Code search is an important task that has seen many developments in recent years. However, previous attempts have mostly considered the problem of searching for code by a text query. We argue that using a code snippet (and possibly an associated traceback) as a query and looking for answers with bugfixing instructions and code samples is a natural use case that is not covered by existing approaches. Moreover, existing datasets use comments extracted from code rather than full-text descriptions as text, making them unsuitable for this use case. We present a new SearchBySnippet dataset implementing the search-by-code use case based on StackOverflow data; it turns out that in this setting, existing architectures fall short of the simplest BM25 baseline even after fine-tuning. We present a new single encoder model SnippeR that outperforms several strong baselines on the SearchBySnippet dataset with a result of 0.451 Recall@10; we propose the SearchBySnippet dataset and SnippeR as a new important benchmark for code search evaluation.
Abstract（参考訳）: コード検索は近年多くの発展を遂げてきた重要な課題である。しかし、以前の試みでは、主にテキストクエリによるコード検索の問題を考慮していた。私たちは、コードスニペット(およびおそらく関連するトレースバック)をクエリとして使用し、バグフィックス命令とコードサンプルによる回答を探すことは、既存のアプローチでカバーされていない自然なユースケースである、と論じています。さらに、既存のデータセットはテキストとしてフルテキスト記述ではなく、コードから抽出されたコメントを使用するため、このユースケースには適さない。そこで本研究では,StackOverflowデータに基づく検索・バイ・コード・ユースケースを実装した SearchBySnippet データセットを提案する。我々は,新しい単一エンコーダモデルであるSnippeRを提案する。このモデルでは,SearchBySnippetデータセットの強いベースラインを0.451 Recall@10で上回り,コード検索評価のための新しい重要なベンチマークとしてSearchBySnippetデータセットとSnippeRを提案する。

関連論文リスト

Structural Code Search using Natural Language Queries [14.915304679162713]
我々は、開発者が自然言語を使ってコードを構造的に検索できるようにすることを提案する。自然言語でクエリを表現することで、コード検索の直感的な方法と、入力障壁の低減が可能になる。 LLMを用いたDSLクエリへのNLクエリの変換に基づく構造的コード検索は効率的かつ堅牢であることを示す。
論文参考訳（メタデータ） (2025-07-02T19:42:37Z)
CodeXEmbed: A Generalist Embedding Model Family for Multiligual and Multi-task Code Retrieval [103.116634967815]
CodeXEmbedは400Mから7Bパラメータの大規模なコード埋め込みモデルのファミリーである。我々の新しいトレーニングパイプラインは、複数のプログラミング言語を統合し、様々なコード関連タスクを共通の検索フレームワークに変換する。私たちの7Bモデルは、コード検索において新しい最先端(SOTA)を設定し、以前の主要なモデルであるVoyage-CodeをCoIRベンチマークで20%以上上回っています。
論文参考訳（メタデータ） (2024-11-19T16:54:45Z)
RethinkMCTS: Refining Erroneous Thoughts in Monte Carlo Tree Search for Code Generation [65.5353313491402]
本稿では,モンテカルロ木探索(MCTS)アルゴリズムを用いて,コードを生成する前に思考レベルの探索を行うRethinkMCTSを紹介する。我々は,検索中の誤った思考を洗練させるために,微動コード実行フィードバックからの言語フィードバックを構築した。 RethinkMCTSは従来の検索ベースおよびフィードバックベースのコード生成ベースラインよりも優れていることを実証する。
論文参考訳（メタデータ） (2024-09-15T02:07:28Z)
CoIR: A Comprehensive Benchmark for Code Information Retrieval Models [56.691926887209895]
textbfInformation textbfRetrieval Benchmark(textbfInformation textbfRetrieval Benchmark)は,コード検索機能の評価に特化して設計された,堅牢で包括的なベンチマークである。名前は、Textbftenを巧みにキュレートしたコードデータセットから成り、textbfs7の異なるドメインにまたがる、textbfeight特有の検索タスクにまたがる。我々は9つの広く使われている検索モデルを名前を用いて評価し、最先端のシステムであってもコード検索タスクの実行に重大な困難を見出した。
論文参考訳（メタデータ） (2024-07-03T07:58:20Z)
CoSQA+: Enhancing Code Search Dataset with Matching Code [27.10957318333608]
CoSQA+は、複数の適切なコードで高品質なクエリをペアリングする。 CoSQA+はCoSQAよりも優れた品質を示している。我々は1対Nのコード検索性能を評価するための新しい指標を提案する。
論文参考訳（メタデータ） (2024-06-17T14:34:14Z)
STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases [93.96463520716759]
テキストと知識ベースを用いた大規模半構造検索ベンチマークSTARKを開発した。本ベンチマークでは, 製品検索, 学術論文検索, 精密医療におけるクエリの3分野について検討した。多様なリレーショナル情報と複雑なテキスト特性を統合した,現実的なユーザクエリを合成する,新しいパイプラインを設計する。
論文参考訳（メタデータ） (2024-04-19T22:54:54Z)
Generation-Augmented Query Expansion For Code Retrieval [51.20943646688115]
本稿では,次世代のクエリ拡張フレームワークを提案する。人間の検索プロセスにインスパイアされた – 検索前に回答をスケッチする。 CodeSearchNetベンチマークで、最先端の新たな結果を得る。
論文参考訳（メタデータ） (2022-12-20T23:49:37Z)
NS3: Neuro-Symbolic Semantic Code Search [33.583344165521645]
私たちはこのアイデアを実装するためにNeural Module Networkアーキテクチャを使用します。我々は、NS3 (Neuro-Symbolic Semantic Search) と、最先端のセマンティックコード検索方法を含む多くのベースラインを比較した。提案手法により,より正確なコード検索が可能であることが実証され,コンポジションクエリ処理におけるモジュール設計の有効性が検証された。
論文参考訳（メタデータ） (2022-05-21T20:55:57Z)
Accelerating Code Search with Deep Hashing and Code Classification [64.3543949306799]
コード検索とは、自然言語クエリに基づいてソースコードコーパスから再利用可能なコードスニペットを検索することである。深層ハッシュとコード分類を用いたコード検索を高速化する新しい手法CoSHCを提案する。
論文参考訳（メタデータ） (2022-03-29T07:05:30Z)
Learning Deep Semantic Model for Code Search using CodeSearchNet Corpus [17.6095840480926]
マルチモーダル・ソースのユーティリティを利用する新しいディープ・セマンティック・モデルを提案する。提案したモデルを適用して,意味的コード検索に関するCodeSearchNetの課題に対処する。我々のモデルはCodeSearchNetコーパスでトレーニングされ、ホールドアウトデータに基づいて評価され、最終モデルは0.384 NDCGに達し、このベンチマークで優勝した。
論文参考訳（メタデータ） (2022-01-27T04:15:59Z)
Search4Code: Code Search Intent Classification Using Weak Supervision [5.441318460204245]
本稿では,C# および Java プログラミング言語の検索クエリにおけるコード検索意図を検出するための弱監督に基づくアプローチを提案する。我々は,BingのWeb検索エンジンから100万以上のクエリをマイニングした実世界のデータセット上で,いくつかのベースラインに対するアプローチを評価する。また、BingのWeb検索エンジンから抽出されたコード検索クエリの大規模なリアルタイムデータセットであるSearch4Codeもリリースしています。
論文参考訳（メタデータ） (2020-11-24T08:06:53Z)
COSEA: Convolutional Code Search with Layer-wise Attention [90.35777733464354]
我々は、畳み込みニューラルネットワークを階層的注意で活用し、コード固有の構造論理をキャプチャする新しいディープラーニングアーキテクチャ、COSEAを提案する。 COSEAは、コード検索タスクの最先端メソッドよりも大幅に改善できる。
論文参考訳（メタデータ） (2020-10-19T13:53:38Z)
Neural Code Search Revisited: Enhancing Code Snippet Retrieval through Natural Language Intent [1.1168121941015012]
コードスニペットの意図をよりよく把握するために,記述を活用することで,コード検索システムを改善する方法について検討する。翻訳学習と自然言語処理の最近の進歩に基づき,自然言語記述を付加したコードに対するドメイン固有検索モデルを構築した。
論文参考訳（メタデータ） (2020-08-27T15:39:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。