論文の概要: Which Programming Language and Model Work Best With LLM-as-a-Judge For Code Retrieval?
- arxiv url: http://arxiv.org/abs/2510.00324v1
- Date: Tue, 30 Sep 2025 22:31:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.279257
- Title: Which Programming Language and Model Work Best With LLM-as-a-Judge For Code Retrieval?
- Title(参考訳): LLM-as-a-Judge for Code Retrievalはどのプログラミング言語とモデルが最適か?
- Authors: Lucas Roberts, Denisa Roberts,
- Abstract要約: より良いコード検索の利点は、新しい開発者のオンボードの高速化、ソフトウェアのメンテナンスの削減、大規模なリポジトリの理解の容易さである。
検索アルゴリズムと検索ベンチマークの改善にもかかわらず、コード検索の領域は遅れを取っている。
本研究では,Large Language Models (LLMs) を用いて,関数レベルでのコード検索と,コード検索結果のアノテーション生成を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code search is an important information retrieval application. Benefits of better code search include faster new developer on-boarding, reduced software maintenance, and ease of understanding for large repositories. Despite improvements in search algorithms and search benchmarks, the domain of code search has lagged behind. One reason is the high cost of human annotation for code queries and answers. While humans may annotate search results in general text QA systems, code annotations require specialized knowledge of a programming language (PL), as well as domain specific software engineering knowledge. In this work we study the use of Large Language Models (LLMs) to retrieve code at the level of functions and to generate annotations for code search results. We compare the impact of the retriever representation (sparse vs. semantic), programming language, and LLM by comparing human annotations across several popular languages (C, Java, Javascript, Go, and Python). We focus on repositories that implement common data structures likely to be implemented in any PLs. For the same human annotations, we compare several LLM-as-a-Judge models to evaluate programming language and other affinities between LLMs. We find that the chosen retriever and PL exhibit affinities that can be leveraged to improve alignment of human and AI relevance determinations, with significant performance implications. We also find differences in representation (sparse vs. semantic) across PLs that impact alignment of human and AI relevance determinations. We propose using transpilers to bootstrap scalable code search benchmark datasets in other PLs and in a case study demonstrate that human-AI relevance agreement rates largely match the (worst case) human-human agreement under study. The application code used in this work is available at \href{https://github.com/rlucas7/code-searcher/}{this github repo}.
- Abstract(参考訳): コード検索は重要な情報検索アプリケーションである。
より良いコード検索の利点は、新しい開発者のオンボードの高速化、ソフトウェアのメンテナンスの削減、大規模なリポジトリの理解の容易さである。
検索アルゴリズムと検索ベンチマークの改善にもかかわらず、コード検索の領域は遅れを取っている。
その理由の1つは、コードクエリと回答に対する人間のアノテーションのコストが高いことである。
人間は一般的なテキストQAシステムで検索結果に注釈を付けることができるが、コードアノテーションはプログラミング言語(PL)の専門知識とドメイン固有のソフトウェア工学知識を必要とする。
本研究では,Large Language Models (LLMs) を用いて,関数レベルでのコード検索と,コード検索結果のアノテーション生成を行う。
いくつかのポピュラー言語(C、Java、Javascript、Go、Python)でヒューマンアノテーションを比較することで、検索表現(スパース対セマンティック)、プログラミング言語、LLMの影響を比較した。
我々は、どんなPLにも実装される可能性が高い共通のデータ構造を実装するレポジトリに焦点を合わせます。
同じアノテーションに対して,複数のLLM-as-a-Judgeモデルを比較し,プログラミング言語とLLM間の親和性を評価する。
選択したレトリバーとPLは、人間とAIの関連性決定のアライメントを改善するために活用できる親和性を示す。
また、PL間の表現(スパース対セマンティクス)の違いは、人間とAIの関連性決定のアライメントに影響を及ぼす。
本稿では,他のPLにおける拡張性のあるコード検索ベンチマークデータセットのブートストラップにトランスパイラを用いることを提案する。
この作業で使用されるアプリケーションは、 \href{https://github.com/rlucas7/code-searcher/}{this github repo}で公開されている。
関連論文リスト
- Semantic Source Code Segmentation using Small and Large Language Models [2.5748316361772963]
本稿では,Large and Small Language Models (LLMs/SLMs) を用いた研究Rコードセグメンテーションのためのドメイン固有自動手法を提案する。
文脈を用いた線毎解析と範囲に基づくセグメント決定の2つの異なるアプローチについて検討する。
この結果から,コンテキストベースライン・バイ・ライン分析の方が範囲ベースセグメンテーションよりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-07-11T19:49:59Z) - SURGE: On the Potential of Large Language Models as General-Purpose Surrogate Code Executors [7.210032327838313]
大規模言語モデル(LLM)がコード実行予測の代理モデルとして機能するかどうかを検討する。
オープンソースおよびプロプライエタリ LLM の広範な分析を通じて,スケーリング法則,データ効率,予測精度について検討する。
計算機処理における効率的なサロゲートとしてのLCMの実現可能性に関する重要な知見を明らかにした。
論文 参考訳(メタデータ) (2025-02-16T15:38:19Z) - Evaluating and Aligning CodeLLMs on Human Preference [42.26173776584043]
実世界のコーディングタスクの複雑さと多様性をエミュレートするために,厳密な人為的なベンチマークであるCodeArenaを提案する。
また,大規模合成命令微調整の有効性を検証するために,多種多様な合成命令コーパスSynCode-Instructを提案する。
その結果、実行ベースのベンチマークとCodeArenaのパフォーマンスの違いが判明した。
論文 参考訳(メタデータ) (2024-12-06T17:40:38Z) - CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution [50.1875460416205]
CRUXEVAL-Xコード推論ベンチマークには19のプログラミング言語が含まれている。
各言語に対して少なくとも600人の被験者で構成され、合計19Kのコンテンツ一貫性テストがある。
Pythonでのみトレーニングされたモデルでさえ、他の言語で34.4%のPass@1を達成することができる。
論文 参考訳(メタデータ) (2024-08-23T11:43:00Z) - Bug In the Code Stack: Can LLMs Find Bugs in Large Python Code Stacks [1.3586572110652484]
本研究では,大規模文書から文脈情報を取得する上でのLLM(Large Language Models)の機能について検討する。
我々のベンチマークであるBug In The Code Stack (BICS)は、大規模なソースコード内の単純な構文バグを識別するLLMの能力を評価するために設計されている。
その結果,(1)検索タスクのテキストベースの環境に比べ,コードベースの環境の方が有意に困難であり,(2)異なるモデル間の性能差が大きく,(3)コンテキスト長と性能劣化との間には顕著な相関関係があることが判明した。
論文 参考訳(メタデータ) (2024-06-21T17:37:10Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z) - Learning Deep Semantic Model for Code Search using CodeSearchNet Corpus [17.6095840480926]
マルチモーダル・ソースのユーティリティを利用する新しいディープ・セマンティック・モデルを提案する。
提案したモデルを適用して,意味的コード検索に関するCodeSearchNetの課題に対処する。
我々のモデルはCodeSearchNetコーパスでトレーニングされ、ホールドアウトデータに基づいて評価され、最終モデルは0.384 NDCGに達し、このベンチマークで優勝した。
論文 参考訳(メタデータ) (2022-01-27T04:15:59Z) - Deep Graph Matching and Searching for Semantic Code Retrieval [76.51445515611469]
本稿では,グラフニューラルネットワークに基づくエンドツーエンドのディープグラフマッチングと探索モデルを提案する。
まず、自然言語クエリテキストとプログラミング言語のコードスニペットをグラフ構造化データで表現する。
特に、DGMSは、個々のクエリテキストやコードスニペットのより構造的な情報をキャプチャするだけでなく、それらの微妙な類似性も学習する。
論文 参考訳(メタデータ) (2020-10-24T14:16:50Z) - COSEA: Convolutional Code Search with Layer-wise Attention [90.35777733464354]
我々は、畳み込みニューラルネットワークを階層的注意で活用し、コード固有の構造論理をキャプチャする新しいディープラーニングアーキテクチャ、COSEAを提案する。
COSEAは、コード検索タスクの最先端メソッドよりも大幅に改善できる。
論文 参考訳(メタデータ) (2020-10-19T13:53:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。