Fugu-MT 論文翻訳(概要): Assessing the Answerability of Queries in Retrieval-Augmented Code Generation

論文の概要: Assessing the Answerability of Queries in Retrieval-Augmented Code Generation

arxiv url: http://arxiv.org/abs/2411.05547v2
Date: Mon, 25 Nov 2024 07:18:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:45.758138
Title: Assessing the Answerability of Queries in Retrieval-Augmented Code Generation
Title（参考訳）: Retrieval-Augmented Code Generationにおけるクエリの解答可能性の評価
Authors: Geonmin Kim, Jaeyeon Kim, Hancheol Park, Wooksu Shin, Tae-Ho Kim,
Abstract要約: 本研究は,有効な回答が生成できるかどうかを評価するための課題を提案する。我々は、Retrieval-augmented Code Generability Evaluation (RaCGEval)と呼ばれるベンチマークデータセットを構築し、このタスクを実行するモデルの性能を評価する。
参考スコア（独自算出の注目度）: 7.68409881755304
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Thanks to unprecedented language understanding and generation capabilities of large language model (LLM), Retrieval-augmented Code Generation (RaCG) has recently been widely utilized among software developers. While this has increased productivity, there are still frequent instances of incorrect codes being provided. In particular, there are cases where plausible yet incorrect codes are generated for queries from users that cannot be answered with the given queries and API descriptions. This study proposes a task for evaluating answerability, which assesses whether valid answers can be generated based on users' queries and retrieved APIs in RaCG. Additionally, we build a benchmark dataset called Retrieval-augmented Code Generability Evaluation (RaCGEval) to evaluate the performance of models performing this task. Experimental results show that this task remains at a very challenging level, with baseline models exhibiting a low performance of 46.7%. Furthermore, this study discusses methods that could significantly improve performance.
Abstract（参考訳）: 大規模言語モデル(LLM)の先例のない言語理解と生成機能のおかげで、最近、RaCG(Retrieval-augmented Code Generation)がソフトウェア開発者の間で広く利用されている。これにより生産性が向上する一方で,不正確なコードの提供頻度も高まっている。特に、与えられたクエリやAPI記述で答えられないユーザからのクエリに対して、妥当で不正確なコードが生成される場合があります。本研究では,RaCGにおけるユーザクエリと検索APIに基づいて,有効な回答を生成できるかどうかを評価するための課題を提案する。さらに,Retrieval-augmented Code Generability Evaluation (RaCGEval) と呼ばれるベンチマークデータセットを構築し,このタスクを実行するモデルの性能を評価する。実験の結果、この作業は非常に困難であり、ベースラインモデルは46.7%の低性能を示した。さらに,本研究では,性能を著しく向上する手法について論じる。

関連論文リスト

AlignCoder: Aligning Retrieval with Target Intent for Repository-Level Code Completion [55.21541958868449]
リポジトリレベルのコード補完フレームワークであるAlignCoderを提案する。我々のフレームワークは、初期クエリとターゲットコードのセマンティックギャップを橋渡しする拡張クエリを生成する。我々は、拡張クエリにおける推論情報を活用してより正確な検索を行うAlignRetrieverのトレーニングに強化学習を採用する。
論文参考訳（メタデータ） (2026-01-27T15:23:14Z)
Code Review Automation using Retrieval Augmented Generation [3.438467395627969]
コードレビューはソフトウェアの品質を維持するのに不可欠ですが、労働集約的です。深層学習に基づく生成技術と検索に基づく手法は,この課題において高い性能を示した。本稿では,検索法と生成法を組み合わせたRARe(Retrieval-Augmented Reviewer)を紹介する。
論文参考訳（メタデータ） (2025-11-07T15:02:42Z)
MRG-Bench: Evaluating and Exploring the Requirements of Context for Repository-Level Code Generation [0.7342677574855649]
大規模言語モデルのより正確な評価を提供する新しいデータセットである textbfMRG-Bench を紹介する。我々は,大規模言語モデル,長期コンテキストモデル,RAG関連手法を含む実験を行う。その結果、ほとんどの手法は「ユーザ要求を理解することの難しさ」に悩まされており、割り当てられたタスクを正確に理解できないことがわかった。
論文参考訳（メタデータ） (2025-08-05T01:53:45Z)
Turning the Tide: Repository-based Code Reflection [52.13709676656648]
マルチファイルリポジトリコンテキストにおけるコード理解と生成を評価するベンチマークであるLiveRepoReflectionを紹介する。多様性、正確性、難易度を確保するため、6ドル(約6,800円)のプログラミング言語で厳格にテストケースをフィルタリングしました。 RepoReflection-Instructは、さまざまなソースから派生した大規模で品質の高い命令チューニングデータセットである。
論文参考訳（メタデータ） (2025-07-14T02:36:27Z)
What to Retrieve for Effective Retrieval-Augmented Code Generation? An Empirical Study and Beyond [32.467437657603604]
リポジトリレベルのコード生成は、複雑なコード依存と長いコンテキストの処理における大きな言語モデル(LLM)の制限のため、依然として困難である。ユーザクエリを実装ステップに分解し,セマンティックな記述マッチングを通じてAPIを検索する,チェーン・オブ・シントを利用した新しいコンテキスト統合手法であるAllianceCoderを提案する。 CoderEvalとRepoExecに関する広範な実験を通じて、AllianceCoderは最先端のパフォーマンスを実現し、Pass@1を既存のアプローチよりも最大20%改善した。
論文参考訳（メタデータ） (2025-03-26T14:41:38Z)
Automated Refactoring of Non-Idiomatic Python Code: A Differentiated Replication with LLMs [54.309127753635366]
本研究は, GPT-4の有効性について検討し, 慣用行動の推奨と示唆について検討した。この結果から,従来は複雑なコード解析に基づくレコメンデータの実装が求められていた,LCMの課題達成の可能性が浮き彫りになった。
論文参考訳（メタデータ） (2025-01-28T15:41:54Z)
Large Language Model Can Be a Foundation for Hidden Rationale-Based Retrieval [12.83513794686623]
本稿では,隠れ合理性検索という,より困難なタイプの検索タスクを提案し,検討する。このような問題に対処するためには、命令調整付き大規模言語モデル(LLM)とクロスエンコーダアーキテクチャが妥当な選択である可能性がある。我々は、RaHoReによってこの検索フレームワークを命名し、感情支援会話(ESC)におけるゼロショットおよび微調整性能上の優位性を検証した。
論文参考訳（メタデータ） (2024-12-21T13:19:15Z)
A Reproducibility and Generalizability Study of Large Language Models for Query Generation [14.172158182496295]
生成AIと大規模言語モデル(LLM)は、体系的な文献レビュープロセスに革命をもたらすことを約束する。本稿では,LLMを用いたBooleanクエリ生成を体系的レビューのために広範囲に研究する。本研究は,ChatGPTを用いて得られた結果の複製性と信頼性について検討した。次に、オープンソースモデルの解析と評価により結果を一般化する。
論文参考訳（メタデータ） (2024-11-22T13:15:03Z)
CodeXEmbed: A Generalist Embedding Model Family for Multiligual and Multi-task Code Retrieval [103.116634967815]
CodeXEmbedは400Mから7Bパラメータの大規模なコード埋め込みモデルのファミリーである。我々の新しいトレーニングパイプラインは、複数のプログラミング言語を統合し、様々なコード関連タスクを共通の検索フレームワークに変換する。私たちの7Bモデルは、コード検索において新しい最先端(SOTA)を設定し、以前の主要なモデルであるVoyage-CodeをCoIRベンチマークで20%以上上回っています。
論文参考訳（メタデータ） (2024-11-19T16:54:45Z)
Prompting and Fine-tuning Large Language Models for Automated Code Review Comment Generation [5.6001617185032595]
プログラムデータと自然言語データの両方で事前訓練された大きな言語モデルは、コード指向のタスクでうまく機能する傾向にある。我々は,パラメータ効率,量子化低ランクのオープンソースLarge Language Model (LLM) をコンシューマグレードハードウェア上で微調整し,レビューコメント生成を改善する。
論文参考訳（メタデータ） (2024-11-15T12:01:38Z)
Likelihood as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
言語モデルの性能の効果的な指標としての可能性を示す。提案手法は,より優れた性能をもたらすプロンプトの選択と構築のための尺度として,疑似可能性を利用する2つの手法を提案する。
論文参考訳（メタデータ） (2024-11-12T13:14:09Z)
Enhancing Legal Case Retrieval via Scaling High-quality Synthetic Query-Candidate Pairs [67.54302101989542]
判例検索は、ある事実記述の参照として類似した事例を提供することを目的としている。既存の作業は主に、長いクエリを使ったケース・ツー・ケースの検索に重点を置いている。データスケールは、既存のデータハングリーニューラルネットワークのトレーニング要件を満たすには不十分である。
論文参考訳（メタデータ） (2024-10-09T06:26:39Z)
CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.37076502395699]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。 CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文参考訳（メタデータ） (2024-06-20T16:59:52Z)
RQ-RAG: Learning to Refine Queries for Retrieval Augmented Generation [42.82192656794179]
大きな言語モデル(LLM)は優れた能力を示すが、不正確なあるいは幻覚反応を引き起こす傾向がある。この制限は、膨大な事前トレーニングデータセットに依存することに起因するため、目に見えないシナリオでのエラーの影響を受けやすい。 Retrieval-Augmented Generation (RAG) は、外部の関連文書を応答生成プロセスに組み込むことによって、この問題に対処する。
論文参考訳（メタデータ） (2024-03-31T08:58:54Z)
RA-ISF: Learning to Answer and Understand from Retrieval Augmentation via Iterative Self-Feedback [19.28222902440827]
大規模言語モデル(LLM)は多くのタスクにおいて例外的な性能を示すが、それでもパラメータに格納された知識に大きく依存している。 Retrieval-augmented Generation (RAG)メソッドは、外部知識を統合することでこの問題に対処する。本稿では、反復的にタスクを分解し、3つのサブモジュールで処理し、モデルの問題解決能力を向上するフレームワークであるRetrieval Augmented Iterative Self-Feedback (RA-ISF)を提案する。
論文参考訳（メタデータ） (2024-03-11T16:01:05Z)
ReCode: Robustness Evaluation of Code Generation Models [90.10436771217243]
コード生成モデルのための総合的ロバストネス評価ベンチマークであるReCodeを提案する。ドクストリング、関数と変数名、コード構文、コードフォーマットのコードに特化して、30以上の変換をカスタマイズします。ヒトのアノテータでは、摂動プロンプトの90%以上が本来のプロンプトの意味を変えていないことが確認された。
論文参考訳（メタデータ） (2022-12-20T14:11:31Z)
Execution-based Evaluation for Data Science Code Generation Models [97.96608263010913]
データサイエンスコード生成タスクの実行評価のための評価データセットであるExeDSを紹介する。 ExeDSにはJupyter Notebooksの534の問題が含まれており、それぞれがコードコンテキスト、タスク記述、参照プログラム、望ましい実行出力で構成されている。表面形状評価スコアを高い精度で達成した5つの最先端コード生成モデルの実行性能を評価する。
論文参考訳（メタデータ） (2022-11-17T07:04:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。