論文の概要: AdaptEval: A Benchmark for Evaluating Large Language Models on Code Snippet Adaptation
- arxiv url: http://arxiv.org/abs/2601.04540v1
- Date: Thu, 08 Jan 2026 03:13:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.009952
- Title: AdaptEval: A Benchmark for Evaluating Large Language Models on Code Snippet Adaptation
- Title(参考訳): AdaptEval: コードスニペット適応による大規模言語モデル評価ベンチマーク
- Authors: Tanghaoran Zhang, Xinjun Mao, Shangwen Wang, Yuxin Zhao, Yao Lu, Jin Zhang, Zhang Zhang, Kang Yang, Yue Yu,
- Abstract要約: AdaptEvalは、コードスニペット適応の大規模言語モデル(LLM)を評価するために設計されたベンチマークである。
各タスクには、タスクレベルと適応レベルの両方の要件がアノテートされ、さまざまな適応シナリオにおけるLCMの評価をサポートする。
コードスニペット適応における6つの命令調整LDM, 特に3つの理由付けLDMを評価するための実験的検討を行った。
- 参考スコア(独自算出の注目度): 22.341339973062702
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in large language models (LLMs) have automated various software engineering tasks, with benchmarks emerging to evaluate their capabilities. However, for adaptation, a critical activity during code reuse, there is no benchmark to assess LLMs' performance, leaving their practical utility in this area unclear. To fill this gap, we propose AdaptEval, a benchmark designed to evaluate LLMs on code snippet adaptation. Unlike existing benchmarks, AdaptEval incorporates the following three distinctive features: First, Practical Context. Tasks in AdaptEval are derived from developers' practices, preserving rich contextual information from Stack Overflow and GitHub communities. Second, Multi-granularity Annotation. Each task is annotated with requirements at both task and adaptation levels, supporting the evaluation of LLMs across diverse adaptation scenarios. Third, Fine-grained Evaluation. AdaptEval includes a two-tier testing framework combining adaptation-level and function-level tests, which enables evaluating LLMs' performance across various individual adaptations. Based on AdaptEval, we conduct the first empirical study to evaluate six instruction-tuned LLMs and especially three reasoning LLMs on code snippet adaptation. Experimental results demonstrate that AdaptEval enables the assessment of LLMs' adaptation capabilities from various perspectives. It also provides critical insights into their current limitations, particularly their struggle to follow explicit instructions. We hope AdaptEval can facilitate further investigation and enhancement of LLMs' capabilities in code snippet adaptation, supporting their real-world applications.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、様々なソフトウェアエンジニアリングタスクを自動化し、その能力を評価するためにベンチマークが登場した。
しかし、コード再利用における重要な活動である適応においては、LCMの性能を評価するためのベンチマークは存在せず、この領域での実用性は明らかでない。
このギャップを埋めるために、コードスニペット適応におけるLLMを評価するために設計されたベンチマークAdaptEvalを提案する。
既存のベンチマークとは異なり、AdaptEvalには以下の3つの特徴がある。
AdaptEvalのタスクは開発者のプラクティスから派生したもので、Stack OverflowとGitHubコミュニティの豊富なコンテキスト情報を保存している。
第二に、多粒度アノテーション。
各タスクには、タスクレベルと適応レベルの両方の要件がアノテートされ、さまざまな適応シナリオにおけるLCMの評価をサポートする。
第3に、きめ細かい評価。
AdaptEvalには、適応レベルと関数レベルのテストを組み合わせた2層テストフレームワークが含まれている。
AdaptEvalをベースとして,コードスニペット適応における6つの命令調整LDM,特に3つの推論LDMの評価実験を行った。
実験の結果,AdaptEvalは様々な観点からLLMの適応能力を評価できることがわかった。
また、現在の制限、特に明示的な指示に従うことの難しさに対する批判的な洞察も提供する。
AdaptEvalは、コードスニペット適応におけるLLMのさらなる調査と強化を可能にし、実世界のアプリケーションをサポートすることを願っている。
関連論文リスト
- NAACL2025 Tutorial: Adaptation of Large Language Models [55.247657239126646]
LLMの適応に関するこのチュートリアルは、ジェネリックLLMの静的能力を超えたモデルの需要増加に対応するために設計されている。
まず, LLMにおけるパラメトリック知識の更新に焦点を当てたパラメトリック知識適応について検討する。
2つめの適応は、半パラメトリックな知識適応であり、その目標は、外部の知識やツールをよりよく活用するために、LSMパラメータを更新することである。
論文 参考訳(メタデータ) (2025-04-04T20:57:41Z) - Instruct or Interact? Exploring and Eliciting LLMs' Capability in Code Snippet Adaptation Through Prompt Engineering [19.019004855931676]
大規模言語モデル(LLM)は、コード生成タスクにおいて、有望な結果でその有効性を確認した。
再利用指向でコンテキスト依存のコード変更予測タスクであるアダプティブのパフォーマンスはまだ不明だ。
LLMの適応性を引き出すためのインタラクティブなプロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-11-23T09:40:36Z) - AdaptEval: Evaluating Large Language Models on Domain Adaptation for Text Summarization [4.07484910093752]
本研究では,多言語モデル(LLM)のドメイン適応能力について,各ドメイン間の要約タスクで評価する。
本稿では、最初のドメイン適応評価スイートであるAdaptEvalを紹介する。
論文 参考訳(メタデータ) (2024-07-16T10:50:39Z) - CIBench: Evaluating Your LLMs with a Code Interpreter Plugin [68.95137938214862]
データサイエンスタスクにコードインタプリタを利用するLLMの能力を総合的に評価する,CIBenchという対話型評価フレームワークを提案する。
評価データセットは,LLM-人的協調手法を用いて構築され,連続的かつ対話的なIPythonセッションを活用することによって,実際のワークフローをシミュレートする。
コードインタプリタの利用において, CIBench 上で 24 個の LLM の能力を解析し, 将来の LLM に対する貴重な洞察を提供するため, 広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2024-07-15T07:43:55Z) - One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。
本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:44:54Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - OpsEval: A Comprehensive IT Operations Benchmark Suite for Large Language Models [26.590755599827993]
大規模言語モデル(LLM)用に設計された総合的なタスク指向のOpsベンチマークであるOpsEvalを提示する。
このベンチマークには、英語と中国語で7184の質問と1736の質問回答(QA)形式が含まれている。
評価の信頼性を確保するため、何十人ものドメインエキスパートを招待して、質問を手動でレビューします。
論文 参考訳(メタデータ) (2023-10-11T16:33:29Z) - Through the Lens of Core Competency: Survey on Evaluation of Large
Language Models [27.271533306818732]
大規模言語モデル(LLM)は優れた性能と幅広い実用性を持っている。
既存の評価タスクは、現実世界のシナリオにおける幅広いアプリケーションに追いつくのは難しい。
LLMの4つのコア能力は、推論、知識、信頼性、安全性などである。
この能力アーキテクチャの下では、類似したタスクを組み合わせて対応する能力を反映し、新しいタスクをシステムに簡単に追加することができる。
論文 参考訳(メタデータ) (2023-08-15T17:40:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。