Fugu-MT 論文翻訳(概要): The RealHumanEval: Evaluating Large Language Models' Abilities to Support Programmers

論文の概要: The RealHumanEval: Evaluating Large Language Models' Abilities to Support Programmers

arxiv url: http://arxiv.org/abs/2404.02806v1
Date: Wed, 3 Apr 2024 15:20:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-04 17:01:36.467273
Title: The RealHumanEval: Evaluating Large Language Models' Abilities to Support Programmers
Title（参考訳）: RealHumanEval:大規模言語モデルのプログラマサポート能力の評価
Authors: Hussein Mozannar, Valerie Chen, Mohammed Alsobay, Subhro Das, Sebastian Zhao, Dennis Wei, Manish Nagireddy, Prasanna Sattigeri, Ameet Talwalkar, David Sontag,
Abstract要約: 大規模言語モデル(LLM)を用いたコーディングにおいて,既存のベンチマークのゲインがプログラマの生産性向上に寄与するかどうかを検討する。本稿では,プログラマを支援するためのLLMの能力を測定するためのWebインターフェースであるRealHumanEvalについて,オートコンプリートあるいはチャットサポートを通じて紹介する。プログラマの好みは実際のパフォーマンスと相関せず、より優れた人間中心のプロキシ信号の必要性を動機付けている。
参考スコア（独自算出の注目度）: 44.28269395385471
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Evaluation of large language models (LLMs) for code has primarily relied on static benchmarks, including HumanEval (Chen et al., 2021), which measure the ability of LLMs to generate complete code that passes unit tests. As LLMs are increasingly used as programmer assistants, we study whether gains on existing benchmarks translate to gains in programmer productivity when coding with LLMs, including time spent coding. In addition to static benchmarks, we investigate the utility of preference metrics that might be used as proxies to measure LLM helpfulness, such as code acceptance or copy rates. To do so, we introduce RealHumanEval, a web interface to measure the ability of LLMs to assist programmers, through either autocomplete or chat support. We conducted a user study (N=213) using RealHumanEval in which users interacted with six LLMs of varying base model performance. Despite static benchmarks not incorporating humans-in-the-loop, we find that improvements in benchmark performance lead to increased programmer productivity; however gaps in benchmark versus human performance are not proportional -- a trend that holds across both forms of LLM support. In contrast, we find that programmer preferences do not correlate with their actual performance, motivating the need for better, human-centric proxy signals. We also open-source RealHumanEval to enable human-centric evaluation of new models and the study data to facilitate efforts to improve code models.
Abstract（参考訳）: コードのための大規模言語モデル (LLM) の評価は主にHumanEval (Chen et al , 2021) など静的なベンチマークに依存している。 LLMがプログラマのアシスタントとして使われるようになるにつれて、既存のベンチマークの利得が、LLMでコーディングする際のプログラマの生産性向上に繋がるかどうか、そしてコーディングに費やした時間などについて調べる。静的なベンチマークに加えて、コード受け入れやコピーレートなどのLCMの有用性を測定するために、プロキシとして使用されるであろう選好指標の有用性について検討する。そこで我々は,プログラマを支援するためのLLMの能力を測定するためのWebインターフェースであるRealHumanEvalを紹介した。本研究では,RealHumanEvalを用いたユーザスタディ(N=213)を行い,異なるベースモデル性能の6つのLLMと対話した。人間をループに組み込まない静的ベンチマークにもかかわらず、ベンチマークパフォーマンスの改善によってプログラマの生産性が向上することがわかった。対照的に、プログラマの好みは実際のパフォーマンスと相関せず、より優れた人間中心のプロキシ信号の必要性を動機付けている。我々はまた、RealHumanEvalをオープンソースにして、新しいモデルと研究データの人間中心の評価を可能にし、コードモデルを改善する努力を促進する。

関連論文リスト

EvoCodeBench: A Human-Performance Benchmark for Self-Evolving LLM-Driven Coding Systems [24.49186459186861]
大規模言語モデル(LLM)は、ワンショットコード生成から推論時に反復的な改善が可能な複雑なシステムへと進化してきた。 EvoCodeBench(エボCodeBench)は、プログラミング言語間で自己進化するLLM駆動型コーディングシステムを評価するためのベンチマークである。その結果, 自己進化システムは時間とともに効率が向上し, 人間の相対的・多言語的分析は, 精度だけでは不可能な洞察を与えることがわかった。
論文参考訳（メタデータ） (2026-02-10T14:04:22Z)
Process-based Self-Rewarding Language Models [47.119444722849025]
大規模言語モデルは、様々な下流タスクで優れたパフォーマンスを示し、複数のシナリオで広く適用されてきた。人間の嗜好データは、人間のパフォーマンスの上限に制約されるLCMの性能をさらに向上させるために訓練に使用される。本稿では,LLM-as-a-Judgeとステップワイズ優先最適化を導入した,言語モデルのためのプロセスベースの自己回帰パイプラインを提案する。
論文参考訳（メタデータ） (2025-03-05T18:58:44Z)
Can LLMs Replace Human Evaluators? An Empirical Study of LLM-as-a-Judge in Software Engineering [18.766132076075365]
大規模言語モデル(LLM)は、コード生成のような様々なソフトウェアエンジニアリング(SE)タスクに取り組むためにデプロイされている。 Pass@kメトリックは、広範囲なユニットテストと設定された環境を必要とし、LLM生成したテキストの評価には適していない。 BLEUのような従来のメトリクスは、意味的類似性ではなく語彙のみを測定するが、精査されている。
論文参考訳（メタデータ） (2025-02-10T06:49:29Z)
HumanEval Pro and MBPP Pro: Evaluating Large Language Models on Self-invoking Code Generation [28.295580042013547]
LLMの進行的推論と問題解決能力を評価するための新しいタスクである自己呼び出しコード生成を導入する。ほとんどのLLMは、HumanEvalやMBPPといった従来のコード生成ベンチマークで優れているが、自己呼び出しタスクのパフォーマンスは低下している。
論文参考訳（メタデータ） (2024-12-30T18:58:58Z)
Model-in-the-Loop (MILO): Accelerating Multimodal AI Data Annotation with LLMs [19.331803578031188]
本稿では,AI/MLモデルをアノテーションプロセスに統合するMILOフレームワークを提案する。我々の研究は、専門家のアノテータと大規模言語モデル(LLM)の長所を生かした協調パラダイムを導入する。マルチモーダルデータアノテーションに関する実験的な3つの研究は、MILOが処理時間を短縮し、データ品質を改善し、アノテータエクスペリエンスを向上させることの有効性を示している。
論文参考訳（メタデータ） (2024-09-16T20:05:57Z)
Can LLMs Replace Manual Annotation of Software Engineering Artifacts? [24.563167762241346]
大規模言語モデル(LLM)は、最近、いくつかの領域で人間レベルのパフォーマンスを実証し始めた。本稿では、コードやコード関連アーティファクトの評価において、より安価なLCMクエリーでコストのかかる被験者を代用する可能性について検討する。以上の結果から,LLMを人体アノテーションに置き換えることで,人体・人体・人体間の合意に等しいあるいは近い契約が成立する可能性が示唆された。
論文参考訳（メタデータ） (2024-08-10T12:30:01Z)
How Efficient is LLM-Generated Code? A Rigorous & High-Standard Benchmark [39.13045037676502]
大規模言語モデル(LLM)の開発は、プログラム合成のフロンティアを著しく押し上げている。ほとんどの評価フレームワークは生成したコードの(機能的な)正しさに重点を置いています。我々は,LLMの効率的なコード生成能力を評価するための厳格で高水準なベンチマークENAMELを開発した。
論文参考訳（メタデータ） (2024-06-10T04:19:20Z)
Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-05-29T17:59:07Z)
Copilot Evaluation Harness: Evaluating LLM-Guided Software Programming [12.355284125578342]
大規模言語モデル(LLM)は、現代のソフトウェア開発の焦点となっている。 LLMは、インテリジェントでチャット駆動のプログラミングアシスタントとして機能することで、開発者の生産性を大幅に向上する可能性がある。しかし、それぞれのシステムは、最高のパフォーマンスを確保するために、LLMをそのワークスペースに向ける必要がある。
論文参考訳（メタデータ） (2024-02-22T03:51:34Z)
Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。 SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文参考訳（メタデータ） (2024-01-02T18:53:13Z)
CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。 LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文参考訳（メタデータ） (2023-11-29T08:29:54Z)
CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文参考訳（メタデータ） (2023-10-24T08:56:49Z)
Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文参考訳（メタデータ） (2023-10-11T16:38:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。