論文の概要: Copilot Arena: A Platform for Code LLM Evaluation in the Wild
- arxiv url: http://arxiv.org/abs/2502.09328v1
- Date: Thu, 13 Feb 2025 13:40:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:49:40.368016
- Title: Copilot Arena: A Platform for Code LLM Evaluation in the Wild
- Title(参考訳): Copilot Arena: 野生でのコードLLM評価のためのプラットフォーム
- Authors: Wayne Chi, Valerie Chen, Anastasios Nikolas Angelopoulos, Wei-Lin Chiang, Aditya Mittal, Naman Jain, Tianjun Zhang, Ion Stoica, Chris Donahue, Ameet Talwalkar,
- Abstract要約: Copilot Arenaは、開発者の作業環境へのネイティブ統合を通じて、コード生成のユーザの好みを収集するプラットフォームである。
Copilot Arenaは10のモデルから450万以上の提案を出し、1万1000以上のペアワイドの判断を集めた。
- 参考スコア(独自算出の注目度): 44.33771124408514
- License:
- Abstract: Evaluating in-the-wild coding capabilities of large language models (LLMs) is a challenging endeavor with no clear solution. We introduce Copilot Arena, a platform to collect user preferences for code generation through native integration into a developer's working environment. Copilot Arena comprises a novel interface for comparing pairs of model outputs, a sampling strategy optimized to reduce latency, and a prompting scheme to enable code completion functionality. Copilot Arena has served over 4.5 million suggestions from 10 models and collected over 11k pairwise judgements. Our results highlight the importance of model evaluations in integrated settings. We find that model rankings from Copilot Arena differ from those of existing evaluations, which we attribute to the more realistic distribution of data and tasks contained in Copilot Arena. We also identify novel insights into human preferences on code such as an observed consistency in user preference across programming languages yet significant variation in preference due to task category. We open-source Copilot Arena and release data to enable human-centric evaluations and improve understanding of coding assistants.
- Abstract(参考訳): 大規模言語モデル(LLM)の言語内符号化能力を評価することは、明確な解決法を持たない、困難な取り組みである。
Copilot Arenaは、開発者の作業環境へのネイティブ統合を通じて、コード生成のユーザの好みを収集するプラットフォームです。
Copilot Arenaには、ペアのモデル出力を比較するための新しいインターフェース、レイテンシの削減に最適化されたサンプリング戦略、コード補完機能を有効にするためのプロンプトスキームが含まれている。
Copilot Arenaは10のモデルから450万以上の提案を出し、1万1000以上のペアワイドの判断を集めた。
その結果、統合された設定におけるモデル評価の重要性を強調した。
Copilot Arenaのモデルランキングは既存の評価と異なり、Copilot Arenaに含まれるデータやタスクのより現実的な分布に起因する。
また、プログラム言語間でのユーザの嗜好の一貫性が観察されるなど、コード上の人間の嗜好に関する新たな洞察も見出すが、タスクカテゴリによる嗜好の顕著な変化も見出す。
我々はCopilot Arenaをオープンソース化し、人間中心の評価を可能にし、コーディングアシスタントの理解を向上させるために、データをリリースします。
関連論文リスト
- CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。
CompassJudger-1は、優れた汎用性を示す汎用LLMである。
textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文 参考訳(メタデータ) (2024-10-21T17:56:51Z) - Contextual Augmented Multi-Model Programming (CAMP): A Hybrid Local-Cloud Copilot Framework [8.28588489551341]
本稿では、Retrieval-Augmented Generation(RAG)を用いた局所モデルからなるマルチモデルAI支援プログラミングフレームワークであるCAMPを提案する。
RAGは、コンテキスト認識プロンプト構築を容易にするために、クラウドモデルからコンテキスト情報を取得する。
この方法論は、Appleソフトウェアエコシステム向けに開発されたAI支援プログラミングツールであるCopilot for Xcodeで実現されている。
論文 参考訳(メタデータ) (2024-10-20T04:51:24Z) - K-Sort Arena: Efficient and Reliable Benchmarking for Generative Models via K-wise Human Preferences [30.744662265421788]
モデル比較でユーザー投票を集めるArenaプラットフォームは、モデルと人間の好みをランク付けすることができる。
我々はK-Sort Arenaを紹介した。K-Sort Arenaは、画像とビデオがテキストよりも知覚的直感性が高いという重要な洞察に基づく、効率的で信頼性の高いプラットフォームである。
我々の実験では、K-Sort Arenaは広く使われているELOアルゴリズムと比較して16.3倍高速収束を示す。
論文 参考訳(メタデータ) (2024-08-26T17:58:20Z) - Generative AI for Pull Request Descriptions: Adoption, Impact, and
Developer Interventions [11.620351603683496]
GitHubのCopilot for Pull Requests (PR)は、PRに関連するさまざまな開発者タスクを自動化することを目的とした有望なサービスである。
本研究では,生成AIによって記述の一部が作成された18,256個のPRについて検討した。
われわれは、Copilot for PRは幼少期ではあるが、採用が著しく増加していることを示唆している。
論文 参考訳(メタデータ) (2024-02-14T06:20:57Z) - Octopus: Embodied Vision-Language Programmer from Environmental Feedback [58.04529328728999]
身体視覚言語モデル(VLM)は多モード認識と推論において大きな進歩を遂げた。
このギャップを埋めるために、我々は、計画と操作を接続する媒体として実行可能なコード生成を使用する、具体化された視覚言語プログラマであるOctopusを紹介した。
Octopusは、1)エージェントの視覚的およびテキスト的タスクの目的を正確に理解し、2)複雑なアクションシーケンスを定式化し、3)実行可能なコードを生成するように設計されている。
論文 参考訳(メタデータ) (2023-10-12T17:59:58Z) - Efficient Adaptive Human-Object Interaction Detection with
Concept-guided Memory [64.11870454160614]
概念誘導メモリ(ADA-CM)を用いた適応型HOI検出器を提案する。
ADA-CMには2つの操作モードがある。最初のモードでは、トレーニング不要のパラダイムで新しいパラメータを学習することなくチューニングできる。
提案手法は, HICO-DET と V-COCO のデータセットに対して, より少ないトレーニング時間で, 最新技術による競合的な結果を得る。
論文 参考訳(メタデータ) (2023-09-07T13:10:06Z) - Learning General World Models in a Handful of Reward-Free Deployments [53.06205037827802]
汎用エージェントの構築は、深層強化学習(RL)における大きな課題である
本稿では,新しい環境下での自己監督型探査手法であるCASCADEについて紹介する。
我々は,CASCADEが多様なタスク非依存のデータセットを収集し,ゼロショットから新規で目に見えない下流タスクへのエージェント学習を行うことを示す。
論文 参考訳(メタデータ) (2022-10-23T12:38:03Z) - GitHub Copilot AI pair programmer: Asset or Liability? [14.572381978575182]
2つの異なるプログラミングタスクにおいて、Copilotの能力について検討する。
我々は、Copilotの提案したソリューションを、プログラミングタスクのセットにおける人間のプログラマのソリューションと比較する。
その結果、Copilotは、ほとんどすべての基本的なアルゴリズム問題に対するソリューションを提供することができることがわかった。
論文 参考訳(メタデータ) (2022-06-30T15:00:03Z) - Towards Optimal Strategies for Training Self-Driving Perception Models
in Simulation [98.51313127382937]
合成ドメインのみにおけるラベルの使用に焦点を当てる。
提案手法では,ニューラル不変表現の学習方法と,シミュレータからデータをサンプリングする方法に関する理論的にインスピレーションを得た視点を導入する。
マルチセンサーデータを用いた鳥眼視車両分割作業におけるアプローチについて紹介する。
論文 参考訳(メタデータ) (2021-11-15T18:37:43Z) - An Empirical Cybersecurity Evaluation of GitHub Copilot's Code
Contributions [8.285068188878578]
GitHub Copilotは、オープンソースのGitHubコードに基づいてトレーニングされた言語モデルである。
コードにはしばしばバグが含まれているため、言語モデルが悪用可能なバグの多いコードから学べることは確かです。
これにより、Copilotのコードコントリビューションのセキュリティに対する懸念が高まる。
論文 参考訳(メタデータ) (2021-08-20T17:30:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。