論文の概要: Creating benchmarkable components to measure the quality ofAI-enhanced developer tools
- arxiv url: http://arxiv.org/abs/2504.12211v1
- Date: Wed, 16 Apr 2025 15:58:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 14:40:11.396633
- Title: Creating benchmarkable components to measure the quality ofAI-enhanced developer tools
- Title(参考訳): ベンチマーク可能なコンポーネントの作成によるAI強化開発ツールの品質測定
- Authors: Elise Paradis, Ambar Murillo, Maulishree Pandey, Sarah D'Angelo, Matthew Hughes, Andrew Macvean, Ben Ferrari-Church,
- Abstract要約: 生成AIモデル上に構築された製品のベンチマークはまだ欠落している。
チームが開発者エクスペリエンスよりもモデル品質に重点を置いているのに対して、成功した製品は両方を組み合わせています。
これによって、genAIに強化されたコード製品のDXベンチマークに対する障壁を低くしたいと考えています。
- 参考スコア(独自算出の注目度): 4.893500546522624
- License:
- Abstract: In the AI community, benchmarks to evaluate model quality are well established, but an equivalent approach to benchmarking products built upon generative AI models is still missing. This has had two consequences. First, it has made teams focus on model quality over the developer experience, while successful products combine both. Second, product team have struggled to answer questions about their products in relation to their competitors. In this case study, we share: (1) our process to create robust, enterprise-grade and modular components to support the benchmarking of the developer experience (DX) dimensions of our team's AI for code offerings, and (2) the components we have created to do so, including demographics and attitudes towards AI surveys, a benchmarkable task, and task and feature surveys. By doing so, we hope to lower the barrier to the DX benchmarking of genAI-enhanced code products.
- Abstract(参考訳): AIコミュニティでは、モデル品質を評価するためのベンチマークが十分に確立されているが、生成AIモデルに基づいて構築された製品のベンチマークに対する同等のアプローチは、いまだに欠落している。
これは2つの結果をもたらした。
まず、チームが開発者エクスペリエンスよりもモデル品質に重点を置いているのに対して、成功した製品は両方を組み合わせています。
第二に、製品チームは競合製品に関する質問に答えるのに苦労しています。
今回のケーススタディでは、(1)コード提供のためのAIの開発者エクスペリエンス(DX)次元のベンチマークをサポートするために、堅牢でエンタープライズグレードのモジュールコンポーネントを作成するプロセスと、(2)AI調査に対する人口統計や態度、ベンチマーク可能なタスク、タスクとフィーチャーサーベイなど、私たちが開発したコンポーネントを共有しています。
これによって、genAIに強化されたコード製品のDXベンチマークに対する障壁を低くしたいと考えています。
関連論文リスト
- Disrupting Test Development with AI Assistants [1.024113475677323]
GitHub Copilot、ChatGPT、TabnineなどのジェネレーティブAI支援コーディングツールは、ソフトウェア開発を大きく変えた。
本稿では、これらのイノベーションが生産性とソフトウェア開発のメトリクスにどのように影響するかを分析する。
論文 参考訳(メタデータ) (2024-11-04T17:52:40Z) - Does Co-Development with AI Assistants Lead to More Maintainable Code? A Registered Report [6.7428644467224]
本研究は,AIアシスタントがソフトウェア保守性に与える影響を検討することを目的とする。
フェーズ1では、開発者はAIアシスタントの助けなしに、Javaプロジェクトに新しい機能を追加する。
ランダム化されたコントロールされた試行のフェーズ2では、さまざまな開発者がランダムフェーズ1プロジェクトを進化させ、AIアシスタントなしで作業する。
論文 参考訳(メタデータ) (2024-08-20T11:48:42Z) - KaPQA: Knowledge-Augmented Product Question-Answering [59.096607961704656]
我々はAdobe AcrobatとPhotoshop製品に焦点を当てた2つのQAデータセットを紹介した。
また、製品QAタスクにおけるモデルの性能を高めるために、新しい知識駆動型RAG-QAフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-22T22:14:56Z) - A-Bench: Are LMMs Masters at Evaluating AI-generated Images? [78.3699767628502]
A-Benchは、マルチモーダルモデル(LMM)がAI生成画像(AIGI)を評価するマスターであるかどうかを診断するために設計されたベンチマークである。
最終的に、16のテキスト・ツー・イメージモデルの2,864のAIGIがサンプリングされ、それぞれが人間の専門家によって注釈付けされた質問回答と組み合わせられ、18のLMMでテストされる。
論文 参考訳(メタデータ) (2024-06-05T08:55:02Z) - Generative AI Agent for Next-Generation MIMO Design: Fundamentals, Challenges, and Vision [76.4345564864002]
次世代の多重入力多重出力(MIMO)はインテリジェントでスケーラブルであることが期待される。
本稿では、カスタマイズされた特殊コンテンツを生成することができる生成型AIエージェントの概念を提案する。
本稿では、生成AIエージェントをパフォーマンス分析に活用することの有効性を示す2つの説得力のあるケーススタディを示す。
論文 参考訳(メタデータ) (2024-04-13T02:39:36Z) - Prototyping with Prompts: Emerging Approaches and Challenges in Generative AI Design for Collaborative Software Teams [2.237039275844699]
生成型AIモデルは、人間のタスクに統合され、表現力のあるコンテンツの制作が可能になっている。
従来のヒューマンAI設計手法とは異なり、生成能力を設計するための新しいアプローチは、迅速なエンジニアリング戦略に重点を置いている。
我々の発見は、マルチステークホルダーチーム間のAIシステムのプロトタイピングにおける新たなプラクティスと役割シフトを浮き彫りにしている。
論文 参考訳(メタデータ) (2024-02-27T17:56:10Z) - Investigating and Designing for Trust in AI-powered Code Generation Tools [15.155301866886647]
私たちは、AIコード生成ツールを適切に信頼する上での彼らの課題を理解するために、開発者にインタビューした。
我々は,開発者の信頼構築プロセスを支援する設計概念を探索する設計調査を行った。
これらの結果から,AIを利用したコード生成ツールの信頼性設計に関する設計勧告が提案されている。
論文 参考訳(メタデータ) (2023-05-18T18:23:51Z) - A Comprehensive Survey of AI-Generated Content (AIGC): A History of
Generative AI from GAN to ChatGPT [63.58711128819828]
ChatGPTおよびその他の生成AI(GAI)技術は、人工知能生成コンテンツ(AIGC)のカテゴリに属している。
AIGCの目標は、コンテンツ作成プロセスをより効率的かつアクセスしやすくし、高品質なコンテンツをより高速に生産できるようにすることである。
論文 参考訳(メタデータ) (2023-03-07T20:36:13Z) - What is Software Quality for AI Engineers? Towards a Thinning of the Fog [9.401273164668092]
本研究の目的は,AI/MLコンポーネントやコードの開発,統合,メンテナンスにおいて採用されるソフトウェア品質保証戦略を検討することである。
インタビューデータの質的分析により、AI/MLコンポーネントの開発における12の課題が明らかになった。
本研究の結果は,AI/MLコンポーネントのソフトウェア品質保証プロセスと技術に関する今後の研究を導くものである。
論文 参考訳(メタデータ) (2022-03-23T19:43:35Z) - Integrated Benchmarking and Design for Reproducible and Accessible
Evaluation of Robotic Agents [61.36681529571202]
本稿では,開発とベンチマークを統合した再現性ロボット研究の新しい概念について述べる。
このセットアップの中心的なコンポーネントの1つはDuckietown Autolabであり、これは比較的低コストで再現可能な標準化されたセットアップである。
本研究では,インフラを用いて実施した実験の再現性を解析し,ロボットのハードウェアや遠隔実験室間でのばらつきが低いことを示す。
論文 参考訳(メタデータ) (2020-09-09T15:31:29Z) - Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2020-05-28T08:26:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。