Fugu-MT 論文翻訳(概要): Creating benchmarkable components to measure the quality ofAI-enhanced developer tools

論文の概要: Creating benchmarkable components to measure the quality ofAI-enhanced developer tools

arxiv url: http://arxiv.org/abs/2504.12211v1
Date: Wed, 16 Apr 2025 15:58:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-24 16:23:44.959279
Title: Creating benchmarkable components to measure the quality ofAI-enhanced developer tools
Title（参考訳）: ベンチマーク可能なコンポーネントの作成によるAI強化開発ツールの品質測定
Authors: Elise Paradis, Ambar Murillo, Maulishree Pandey, Sarah D'Angelo, Matthew Hughes, Andrew Macvean, Ben Ferrari-Church,
Abstract要約: 生成AIモデル上に構築された製品のベンチマークはまだ欠落している。チームが開発者エクスペリエンスよりもモデル品質に重点を置いているのに対して、成功した製品は両方を組み合わせています。これによって、genAIに強化されたコード製品のDXベンチマークに対する障壁を低くしたいと考えています。
参考スコア（独自算出の注目度）: 4.893500546522624
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In the AI community, benchmarks to evaluate model quality are well established, but an equivalent approach to benchmarking products built upon generative AI models is still missing. This has had two consequences. First, it has made teams focus on model quality over the developer experience, while successful products combine both. Second, product team have struggled to answer questions about their products in relation to their competitors. In this case study, we share: (1) our process to create robust, enterprise-grade and modular components to support the benchmarking of the developer experience (DX) dimensions of our team's AI for code offerings, and (2) the components we have created to do so, including demographics and attitudes towards AI surveys, a benchmarkable task, and task and feature surveys. By doing so, we hope to lower the barrier to the DX benchmarking of genAI-enhanced code products.
Abstract（参考訳）: AIコミュニティでは、モデル品質を評価するためのベンチマークが十分に確立されているが、生成AIモデルに基づいて構築された製品のベンチマークに対する同等のアプローチは、いまだに欠落している。これは2つの結果をもたらした。まず、チームが開発者エクスペリエンスよりもモデル品質に重点を置いているのに対して、成功した製品は両方を組み合わせています。第二に、製品チームは競合製品に関する質問に答えるのに苦労しています。今回のケーススタディでは、(1)コード提供のためのAIの開発者エクスペリエンス(DX)次元のベンチマークをサポートするために、堅牢でエンタープライズグレードのモジュールコンポーネントを作成するプロセスと、(2)AI調査に対する人口統計や態度、ベンチマーク可能なタスク、タスクとフィーチャーサーベイなど、私たちが開発したコンポーネントを共有しています。これによって、genAIに強化されたコード製品のDXベンチマークに対する障壁を低くしたいと考えています。

関連論文リスト

How Software Engineers Engage with AI: A Pragmatic Process Model and Decision Framework Grounded in Industry Observations [1.516251872371896]
GitHub CopilotとChatGPTが"バイブコーディング"を実施本稿では2つの補完的貢献について述べる。まず、現実世界のAI支援SEアクティビティをキャプチャする実用的なプロセスモデル。第二に、2Dの意思決定フレームワークは、開発者が労力の節約と品質のアウトプットのトレードオフを判断するのに役立ちます。
論文参考訳（メタデータ） (2025-07-23T21:00:21Z)
ArtifactsBench: Bridging the Visual-Interactive Gap in LLM Code Generation Evaluation [48.24550684610705]
ArtifactsBenchは自動ビジュアルコード生成評価のためのフレームワークである。我々のフレームワークは、生成した各アーティファクトをレンダリングし、時間的スクリーンショットを通してその動的な振る舞いをキャプチャする。我々は1,825の多様なタスクの新しいベンチマークを構築し、30以上の主要な大規模言語モデルを評価する。
論文参考訳（メタデータ） (2025-07-07T12:53:00Z)
Creativity in LLM-based Multi-Agent Systems: A Survey [56.25583236738877]
大規模言語モデル(LLM)によるマルチエージェントシステム(MAS)は、人間とAIが協調してアイデアやアーティファクトを生成する方法を変えつつある。これはMASにおける創造性に関する最初の調査である。本研究では,(1)エージェントの能動性やペルソナ設計の分類,(2)分岐探索,反復改良,協調合成などの生成技術の概要,(3)不整合評価基準,不整合性バイアス緩和,協調競合,統一ベンチマークの欠如といった重要な課題について論じる。
論文参考訳（メタデータ） (2025-05-27T12:36:14Z)
How Well Can AI Build SD Models? [0.0]
本稿では,AI生成因果写像の評価のための2つの指標について紹介する。我々は,11種類のLDMを,因果翻訳の能力とユーザの指示に適合する能力で試験した。
論文参考訳（メタデータ） (2025-03-19T14:48:47Z)
Disrupting Test Development with AI Assistants [1.024113475677323]
GitHub Copilot、ChatGPT、TabnineなどのジェネレーティブAI支援コーディングツールは、ソフトウェア開発を大きく変えた。本稿では、これらのイノベーションが生産性とソフトウェア開発のメトリクスにどのように影響するかを分析する。
論文参考訳（メタデータ） (2024-11-04T17:52:40Z)
Does Co-Development with AI Assistants Lead to More Maintainable Code? A Registered Report [6.7428644467224]
本研究は,AIアシスタントがソフトウェア保守性に与える影響を検討することを目的とする。フェーズ1では、開発者はAIアシスタントの助けなしに、Javaプロジェクトに新しい機能を追加する。ランダム化されたコントロールされた試行のフェーズ2では、さまざまな開発者がランダムフェーズ1プロジェクトを進化させ、AIアシスタントなしで作業する。
論文参考訳（メタデータ） (2024-08-20T11:48:42Z)
KaPQA: Knowledge-Augmented Product Question-Answering [59.096607961704656]
我々はAdobe AcrobatとPhotoshop製品に焦点を当てた2つのQAデータセットを紹介した。また、製品QAタスクにおけるモデルの性能を高めるために、新しい知識駆動型RAG-QAフレームワークを提案する。
論文参考訳（メタデータ） (2024-07-22T22:14:56Z)
A-Bench: Are LMMs Masters at Evaluating AI-generated Images? [78.3699767628502]
A-Benchは、マルチモーダルモデル(LMM)がAI生成画像(AIGI)を評価するマスターであるかどうかを診断するために設計されたベンチマークである。最終的に、16のテキスト・ツー・イメージモデルの2,864のAIGIがサンプリングされ、それぞれが人間の専門家によって注釈付けされた質問回答と組み合わせられ、18のLMMでテストされる。
論文参考訳（メタデータ） (2024-06-05T08:55:02Z)
Generative AI Agent for Next-Generation MIMO Design: Fundamentals, Challenges, and Vision [76.4345564864002]
次世代の多重入力多重出力(MIMO)はインテリジェントでスケーラブルであることが期待される。本稿では、カスタマイズされた特殊コンテンツを生成することができる生成型AIエージェントの概念を提案する。本稿では、生成AIエージェントをパフォーマンス分析に活用することの有効性を示す2つの説得力のあるケーススタディを示す。
論文参考訳（メタデータ） (2024-04-13T02:39:36Z)
Investigating and Designing for Trust in AI-powered Code Generation Tools [15.155301866886647]
私たちは、AIコード生成ツールを適切に信頼する上での彼らの課題を理解するために、開発者にインタビューした。我々は,開発者の信頼構築プロセスを支援する設計概念を探索する設計調査を行った。これらの結果から,AIを利用したコード生成ツールの信頼性設計に関する設計勧告が提案されている。
論文参考訳（メタデータ） (2023-05-18T18:23:51Z)
A Comprehensive Survey of AI-Generated Content (AIGC): A History of Generative AI from GAN to ChatGPT [63.58711128819828]
ChatGPTおよびその他の生成AI(GAI)技術は、人工知能生成コンテンツ(AIGC)のカテゴリに属している。 AIGCの目標は、コンテンツ作成プロセスをより効率的かつアクセスしやすくし、高品質なコンテンツをより高速に生産できるようにすることである。
論文参考訳（メタデータ） (2023-03-07T20:36:13Z)
What is Software Quality for AI Engineers? Towards a Thinning of the Fog [9.401273164668092]
本研究の目的は,AI/MLコンポーネントやコードの開発,統合,メンテナンスにおいて採用されるソフトウェア品質保証戦略を検討することである。インタビューデータの質的分析により、AI/MLコンポーネントの開発における12の課題が明らかになった。本研究の結果は,AI/MLコンポーネントのソフトウェア品質保証プロセスと技術に関する今後の研究を導くものである。
論文参考訳（メタデータ） (2022-03-23T19:43:35Z)
Integrated Benchmarking and Design for Reproducible and Accessible Evaluation of Robotic Agents [61.36681529571202]
本稿では,開発とベンチマークを統合した再現性ロボット研究の新しい概念について述べる。このセットアップの中心的なコンポーネントの1つはDuckietown Autolabであり、これは比較的低コストで再現可能な標準化されたセットアップである。本研究では,インフラを用いて実施した実験の再現性を解析し,ロボットのハードウェアや遠隔実験室間でのばらつきが低いことを示す。
論文参考訳（メタデータ） (2020-09-09T15:31:29Z)
Generating Diverse and Consistent QA pairs from Contexts with Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文参考訳（メタデータ） (2020-05-28T08:26:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。