論文の概要: N-Version Assessment and Enhancement of Generative AI
- arxiv url: http://arxiv.org/abs/2409.14071v2
- Date: Mon, 30 Sep 2024 07:35:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:01:49.601637
- Title: N-Version Assessment and Enhancement of Generative AI
- Title(参考訳): 生成AIのN-Versionアセスメントと強化
- Authors: Marcus Kessel, Colin Atkinson,
- Abstract要約: ジェネレーティブAI(GAI)は、ソフトウェアエンジニアリングの生産性を向上させる大きな可能性を秘めている。
GAI生成アーティファクトの広範な検証と検証(V&V)の必要性は、潜在的な生産性向上を損なう可能性がある。
本稿では、GAIが複数バージョンのコードとテストを生成する能力を利用して、これらのリスクを軽減する方法を提案する。
- 参考スコア(独自算出の注目度): 2.4861619769660637
- License:
- Abstract: Generative AI (GAI) holds great potential to improve software engineering productivity, but its untrustworthy outputs, particularly in code synthesis, pose significant challenges. The need for extensive verification and validation (V&V) of GAI-generated artifacts may undermine the potential productivity gains. This paper proposes a way of mitigating these risks by exploiting GAI's ability to generate multiple versions of code and tests to facilitate comparative analysis across versions. Rather than relying on the quality of a single test or code module, this "differential GAI" (D-GAI) approach promotes more reliable quality evaluation through version diversity. We introduce the Large-Scale Software Observatorium (LASSO), a platform that supports D-GAI by executing and analyzing large sets of code versions and tests. We discuss how LASSO enables rigorous evaluation of GAI-generated artifacts and propose its application in both software development and GAI research.
- Abstract(参考訳): 生成AI(GAI)は、ソフトウェアエンジニアリングの生産性を向上させる大きな可能性を秘めている。
GAI生成アーティファクトの広範な検証と検証(V&V)の必要性は、潜在的な生産性向上を損なう可能性がある。
本稿では,複数のバージョンのコードとテストを生成するGAIの能力を利用して,これらのリスクを軽減し,バージョン間の比較分析を容易にする手法を提案する。
単一のテストやコードモジュールの品質に頼るのではなく、この"差分GAI"(D-GAI)アプローチは、バージョン多様性を通じてより信頼性の高い品質評価を促進する。
我々は,大規模ソフトウェアオブザーバリアム(LASSO)を紹介した。これはD-GAIをサポートするプラットフォームで,大規模なコードバージョンとテストを実行することによって,D-GAIをサポートする。
本稿では,GAI 生成物の厳密な評価を可能にする LASSO について論じ,ソフトウェア開発と GAI 研究への応用を提案する。
関連論文リスト
- OriGen:Enhancing RTL Code Generation with Code-to-Code Augmentation and Self-Reflection [54.775409528658486]
OriGenは、セルフリフレクション機能と新しいデータセット拡張方法論を組み込んだ、完全なオープンソースフレームワークである。
このアプローチでは,オープンソースのRTLコードデータセットの品質向上のために,コード-コード拡張技術を採用している。
論文 参考訳(メタデータ) (2024-07-23T07:22:25Z) - UniGen: A Unified Framework for Textual Dataset Generation Using Large Language Models [88.16197692794707]
UniGenは、多様で正確で高度に制御可能なデータセットを作成するように設計された包括的なフレームワークである。
データ多様性を強化するため、UniGenは属性誘導生成モジュールとグループチェック機能を備えている。
大規模な実験は、UniGenによって生成されたデータの優れた品質を示す。
論文 参考訳(メタデータ) (2024-06-27T07:56:44Z) - AssertionBench: A Benchmark to Evaluate Large-Language Models for Assertion Generation [6.3585378855805725]
本稿では,アサーション生成におけるLarge-Language Modelsの有効性を評価するための新しいベンチマークを提案する。
AssertioBenchにはOpenCoresから100のキュレートされたVerilogハードウェア設計が含まれており、GoldMineとHARMから生成された各設計について正式に承認されている。
論文 参考訳(メタデータ) (2024-06-26T14:47:28Z) - CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.37076502395699]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。
まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。
CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文 参考訳(メタデータ) (2024-06-20T16:59:52Z) - Code Agents are State of the Art Software Testers [10.730852617039451]
ユーザ問題をテストケースに形式化するLLMベースのコードエージェントについて検討する。
私たちは人気のあるGitHubリポジトリに基づいた新しいベンチマークを提案し、現実世界の問題、地味なパッチ、ゴールデンテストを含む。
LLMは一般的に、コード修復用に設計されたCode Agentsを使って、関連するテストケースを生成するのに驚くほどうまく機能します。
論文 参考訳(メタデータ) (2024-06-18T14:54:37Z) - RAG Does Not Work for Enterprises [0.0]
Retrieval-Augmented Generation (RAG)は、知識検索を取り入れた大規模言語モデル出力の精度と妥当性を向上させる。
企業におけるRAGの実装は、データセキュリティ、正確性、スケーラビリティ、統合に関する課題を引き起こす。
本稿では、エンタープライズRAGのユニークな要件について検討し、現在のアプローチと限界を調査し、セマンティック検索、ハイブリッドクエリ、最適化された検索の潜在的な進歩について考察する。
論文 参考訳(メタデータ) (2024-05-31T23:30:52Z) - Generative AI Agent for Next-Generation MIMO Design: Fundamentals, Challenges, and Vision [76.4345564864002]
次世代の多重入力多重出力(MIMO)はインテリジェントでスケーラブルであることが期待される。
本稿では、カスタマイズされた特殊コンテンツを生成することができる生成型AIエージェントの概念を提案する。
本稿では、生成AIエージェントをパフォーマンス分析に活用することの有効性を示す2つの説得力のあるケーススタディを示す。
論文 参考訳(メタデータ) (2024-04-13T02:39:36Z) - When LLM-based Code Generation Meets the Software Development Process [50.82665351100067]
本稿では,ソフトウェア工学の確立した実践に触発されたコード生成フレームワークであるLCGを紹介する。
LLMエージェントは、LCGWaterfall、LCGTDD、LCGScrumといった様々なソフトウェアプロセスモデルをエミュレートする。
我々は,HumanEval,HumanEval-ET,MBPP,MBPP-ETの4つのコード生成ベンチマークでLCGを評価した。
論文 参考訳(メタデータ) (2024-03-23T14:04:48Z) - CCA: Collaborative Competitive Agents for Image Editing [59.54347952062684]
本稿では,CCA(Collaborative Competitive Agents)の新たな生成モデルを提案する。
複数のLarge Language Models (LLM) ベースのエージェントを使って複雑なタスクを実行する。
この論文の主な貢献は、制御可能な中間ステップと反復最適化を備えたマルチエージェントベースの生成モデルの導入である。
論文 参考訳(メタデータ) (2024-01-23T11:46:28Z) - Parameterless Gene-pool Optimal Mixing Evolutionary Algorithms [0.0]
我々は、GOMEA(Gene-pool Optimal Mixing Evoutionary Algorithm)の最新バージョンを提示し、大幅な改良を提案する。
GOMEA と CGOMEA はオリジナルの GOMEA と DSMGA-II よりも高い性能を示した。
論文 参考訳(メタデータ) (2021-09-11T11:35:14Z) - Control, Generate, Augment: A Scalable Framework for Multi-Attribute
Text Generation [22.70189685469752]
我々は条件付きVAEアーキテクチャであるCGAを導入し、テキストを制御、生成、拡張する。
アブレーション研究において,個々のモデル成分の値を示す。
生成した文の質,多様性,属性の制御を,一連の自動評価および人的評価を通じて示す。
論文 参考訳(メタデータ) (2020-04-30T17:31:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。