Fugu-MT 論文翻訳(概要): N-Version Assessment and Enhancement of Generative AI

論文の概要: N-Version Assessment and Enhancement of Generative AI

arxiv url: http://arxiv.org/abs/2409.14071v1
Date: Mon, 30 Sep 2024 07:35:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-07 03:44:25.414911
Title: N-Version Assessment and Enhancement of Generative AI
Title（参考訳）: 生成AIのN-Versionアセスメントと強化
Authors: Marcus Kessel, Colin Atkinson,
Abstract要約: ジェネレーティブAI(GAI)は、ソフトウェアエンジニアリングの生産性を向上させる大きな可能性を秘めている。 GAI生成アーティファクトの広範な検証と検証(V&V)の必要性は、潜在的な生産性向上を損なう可能性がある。本稿では、GAIが複数バージョンのコードとテストを生成する能力を利用して、これらのリスクを軽減する方法を提案する。
参考スコア（独自算出の注目度）: 2.4861619769660637
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Generative AI (GAI) holds great potential to improve software engineering productivity, but its untrustworthy outputs, particularly in code synthesis, pose significant challenges. The need for extensive verification and validation (V&V) of GAI-generated artifacts may undermine the potential productivity gains. This paper proposes a way of mitigating these risks by exploiting GAI's ability to generate multiple versions of code and tests to facilitate comparative analysis across versions. Rather than relying on the quality of a single test or code module, this "differential GAI" (D-GAI) approach promotes more reliable quality evaluation through version diversity. We introduce the Large-Scale Software Observatorium (LASSO), a platform that supports D-GAI by executing and analyzing large sets of code versions and tests. We discuss how LASSO enables rigorous evaluation of GAI-generated artifacts and propose its application in both software development and GAI research.
Abstract（参考訳）: 生成AI(GAI)は、ソフトウェアエンジニアリングの生産性を向上させる大きな可能性を秘めている。 GAI生成アーティファクトの広範な検証と検証(V&V)の必要性は、潜在的な生産性向上を損なう可能性がある。本稿では,複数のバージョンのコードとテストを生成するGAIの能力を利用して,これらのリスクを軽減し,バージョン間の比較分析を容易にする手法を提案する。単一のテストやコードモジュールの品質に頼るのではなく、この"差分GAI"(D-GAI)アプローチは、バージョン多様性を通じてより信頼性の高い品質評価を促進する。我々は,大規模ソフトウェアオブザーバリアム(LASSO)を紹介した。これはD-GAIをサポートするプラットフォームで,大規模なコードバージョンとテストを実行することによって,D-GAIをサポートする。本稿では,GAI 生成物の厳密な評価を可能にする LASSO について論じ,ソフトウェア開発と GAI 研究への応用を提案する。

関連論文リスト

A Deep Dive into Retrieval-Augmented Generation for Code Completion: Experience on WeChat [16.059798732980347]
Retrieval-augmented Generation (RAG) は、大規模言語モデル(LLM)のコード補完能力を向上するための有望な方法として登場した。 WeChatの産業規模におけるコード補完に広く用いられているRAG法の性能について,実証的研究を行った。
論文参考訳（メタデータ） (2025-07-24T15:36:31Z)
Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文参考訳（メタデータ） (2025-05-28T17:57:47Z)
Human-In-The-Loop Software Development Agents: Challenges and Future Directions [14.81934634773595]
Atlassianでは、Jiraの作業項目を解決するためにHuman-in-the-Loop Software Development Agentsをデプロイしました。本稿では,LLMに基づく評価において,単体テストの計算コストが高いことと,変動性という2つの大きな課題を取り上げる。
論文参考訳（メタデータ） (2025-04-25T01:52:59Z)
Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文参考訳（メタデータ） (2025-03-31T07:31:32Z)
From Idea to Implementation: Evaluating the Influence of Large Language Models in Software Development -- An Opinion Paper [1.4237262259590389]
トランスアーキテクチャの導入は自然言語処理(NLP)の転換点となった。 ChatGPT や Bard などの大規模言語モデル (LLM) が一般向けに公開されており、これらのモデルの膨大な可能性を示している。専門家の全体的な意見は肯定的であり、生産性の向上やコーディング時間の短縮といったメリットを専門家が特定している。
論文参考訳（メタデータ） (2025-03-10T15:30:05Z)
Scoring Verifiers: Evaluating Synthetic Verification for Code and Reasoning [59.25951947621526]
本稿では,既存の符号化ベンチマークをスコアとランキングデータセットに変換して,合成検証の有効性を評価する手法を提案する。我々は4つの新しいベンチマーク(HE-R, HE-R+, MBPP-R, MBPP-R+)を公表し, 標準, 推論, 報酬に基づくLCMを用いて合成検証手法を解析した。実験の結果, 推論はテストケースの生成を著しく改善し, テストケースのスケーリングによって検証精度が向上することがわかった。
論文参考訳（メタデータ） (2025-02-19T15:32:11Z)
On Iterative Evaluation and Enhancement of Code Quality Using GPT-4o [1.5960340244043023]
本稿では,Large Language Models (LLM) を利用したコード品質の反復評価と向上のための新しいフレームワークであるCodeQUESTを紹介する。フレームワークは2つの主要なコンポーネントに分割されている。10次元にわたるコード品質を評価し、定量スコアと定性的な要約の両方を提供する評価器。本研究は,CodeQUESTが既存のコード品質指標と整合して,コード品質を効果的かつ堅牢に評価できることを実証する。
論文参考訳（メタデータ） (2025-02-11T09:27:00Z)
Reward-RAG: Enhancing RAG with Reward Driven Supervision [43.66966457772646]
本稿では、Reward-Driven Supervisionを通じて、Retrieval-Augmented Generation(RAG)モデルを強化するために設計された新しいアプローチであるReward-RAGを紹介する。従来のRAG手法とは異なり,本手法ではCriticGPTを用いて検索情報を特定の領域に適応させ,専用報酬モデルを訓練する。この報酬モデルは、RAGを微調整するための合成データセットを生成し、その出力を人間の好みとより密に一致させる。
論文参考訳（メタデータ） (2024-10-03T15:26:50Z)
A Knowledge-Centric Benchmarking Framework and Empirical Study for Retrieval-Augmented Generation [4.359511178431438]
Retrieval-Augmented Generation (RAG)は、検索機構を統合することで生成モデルを強化する。その利点にもかかわらず、RAGは特に現実世界のクエリを効果的に処理する上で、大きな課題に直面している。本稿では,これらの課題に対処する新しいRAGベンチマークを提案する。
論文参考訳（メタデータ） (2024-09-03T03:31:37Z)
SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文参考訳（メタデータ） (2024-08-28T06:33:03Z)
UniGen: A Unified Framework for Textual Dataset Generation Using Large Language Models [88.16197692794707]
UniGenは、多様で正確で高度に制御可能なデータセットを作成するように設計された包括的なフレームワークである。データ多様性を強化するため、UniGenは属性誘導生成モジュールとグループチェック機能を備えている。大規模な実験は、UniGenによって生成されたデータの優れた品質を示す。
論文参考訳（メタデータ） (2024-06-27T07:56:44Z)
AssertionBench: A Benchmark to Evaluate Large-Language Models for Assertion Generation [6.3585378855805725]
本稿では,アサーション生成におけるLarge-Language Modelsの有効性を評価するための新しいベンチマークを提案する。 AssertioBenchにはOpenCoresから100のキュレートされたVerilogハードウェア設計が含まれており、GoldMineとHARMから生成された各設計について正式に承認されている。
論文参考訳（メタデータ） (2024-06-26T14:47:28Z)
CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.37076502395699]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。 CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文参考訳（メタデータ） (2024-06-20T16:59:52Z)
FlashRAG: A Modular Toolkit for Efficient Retrieval-Augmented Generation Research [70.6584488911715]
検索増強世代(RAG)は、かなりの研究関心を集めている。既存のRAGツールキットは、しばしば重くて柔軟であり、研究者のカスタマイズのニーズを満たすことができない。我々のツールキットは16の高度なRAGメソッドを実装し、38のベンチマークデータセットを収集し、整理した。
論文参考訳（メタデータ） (2024-05-22T12:12:40Z)
Generative AI Agent for Next-Generation MIMO Design: Fundamentals, Challenges, and Vision [76.4345564864002]
次世代の多重入力多重出力(MIMO)はインテリジェントでスケーラブルであることが期待される。本稿では、カスタマイズされた特殊コンテンツを生成することができる生成型AIエージェントの概念を提案する。本稿では、生成AIエージェントをパフォーマンス分析に活用することの有効性を示す2つの説得力のあるケーススタディを示す。
論文参考訳（メタデータ） (2024-04-13T02:39:36Z)
CodePori: Large-Scale System for Autonomous Software Development Using Multi-Agent Technology [4.2990995991059275]
大規模言語モデル(LLM)とGPT(Generative Pre-trained Transformer)は、ソフトウェア工学の分野を変えました。我々は,大規模かつ複雑なソフトウェアプロジェクトのコード生成を自動化するように設計された,新しいシステムであるCodePoriを紹介する。結果: CodePoriは、典型的なソフトウェア開発プロセスに合わせて、大規模プロジェクトの実行コードを生成することができる。
論文参考訳（メタデータ） (2024-02-02T13:42:50Z)
CCA: Collaborative Competitive Agents for Image Editing [59.54347952062684]
本稿では,CCA(Collaborative Competitive Agents)の新たな生成モデルを提案する。複数のLarge Language Models (LLM) ベースのエージェントを使って複雑なタスクを実行する。この論文の主な貢献は、制御可能な中間ステップと反復最適化を備えたマルチエージェントベースの生成モデルの導入である。
論文参考訳（メタデータ） (2024-01-23T11:46:28Z)
Domain-Expanded ASTE: Rethinking Generalization in Aspect Sentiment Triplet Extraction [67.54420015049732]
Aspect Sentiment Triplet extract (ASTE) は感情分析における課題であり、人間の感情に対するきめ細かい洞察を提供することを目的としている。既存のベンチマークは2つのドメインに限定されており、目に見えないドメイン上でのモデルパフォーマンスを評価しない。各種ドメインのサンプルに注釈を付けることでドメイン拡張ベンチマークを導入し,ドメイン内設定とドメイン外設定の両方でモデルの評価を可能にする。
論文参考訳（メタデータ） (2023-05-23T18:01:49Z)
Control, Generate, Augment: A Scalable Framework for Multi-Attribute Text Generation [22.70189685469752]
我々は条件付きVAEアーキテクチャであるCGAを導入し、テキストを制御、生成、拡張する。アブレーション研究において,個々のモデル成分の値を示す。生成した文の質,多様性,属性の制御を,一連の自動評価および人的評価を通じて示す。
論文参考訳（メタデータ） (2020-04-30T17:31:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。