Fugu-MT 論文翻訳(概要): Integrating Artificial Intelligence with Human Expertise: An In-depth Analysis of ChatGPT's Capabilities in Generating Metamorphic Relations

論文の概要: Integrating Artificial Intelligence with Human Expertise: An In-depth Analysis of ChatGPT's Capabilities in Generating Metamorphic Relations

arxiv url: http://arxiv.org/abs/2503.22141v1
Date: Fri, 28 Mar 2025 04:31:32 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-31 19:09:59.566404
Title: Integrating Artificial Intelligence with Human Expertise: An In-depth Analysis of ChatGPT's Capabilities in Generating Metamorphic Relations
Title（参考訳）: 人工知能と人間の専門知識の統合: メタモルフィック関係の生成におけるChatGPTの能力の詳細な分析
Authors: Yifan Zhang, Dave Towey, Matthew Pike, Quang-Hung Luu, Huai Liu, Tsong Yueh Chen,
Abstract要約: 本稿では OpenAI が開発した GPT モデルを用いて, メタモルフィック関係(MR)の生成と評価について詳細に検討する。本研究の目的は,システムアンダーテスト(SUT)におけるGPT-3.5とGPT-4のMRの品質を評価することである。
参考スコア（独自算出の注目度）: 9.77485804969139
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Context: This paper provides an in-depth examination of the generation and evaluation of Metamorphic Relations (MRs) using GPT models developed by OpenAI, with a particular focus on the capabilities of GPT-4 in software testing environments. Objective: The aim is to examine the quality of MRs produced by GPT-3.5 and GPT-4 for a specific System Under Test (SUT) adopted from an earlier study, and to introduce and apply an improved set of evaluation criteria for a diverse range of SUTs. Method: The initial phase evaluates MRs generated by GPT-3.5 and GPT-4 using criteria from a prior study, followed by an application of an enhanced evaluation framework on MRs created by GPT-4 for a diverse range of nine SUTs, varying from simple programs to complex systems incorporating AI/ML components. A custom-built GPT evaluator, alongside human evaluators, assessed the MRs, enabling a direct comparison between automated and human evaluation methods. Results: The study finds that GPT-4 outperforms GPT-3.5 in generating accurate and useful MRs. With the advanced evaluation criteria, GPT-4 demonstrates a significant ability to produce high-quality MRs across a wide range of SUTs, including complex systems incorporating AI/ML components. Conclusions: GPT-4 exhibits advanced capabilities in generating MRs suitable for various applications. The research underscores the growing potential of AI in software testing, particularly in the generation and evaluation of MRs, and points towards the complementarity of human and AI skills in this domain.
Abstract（参考訳）: コンテキスト: ソフトウェアテスト環境におけるGPT-4の機能に着目し, OpenAI が開発した GPT モデルを用いて, メタモルフィック関係(MR)の生成と評価について詳細に検討する。目的: 本研究は, GPT-3.5 と GPT-4 によるシステムアンダーテスト (SUT) におけるMR の質を検討することを目的としており, 各種 SUT の評価基準を改良し, 適用することを目的としている。方法: GPT-3.5 と GPT-4 が生成したMRを基準として評価し,その後にAI/ML コンポーネントを組み込んだ簡単なプログラムから複雑なシステムまで,GPT-4 が生成したMRに対する拡張評価フレームワークを適用した。カスタムビルドのGPT評価器は、人間の評価器とともにMRを評価し、自動化された評価方法と人的評価方法の直接比較を可能にした。結果: GPT-4はGPT-3.5より正確で有用なMRの生成に優れており, 高度な評価基準により, GPT-4はAI/MLコンポーネントを組み込んだ複雑なシステムを含む広範囲のSUTで高品質なMRを生成する重要な能力を示す。結論: GPT-4は様々な用途に適したMRを生成する高度な能力を示す。この研究は、ソフトウェアテスト、特にMRの生成と評価におけるAIの可能性の高まりを強調し、この領域における人間とAIのスキルの相補性に注目している。

関連論文リスト

AI-Augmented LLMs Achieve Therapist-Level Responses in Motivational Interviewing [9.629072515294661]
大規模言語モデル(LLM)は中毒治療における動機付け面接(MI)のスケーリングの可能性を示す。本稿では,ユーザ認識品質(UPQ)を評価するための計算フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-23T01:33:04Z)
A Unified Agentic Framework for Evaluating Conditional Image Generation [66.25099219134441]
コンディショナル画像生成は、コンテンツのパーソナライズ能力において大きな注目を集めている。本稿では,条件付き画像生成タスクを包括的に評価するための統合エージェントフレームワークCIGEvalを紹介する。
論文参考訳（メタデータ） (2025-04-09T17:04:14Z)
OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain [62.89809156574998]
金融分野において全方向自動RAGベンチマークであるOmniEvalを導入する。我々のベンチマークは多次元評価フレームワークによって特徴づけられる。実験では、広範囲なテストデータセットを含むOmniEvalの包括性を実証した。
論文参考訳（メタデータ） (2024-12-17T15:38:42Z)
ExACT: Teaching AI Agents to Explore with Reflective-MCTS and Exploratory Learning [78.42927884000673]
ExACTは、エージェントアプリケーションのためのo1のようなモデルを構築するために、テスト時間検索と自己学習を組み合わせるアプローチである。リフレクティブモンテカルロ木探索(Reflective Monte Carlo Tree Search, R-MCTS)は、AIエージェントがその場で意思決定空間を探索する能力を高めるために設計された新しいテストタイムアルゴリズムである。次に,探索学習(Exploratory Learning)という,外部探索アルゴリズムに頼らずに,エージェントに推論時間での探索を教える新しい学習戦略を紹介する。
論文参考訳（メタデータ） (2024-10-02T21:42:35Z)
GroUSE: A Benchmark to Evaluate Evaluators in Grounded Question Answering [0.0]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) をプライベートおよび最新の知識ベースと共に使用する共通のパラダイムとして登場した。本稿では,RAG システムによって生成される接地回答を評価する際に LLM-as-a-Judge を用いる際の課題に対処する。
論文参考訳（メタデータ） (2024-09-10T15:39:32Z)
Leveraging Professional Radiologists' Expertise to Enhance LLMs' Evaluation for Radiology Reports [22.599250713630333]
提案手法は,Large Language Models (LLMs) を用いた専門的放射線技師の専門知識を相乗化する。我々のアプローチは、LLM評価を放射線学の基準と整合させ、人間とAIが生成したレポートの詳細な比較を可能にする。実験の結果, 詳細な GPT-4 (5-shot) モデルでは0.48 のスコアが得られ, METEOR のスコアは0.19 を上回った。
論文参考訳（メタデータ） (2024-01-29T21:24:43Z)
A Systematic Evaluation of GPT-4V's Multimodal Capability for Medical Image Analysis [87.25494411021066]
医用画像解析のためのGPT-4Vのマルチモーダル機能の評価を行った。 GPT-4Vは医用画像の理解に優れ、高品質な放射線診断レポートを生成する。医用視覚接地の性能は大幅に改善する必要があることが判明した。
論文参考訳（メタデータ） (2023-10-31T11:39:09Z)
Exploring the Boundaries of GPT-4 in Radiology [46.30976153809968]
GPT-4は、複雑なコンテキストにおいて、時折エラーしか発生しない十分なレベルの放射線学知識を持っている。結果の要約では、GPT-4の出力は、既存の手書きのインプレッションと総合的に比較できる。
論文参考訳（メタデータ） (2023-10-23T05:13:03Z)
Evaluation Metrics in the Era of GPT-4: Reliably Evaluating Large Language Models on Sequence to Sequence Tasks [9.801767683867125]
我々は,3つのNLPベンチマークの予備的およびハイブリッドな評価を,自動評価と人的評価の両方を用いて提供する。 ChatGPTは、ほとんどのメトリクスにおいて、人間のレビュアーによって、他の人気のあるモデルよりも一貫して優れています。また、人間のレビュアーは、最高のモデルの出力よりも金の基準を格段に悪く評価し、多くの人気のあるベンチマークの品質が劣っていることを示している。
論文参考訳（メタデータ） (2023-10-20T20:17:09Z)
Towards a Complete Metamorphic Testing Pipeline [56.75969180129005]
システムアンダーテスト(SUT)の連続実行における入出力ペア間の関係を調べてテストオラクル問題に対処するメタモルフィックテスト(MT) これらの関係は、メタモルフィック関係 (MRs) と呼ばれ、特定の入力変化に起因する期待される出力変化を規定する。本研究の目的は,MR の生成,制約の定義,MR 結果の説明可能性の提供を支援する手法とツールの開発である。
論文参考訳（メタデータ） (2023-09-30T10:49:22Z)
The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) [121.42924593374127]
我々は,最新のモデルであるGPT-4Vを分析し,LMMの理解を深める。 GPT-4Vは、任意にインターリーブされたマルチモーダル入力を処理するという前例のない能力により、強力なマルチモーダルジェネラリストシステムとなっている。 GPT-4Vの、入力画像に描かれた視覚マーカーを理解するユニークな能力は、新しい人間とコンピュータの相互作用方法をもたらす。
論文参考訳（メタデータ） (2023-09-29T17:34:51Z)
GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文参考訳（メタデータ） (2023-03-15T17:15:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。