Fugu-MT 論文翻訳(概要): On the Effectiveness of LLMs for Manual Test Verifications

論文の概要: On the Effectiveness of LLMs for Manual Test Verifications

arxiv url: http://arxiv.org/abs/2409.12405v1
Date: Thu, 19 Sep 2024 02:03:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-07 15:03:37.756484
Title: On the Effectiveness of LLMs for Manual Test Verifications
Title（参考訳）: 手動テスト検証におけるLLMの有効性について
Authors: Myron David Lucena Campos Peixoto, Davy de Medeiros Baia, Nathalia Nascimento, Paulo Alencar, Baldoino Fonseca, Márcio Ribeiro,
Abstract要約: 本研究の目的は,手動テストの検証にLarge Language Models (LLMs) を用いることである。オープンソースモデル Mistral-7B と Phi-3-mini-4k は、クローズドソースモデルと同等の有効性と一貫性を示した。 AI幻覚にも懸念があり、検証は期待から著しく逸脱した。
参考スコア（独自算出の注目度）: 1.920300814128832
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Background: Manual testing is vital for detecting issues missed by automated tests, but specifying accurate verifications is challenging. Aims: This study aims to explore the use of Large Language Models (LLMs) to produce verifications for manual tests. Method: We conducted two independent and complementary exploratory studies. The first study involved using 2 closed-source and 6 open-source LLMs to generate verifications for manual test steps and evaluate their similarity to original verifications. The second study involved recruiting software testing professionals to assess their perception and agreement with the generated verifications compared to the original ones. Results: The open-source models Mistral-7B and Phi-3-mini-4k demonstrated effectiveness and consistency comparable to closed-source models like Gemini-1.5-flash and GPT-3.5-turbo in generating manual test verifications. However, the agreement level among professional testers was slightly above 40%, indicating both promise and room for improvement. While some LLM-generated verifications were considered better than the originals, there were also concerns about AI hallucinations, where verifications significantly deviated from expectations. Conclusion: We contributed by generating a dataset of 37,040 test verifications using 8 different LLMs. Although the models show potential, the relatively modest 40% agreement level highlights the need for further refinement. Enhancing the accuracy, relevance, and clarity of the generated verifications is crucial to ensure greater reliability in real-world testing scenarios.
Abstract（参考訳）: 背景: 自動テストで見逃された問題を検出するためには手動テストが不可欠だが、正確な検証の特定は難しい。 Aims: この研究は、手動テストの検証を作成するために、LLM(Large Language Models)の使用を検討することを目的としています。方法:2つの独立・相補的な探索的研究を行った。最初の研究は、2つのクローズドソースと6つのオープンソースLCMを使用して、手動テストステップの検証を生成し、元の検証と類似性を評価することである。第2の研究では、ソフトウェアテストのプロフェッショナルを採用して、生成した検証に対する認識と合意を評価する。結果: オープンソースモデル Mistral-7B と Phi-3-mini-4k は、手動テスト検証を生成する上で、Gemini-1.5-flash や GPT-3.5-turbo のようなクローズドソースモデルと同等の有効性と一貫性を示した。しかしながら、プロのテスタ間の合意レベルは40%をわずかに上回り、改善の約束と余地を示した。一部のLCM生成検証はオリジナルのものよりも優れていると考えられていたが、AI幻覚にも懸念があり、検証は期待から著しく逸脱した。結論: 8つの異なるLLMを用いて37,040の検証データセットを生成した。モデルは潜在的な可能性を示しているが、比較的控えめな40%の合意レベルでは、さらなる改善の必要性が浮き彫りになっている。生成された検証の正確性、妥当性、明確性を高めることは、実世界のテストシナリオにおける信頼性を高めるために重要です。

関連論文リスト

Evaluating open-source Large Language Models for automated fact-checking [0.13499500088995461]
大規模言語モデル(LLM)は、自動ファクトチェックの潜在的なツールとして登場した。本研究は,異なるレベルの文脈情報を用いてクレームを評価する能力に焦点をあてる。
論文参考訳（メタデータ） (2025-03-07T16:45:33Z)
Challenges in Testing Large Language Model Based Software: A Faceted Taxonomy [14.041979999979166]
LLM(Large Language Models)とMulti-Agent LLM(MALLMs)は、従来の機械学習ソフトウェアとは異なり、非決定性を導入している。本稿では, LLMテストケース設計の分類について, 研究文献, 経験, 実践状況を表すオープンソースツールの両面から報告する。
論文参考訳（メタデータ） (2025-03-01T13:15:56Z)
S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文参考訳（メタデータ） (2025-02-18T13:40:22Z)
LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。 LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文参考訳（メタデータ） (2024-12-29T06:32:36Z)
GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。 GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文参考訳（メタデータ） (2024-10-11T03:05:06Z)
Exploring and Lifting the Robustness of LLM-powered Automated Program Repair with Metamorphic Testing [31.165102332393964]
大規模言語モデルを用いた自動プログラム修復(LAPR)技術は、最先端のバグ修正性能を達成した。実際に展開する前に、LAPR技術で堅牢性テストを実施することが不可欠である。 LAPR技術専用のメタモルフィックテスティングフレームワークであるMT-LAPRを提案する。
論文参考訳（メタデータ） (2024-10-10T01:14:58Z)
Knowledge-based Consistency Testing of Large Language Models [2.9699290794642366]
我々は,大規模言語モデル(LLM)の不整合性と知識ギャップを系統的に公開し,測定する。テストケースを構築するために知識グラフを活用する自動テストフレームワーク(KonTest)を提案する。さらに, GPT3.5は知識構築において60%-68%しか有効ではないため, 知識ベース一貫性試験には適さないことを示した。
論文参考訳（メタデータ） (2024-07-03T11:16:54Z)
Large-scale, Independent and Comprehensive study of the power of LLMs for test case generation [11.056044348209483]
クラスやメソッドなどのコードモジュールのバグを特定するのに不可欠なユニットテストは、時間的制約のため、開発者によって無視されることが多い。 GPTやMistralのようなLarge Language Models (LLM)は、テスト生成を含むソフトウェア工学における約束を示す。
論文参考訳（メタデータ） (2024-06-28T20:38:41Z)
UBENCH: Benchmarking Uncertainty in Large Language Models with Multiple Choice Questions [10.28688988951815]
UBENCHは、大きな言語モデルを評価するためのベンチマークである。これには、知識、言語、理解、推論能力に関する3,978の質問が含まれている。また,15個のLPMの信頼性を評価し,GLM4が最も優れていることを発見した。
論文参考訳（メタデータ） (2024-06-18T16:50:38Z)
Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文参考訳（メタデータ） (2024-06-07T11:37:45Z)
RLAIF-V: Aligning MLLMs through Open-Source AI Feedback for Super GPT-4V Trustworthiness [94.03511733306296]
我々は,MLLMを超GPT-4V信頼性のための完全なオープンソースパラダイムに整合させるフレームワークであるRLAIF-Vを紹介する。 RLAIF-Vは、高品質なフィードバックデータとオンラインフィードバック学習アルゴリズムを含む、2つの観点から、オープンソースフィードバックを最大限活用する。実験により、RLAIF-Vは、他のタスクのパフォーマンスを犠牲にすることなく、モデルの信頼性を大幅に向上することが示された。
論文参考訳（メタデータ） (2024-05-27T14:37:01Z)
Exploring the use of a Large Language Model for data extraction in systematic reviews: a rapid feasibility study [0.28318468414401093]
本稿では,大規模言語モデル (LLM) である GPT-4 を用いて,体系的レビューにおけるデータ抽出(セミ)の実現可能性について述べる。その結果,約80%の精度で,領域間での変動が認められた。
論文参考訳（メタデータ） (2024-05-23T11:24:23Z)
How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。 GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文参考訳（メタデータ） (2024-02-20T18:31:27Z)
Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。我々はLSMに答えを自己評価するように指示する。自己評価に基づくスコアリング手法をベンチマークする。
論文参考訳（メタデータ） (2023-12-14T19:09:22Z)
Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis, and LLMs Evaluations [111.88727295707454]
本稿では,NLP分野におけるアウト・オブ・ディストリビューション(OOD)のロバスト性に関する研究を再検討する。本稿では, 明確な分化と分散の困難さを保証するための, ベンチマーク構築プロトコルを提案する。我々は,OODロバスト性の分析と評価のための事前学習言語モデルの実験を行った。
論文参考訳（メタデータ） (2023-06-07T17:47:03Z)
Manual Evaluation Matters: Reviewing Test Protocols of Distantly Supervised Relation Extraction [61.48964753725744]
2つのDS-REデータセット(NYT10とWiki20)に対して手動でアノテートしたテストセットを構築し、いくつかの競合モデルを徹底的に評価する。その結果,手動による評価は,自動的な評価とは全く異なる結論を示すことがわかった。
論文参考訳（メタデータ） (2021-05-20T06:55:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。