Fugu-MT 論文翻訳(概要): A Study of Using Multimodal LLMs for Non-Crash Functional Bug Detection in Android Apps

論文の概要: A Study of Using Multimodal LLMs for Non-Crash Functional Bug Detection in Android Apps

arxiv url: http://arxiv.org/abs/2407.19053v1
Date: Fri, 26 Jul 2024 19:18:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-30 20:02:28.883323
Title: A Study of Using Multimodal LLMs for Non-Crash Functional Bug Detection in Android Apps
Title（参考訳）: Androidアプリにおける非クラッシュ機能バグ検出のためのマルチモーダルLCMの検討
Authors: Bangyan Ju, Jin Yang, Tingting Yu, Tamerlan Abdullayev, Yuanyuan Wu, Dingbang Wang, Yu Zhao,
Abstract要約: 本研究は,Androidアプリの非クラッシュ機能(NCF)バグを検出するために,大規模言語モデル(LLM)をオーラクルとして活用する能力を実証的に検討する。 71のNCFバグに対して,AndroidアプリのNCFバグ検出におけるLCMsの有効性を検討するための総合的研究を行った。 64のAndroidアプリで24の既知のNCFバグを検出し、そのうち4つのバグが確認または修正されました。
参考スコア（独自算出の注目度）: 6.490384059173902
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Numerous approaches employing various strategies have been developed to test the graphical user interfaces (GUIs) of mobile apps. However, traditional GUI testing techniques, such as random and model-based testing, primarily focus on generating test sequences that excel in achieving high code coverage but often fail to act as effective test oracles for non-crash functional (NCF) bug detection. To tackle these limitations, this study empirically investigates the capability of leveraging large language models (LLMs) to be test oracles to detect NCF bugs in Android apps. Our intuition is that the training corpora of LLMs, encompassing extensive mobile app usage and bug report descriptions, enable them with the domain knowledge relevant to NCF bug detection. We conducted a comprehensive empirical study to explore the effectiveness of LLMs as test oracles for detecting NCF bugs in Android apps on 71 well-documented NCF bugs. The results demonstrated that LLMs achieve a 49% bug detection rate, outperforming existing tools for detecting NCF bugs in Android apps. Additionally, by leveraging LLMs to be test oracles, we successfully detected 24 previously unknown NCF bugs in 64 Android apps, with four of these bugs being confirmed or fixed. However, we also identified limitations of LLMs, primarily related to performance degradation, inherent randomness, and false positives. Our study highlights the potential of leveraging LLMs as test oracles for Android NCF bug detection and suggests directions for future research.
Abstract（参考訳）: モバイルアプリのグラフィカルユーザインタフェース(GUI)をテストするために,様々な戦略を用いた多くのアプローチが開発されている。しかし、乱数やモデルベースのテストのような従来のGUIテスト技術は、主に高いコードカバレッジを達成するのに優れているが、非クラッシュ機能(NCF)バグ検出の効果的なテストオラクルとして機能しないテストシーケンスを生成することに重点を置いている。これらの制限に対処するため,本研究では,AndroidアプリのNCFバグを検出するために,大規模な言語モデル(LLM)をオーラクルとして活用する能力を実証的に検討した。我々の直感は、広範囲のモバイルアプリ使用やバグレポート記述を含むLLMのトレーニングコーパスによって、NCFバグ検出に関連するドメイン知識を活用できるということです。 71個のNCFバグに対して,AndroidアプリのNCFバグを検出するための試薬としてLLMの有効性を検討するための総合的研究を行った。その結果、LSMは49%のバグ検出率を実現しており、AndroidアプリのNCFバグを検出する既存のツールよりも優れていた。さらに、LLMをオーラクルとして活用することで、64のAndroidアプリで、これまで未知のNCFバグが24件検出され、そのうち4件が確認または修正されました。しかし, LLMの限界は, 主に性能劣化, 固有のランダム性, 偽陽性に関係している。本研究は,Android NCFバグ検出におけるLCMをテストオーラクルとして活用する可能性を強調し,今後の研究の方向性を提案する。

関連論文リスト

The Foundation Cracks: A Comprehensive Study on Bugs and Testing Practices in LLM Libraries [37.57398329330302]
大規模言語モデル(LLM)ライブラリは、今日のAI革命を支える基盤インフラストラクチャとして登場した。 LLMエコシステムにおけるそれらの重要な役割にもかかわらず、これらのライブラリは、それら上に構築されたAIシステムの信頼性を脅かすような、頻繁な品質の問題とバグに直面している。本稿では,近代LLMライブラリにおけるバグの特徴とテスト実践に関する総合的研究について紹介する。
論文参考訳（メタデータ） (2025-06-14T03:00:36Z)
MMLU-CF: A Contamination-free Multi-task Language Understanding Benchmark [57.999567012489706]
我々は,MMLU-CFと呼ばれる汚染のない,より困難なベンチマークを提案する。このベンチマークは、意図しないデータ漏洩と悪意のないデータ漏洩の両方を回避することで、LLMの世界の知識に対する理解を再評価する。 GPT-4o は 5 ショットスコア73.4% と 0 ショットスコア71.9% しか達成できない。
論文参考訳（メタデータ） (2024-12-19T18:58:04Z)
Design choices made by LLM-based test generators prevent them from finding bugs [0.850206009406913]
本稿は,最近のLCMベースのテスト生成ツールであるCodium CoverAgentやCoverUpが,効果的にバグを見つけたり,意図せずに欠陥コードを検証することができるかどうかを,批判的に検証する。実際の人手によるバグ検出コードを入力として使用すると、これらのツールを評価し、LCM生成テストがバグの検出に失敗する可能性を示し、さらに警告として、生成されたテストスイートのバグを検証することで、その設計が状況を悪化させる可能性があることを示します。
論文参考訳（メタデータ） (2024-12-18T18:33:26Z)
Test smells in LLM-Generated Unit Tests [11.517293765116307]
本研究では,大規模言語モデルの生成した単体テストスイートにおけるテストの匂いの拡散について検討する。 5つのプロンプトエンジニアリング技術で4つのモデルで生成された20,500 LLM生成テストスイートのベンチマークを解析した。我々は,LLM生成テストスイートと筆記テストスイートの両方において,種々のテスト匂いの出現頻度と発生頻度を同定し,解析する。
論文参考訳（メタデータ） (2024-10-14T15:35:44Z)
Rethinking the Influence of Source Code on Test Case Generation [22.168699378889148]
大規模言語モデル(LLM)は、コンテキストとして提供されるテスト対象のソースコードでテスト生成を支援するために広く応用されている。テスト中のソースコードが間違っていれば、LLMはテストの生成時に誤用されるだろうか? 評価結果から, 誤りコードは, 正しい, 高いカバレッジ, バグ修正テストを生成する際に, LLMを著しく誤解させる可能性が示唆された。
論文参考訳（メタデータ） (2024-09-14T15:17:34Z)
Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。 11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文参考訳（メタデータ） (2024-07-23T15:31:26Z)
Large-scale, Independent and Comprehensive study of the power of LLMs for test case generation [11.517293765116307]
ユニットテストはソフトウェアの信頼性に不可欠だが、手動のテスト作成には時間がかかり、しばしば無視される。本研究は,LLM生成単体テストの大規模評価をクラスレベルで行った最初の大規模評価である。
論文参考訳（メタデータ） (2024-06-28T20:38:41Z)
AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文参考訳（メタデータ） (2024-06-24T15:16:45Z)
Anomaly Detection of Tabular Data Using LLMs [54.470648484612866]
我々は,事前訓練された大規模言語モデル (LLM) がゼロショットバッチレベルの異常検出器であることを示す。本稿では,実異常検出におけるLCMの潜在性を明らかにするために,エンドツーエンドの微調整手法を提案する。
論文参考訳（メタデータ） (2024-06-24T04:17:03Z)
TOGLL: Correct and Strong Test Oracle Generation with LLMs [0.8057006406834466]
テストオラクルはソフトウェアテストにおいて重要な役割を担い、効果的なバグ検出を可能にします。初期の約束にもかかわらず、自動テストオラクル生成のための神経ベースの手法は、しばしば多数の偽陽性をもたらす。本研究は,LLMの正当性,多種多様性,強靭性テストオラクルの創出能力に関する総合的研究である。
論文参考訳（メタデータ） (2024-05-06T18:37:35Z)
GPT-HateCheck: Can LLMs Write Better Functional Tests for Hate Speech Detection? [50.53312866647302]
HateCheckは、合成データに対してきめ細かいモデル機能をテストするスイートである。 GPT-HateCheckは,スクラッチからより多彩で現実的な機能テストを生成するフレームワークである。クラウドソースのアノテーションは、生成されたテストケースが高品質であることを示しています。
論文参考訳（メタデータ） (2024-02-23T10:02:01Z)
DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。 C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文参考訳（メタデータ） (2024-01-09T15:46:38Z)
Effective Test Generation Using Pre-trained Large Language Models and Mutation Testing [13.743062498008555]
大規模言語モデル(LLM)が生成するテストケースの有効性を,バグの発見の観点から改善するための MuTAP を導入する。 MuTAPは、プログラム・アンダー・テスト(PUT)の自然言語記述がない場合に有効なテストケースを生成することができる提案手法は, 最大28%の人書きコードスニペットを検出できることを示す。
論文参考訳（メタデータ） (2023-08-31T08:48:31Z)
LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文参考訳（メタデータ） (2023-05-23T21:50:06Z)
Large Language Models are Few-shot Testers: Exploring LLM-based General Bug Reproduction [14.444294152595429]
問題によりオープンソースリポジトリに追加されたテストの数は、対応するプロジェクトテストスイートサイズの約28%であった。本稿では,Large Language Models (LLMs) を用いたLIBROを提案する。 LIBROの評価は、広く研究されているDefects4Jベンチマークにおいて、全ての研究ケースの33%で障害再現テストケースを生成することができることを示している。
論文参考訳（メタデータ） (2022-09-23T10:50:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。