論文の概要: LLM-CompDroid: Repairing Configuration Compatibility Bugs in Android
Apps with Pre-trained Large Language Models
- arxiv url: http://arxiv.org/abs/2402.15078v1
- Date: Fri, 23 Feb 2024 03:51:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 15:51:25.790493
- Title: LLM-CompDroid: Repairing Configuration Compatibility Bugs in Android
Apps with Pre-trained Large Language Models
- Title(参考訳): LLM-CompDroid: 事前訓練された大規模言語モデルによるAndroidアプリの構成互換性バグの修復
- Authors: Zhijie Liu, Yutian Tang, Meiyun Li, Xin Jin, Yunfei Long, Liang Feng
Zhang, Xiapu Luo
- Abstract要約: LLMの長所と従来のバグ解決ツールを組み合わせたLLM-CompDroidフレームワークを紹介する。
LLM-CompDroidによるバグ解決性能の大幅な向上を示す実験結果を得た。
この革新的なアプローチは、Androidアプリケーションの信頼性と堅牢性を向上させることを約束している。
- 参考スコア(独自算出の注目度): 34.23051590289707
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: XML configurations are integral to the Android development framework,
particularly in the realm of UI display. However, these configurations can
introduce compatibility issues (bugs), resulting in divergent visual outcomes
and system crashes across various Android API versions (levels). In this study,
we systematically investigate LLM-based approaches for detecting and repairing
configuration compatibility bugs. Our findings highlight certain limitations of
LLMs in effectively identifying and resolving these bugs, while also revealing
their potential in addressing complex, hard-to-repair issues that traditional
tools struggle with. Leveraging these insights, we introduce the LLM-CompDroid
framework, which combines the strengths of LLMs and traditional tools for bug
resolution. Our experimental results demonstrate a significant enhancement in
bug resolution performance by LLM-CompDroid, with LLM-CompDroid-GPT-3.5 and
LLM-CompDroid-GPT-4 surpassing the state-of-the-art tool, ConfFix, by at least
9.8% and 10.4% in both Correct and Correct@k metrics, respectively. This
innovative approach holds promise for advancing the reliability and robustness
of Android applications, making a valuable contribution to the field of
software development.
- Abstract(参考訳): XML設定は、特にUIディスプレイの領域において、Android開発フレームワークに不可欠なものである。
しかし、これらの構成は互換性の問題(バグ)を導入し、その結果、さまざまなAndroid APIバージョン(レベル)で視覚的な結果とシステムがクラッシュする。
本研究では,LCMに基づく構成互換性バグの検出と修復のためのアプローチを系統的に検討する。
我々の研究は、これらのバグを効果的に識別し解決する上でのLLMのある種の制限を強調し、また従来のツールが抱える複雑で不適切な問題に対処する可能性を明らかにした。
これらの知見を生かして,LLMの長所と従来のバグ解決ツールを組み合わせたLLM-CompDroidフレームワークを導入する。
LLM-CompDroid-GPT-3.5 と LLM-CompDroid-GPT-4 は最先端ツールConfFix を9.8%以上,Correct@k は10.4%以上上回った。
この革新的なアプローチは、androidアプリケーションの信頼性と堅牢性の向上を約束し、ソフトウェア開発の分野に貴重な貢献をしている。
関連論文リスト
- Robust Planning with Compound LLM Architectures: An LLM-Modulo Approach [17.888087571630933]
以前の作業では、計画とスケジューリングタスクにおいて、LLM(Large Language Model)のパフォーマンスを向上しようと試みていた。
LLM-Modulo フレームワークを用いた複合 LLM アーキテクチャの技術的評価を行う。
論文 参考訳(メタデータ) (2024-11-20T02:04:09Z) - CONGRA: Benchmarking Automatic Conflict Resolution [3.9910625211670485]
ConGraは、ソフトウェアマージツールのパフォーマンスを評価するために設計されたベンチマークスキームである。
我々は34の現実世界プロジェクトから44,948のコンフリクトに基づいて大規模な評価データセットを構築した。
論文 参考訳(メタデータ) (2024-09-21T12:21:41Z) - CodeEditorBench: Evaluating Code Editing Capability of Large Language Models [49.387195629660994]
コードのための大規模言語モデル(LLM)は急速に進化しており、コード編集が重要な機能として現れている。
コード編集タスクにおけるLLMの性能を厳格に評価するための評価フレームワークであるCodeEditorBenchを紹介する。
5つのソースからさまざまなコーディング課題やシナリオをキュレートし、さまざまなプログラミング言語、複雑性レベル、編集タスクをカバーしています。
論文 参考訳(メタデータ) (2024-04-04T15:49:49Z) - DevBench: A Comprehensive Benchmark for Software Development [72.24266814625685]
DevBenchは、ソフトウェア開発ライフサイクルのさまざまな段階にわたる大規模言語モデル(LLM)を評価するベンチマークである。
GPT-4-Turboを含む現在のLLMは、DevBench内での課題の解決に失敗している。
本研究は,LLMを現実のプログラミングアプリケーションに展開する上で,現実的な知見を提供するものである。
論文 参考訳(メタデータ) (2024-03-13T15:13:44Z) - PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - Learning to Edit: Aligning LLMs with Knowledge Editing [101.96620267293731]
本稿では,大規模言語モデルに新たな知識を入力問題に適用する学習 to LTE(Learning to Edit)フレームワークを提案する。
LTEには2段階のプロセスがある: (i) アライメントフェーズ(アライメントフェーズ)。
LTEの知識編集性能の優位性、バッチおよびシーケンシャルな編集の堅牢性、一般的なタスクに対する最小限の干渉、高速な編集速度を示す。
論文 参考訳(メタデータ) (2024-02-19T07:45:17Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - Evaluating Diverse Large Language Models for Automatic and General Bug
Reproduction [12.851941377433285]
大規模言語モデル(LLM)は自然言語処理やコード生成に適していることが証明されている。
提案手法は,広く使用されているDefects4Jベンチマークにおいて,全バグの約3分の1を再現することができた。
論文 参考訳(メタデータ) (2023-11-08T08:42:30Z) - ChatGPT vs SBST: A Comparative Assessment of Unit Test Suite Generation [25.200080365022153]
本稿では,ChatGPT LLM と最先端 SBST ツール EvoSuite によるテストスイートの体系的比較を行う。
私たちの比較は、正確性、可読性、コードカバレッジ、バグ検出機能など、いくつかの重要な要素に基づいています。
論文 参考訳(メタデータ) (2023-07-02T15:09:40Z) - Towards Generating Functionally Correct Code Edits from Natural Language
Issue Descriptions [11.327913840111378]
Defects4J-NL2Fixは、人気のあるDefects4Jデータセットから283のJavaプログラムのデータセットで、バグ修正の高レベルな記述を付加します。
本研究は,この課題に対するいくつかの最先端LCMの性能を実証的に評価する。
論文 参考訳(メタデータ) (2023-04-07T18:58:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。