Fugu-MT 論文翻訳(概要): LLM-CompDroid: Repairing Configuration Compatibility Bugs in Android Apps with Pre-trained Large Language Models

論文の概要: LLM-CompDroid: Repairing Configuration Compatibility Bugs in Android Apps with Pre-trained Large Language Models

arxiv url: http://arxiv.org/abs/2402.15078v1
Date: Fri, 23 Feb 2024 03:51:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-26 15:51:25.790493
Title: LLM-CompDroid: Repairing Configuration Compatibility Bugs in Android Apps with Pre-trained Large Language Models
Title（参考訳）: LLM-CompDroid: 事前訓練された大規模言語モデルによるAndroidアプリの構成互換性バグの修復
Authors: Zhijie Liu, Yutian Tang, Meiyun Li, Xin Jin, Yunfei Long, Liang Feng Zhang, Xiapu Luo
Abstract要約: LLMの長所と従来のバグ解決ツールを組み合わせたLLM-CompDroidフレームワークを紹介する。 LLM-CompDroidによるバグ解決性能の大幅な向上を示す実験結果を得た。この革新的なアプローチは、Androidアプリケーションの信頼性と堅牢性を向上させることを約束している。
参考スコア（独自算出の注目度）: 34.23051590289707
License: http://creativecommons.org/licenses/by/4.0/
Abstract: XML configurations are integral to the Android development framework, particularly in the realm of UI display. However, these configurations can introduce compatibility issues (bugs), resulting in divergent visual outcomes and system crashes across various Android API versions (levels). In this study, we systematically investigate LLM-based approaches for detecting and repairing configuration compatibility bugs. Our findings highlight certain limitations of LLMs in effectively identifying and resolving these bugs, while also revealing their potential in addressing complex, hard-to-repair issues that traditional tools struggle with. Leveraging these insights, we introduce the LLM-CompDroid framework, which combines the strengths of LLMs and traditional tools for bug resolution. Our experimental results demonstrate a significant enhancement in bug resolution performance by LLM-CompDroid, with LLM-CompDroid-GPT-3.5 and LLM-CompDroid-GPT-4 surpassing the state-of-the-art tool, ConfFix, by at least 9.8% and 10.4% in both Correct and Correct@k metrics, respectively. This innovative approach holds promise for advancing the reliability and robustness of Android applications, making a valuable contribution to the field of software development.
Abstract（参考訳）: XML設定は、特にUIディスプレイの領域において、Android開発フレームワークに不可欠なものである。しかし、これらの構成は互換性の問題(バグ)を導入し、その結果、さまざまなAndroid APIバージョン(レベル)で視覚的な結果とシステムがクラッシュする。本研究では,LCMに基づく構成互換性バグの検出と修復のためのアプローチを系統的に検討する。我々の研究は、これらのバグを効果的に識別し解決する上でのLLMのある種の制限を強調し、また従来のツールが抱える複雑で不適切な問題に対処する可能性を明らかにした。これらの知見を生かして,LLMの長所と従来のバグ解決ツールを組み合わせたLLM-CompDroidフレームワークを導入する。 LLM-CompDroid-GPT-3.5 と LLM-CompDroid-GPT-4 は最先端ツールConfFix を9.8%以上,Correct@k は10.4%以上上回った。この革新的なアプローチは、androidアプリケーションの信頼性と堅牢性の向上を約束し、ソフトウェア開発の分野に貴重な貢献をしている。

関連論文リスト

A First Look at Bugs in LLM Inference Engines [20.52104110967081]
LLM推論エンジンにおけるバグに関する最初の実証的研究について述べる。我々は5つの広く採用されているLLM推論エンジンの公式リポジトリをマイニングし、現実世界のバグ929の包括的なデータセットを構築した。その結果,6つの主要なバグ症状と28の根本原因の分類が明らかとなり,バグの検出と位置に関する重要な課題に光を当てた。
論文参考訳（メタデータ） (2025-06-11T13:25:36Z)
PATCH: Empowering Large Language Model with Programmer-Intent Guidance and Collaborative-Behavior Simulation for Automatic Bug Fixing [34.768989900184636]
バグ修正は、ソフトウェア開発とメンテナンスにおいて重要な意味を持つ。最近の研究は、ソフトウェアバグを自動的に解決する大規模言語モデル(LLM)の可能性を探ることに大きく貢献している。
論文参考訳（メタデータ） (2025-01-27T15:43:04Z)
LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。 LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文参考訳（メタデータ） (2024-12-29T06:32:36Z)
ToolScan: A Benchmark for Characterizing Errors in Tool-Use LLMs [77.79172008184415]
TOOLSCANは、ツール使用タスクのLLM出力におけるエラーパターンを特定するための新しいベンチマークである。もっとも顕著なLCMでも,これらの誤りパターンが出力に現れることを示す。研究者たちは、TOOLSCANのこれらの洞察を使って、エラー軽減戦略をガイドすることができる。
論文参考訳（メタデータ） (2024-11-20T18:56:22Z)
Robust Planning with Compound LLM Architectures: An LLM-Modulo Approach [17.888087571630933]
以前の作業では、計画とスケジューリングタスクにおいて、LLM(Large Language Model)のパフォーマンスを向上しようと試みていた。 LLM-Modulo フレームワークを用いた複合 LLM アーキテクチャの技術的評価を行う。
論文参考訳（メタデータ） (2024-11-20T02:04:09Z)
CONGRA: Benchmarking Automatic Conflict Resolution [3.9910625211670485]
ConGraは、ソフトウェアマージツールのパフォーマンスを評価するために設計されたベンチマークスキームである。我々は34の現実世界プロジェクトから44,948のコンフリクトに基づいて大規模な評価データセットを構築した。
論文参考訳（メタデータ） (2024-09-21T12:21:41Z)
CodeEditorBench: Evaluating Code Editing Capability of Large Language Models [49.387195629660994]
コードのための大規模言語モデル(LLM)は急速に進化しており、コード編集が重要な機能として現れている。コード編集タスクにおけるLLMの性能を厳格に評価するための評価フレームワークであるCodeEditorBenchを紹介する。 5つのソースからさまざまなコーディング課題やシナリオをキュレートし、さまざまなプログラミング言語、複雑性レベル、編集タスクをカバーしています。
論文参考訳（メタデータ） (2024-04-04T15:49:49Z)
DevBench: A Comprehensive Benchmark for Software Development [72.24266814625685]
DevBenchは、ソフトウェア開発ライフサイクルのさまざまな段階にわたる大規模言語モデル(LLM)を評価するベンチマークである。 GPT-4-Turboを含む現在のLLMは、DevBench内での課題の解決に失敗している。本研究は,LLMを現実のプログラミングアプリケーションに展開する上で,現実的な知見を提供するものである。
論文参考訳（メタデータ） (2024-03-13T15:13:44Z)
PPTC-R benchmark: Towards Evaluating the Robustness of Large Language Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。 GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文参考訳（メタデータ） (2024-03-06T15:33:32Z)
Learning to Edit: Aligning LLMs with Knowledge Editing [101.96620267293731]
本稿では,大規模言語モデルに新たな知識を入力問題に適用する学習 to LTE(Learning to Edit)フレームワークを提案する。 LTEには2段階のプロセスがある: (i) アライメントフェーズ(アライメントフェーズ)。 LTEの知識編集性能の優位性、バッチおよびシーケンシャルな編集の堅牢性、一般的なタスクに対する最小限の干渉、高速な編集速度を示す。
論文参考訳（メタデータ） (2024-02-19T07:45:17Z)
ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。 LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文参考訳（メタデータ） (2023-11-16T12:03:21Z)
Evaluating Diverse Large Language Models for Automatic and General Bug Reproduction [12.851941377433285]
大規模言語モデル(LLM)は自然言語処理やコード生成に適していることが証明されている。提案手法は,広く使用されているDefects4Jベンチマークにおいて,全バグの約3分の1を再現することができた。
論文参考訳（メタデータ） (2023-11-08T08:42:30Z)
ChatGPT vs SBST: A Comparative Assessment of Unit Test Suite Generation [25.200080365022153]
本稿では,ChatGPT LLM と最先端 SBST ツール EvoSuite によるテストスイートの体系的比較を行う。私たちの比較は、正確性、可読性、コードカバレッジ、バグ検出機能など、いくつかの重要な要素に基づいています。
論文参考訳（メタデータ） (2023-07-02T15:09:40Z)
Towards Generating Functionally Correct Code Edits from Natural Language Issue Descriptions [11.327913840111378]
Defects4J-NL2Fixは、人気のあるDefects4Jデータセットから283のJavaプログラムのデータセットで、バグ修正の高レベルな記述を付加します。本研究は,この課題に対するいくつかの最先端LCMの性能を実証的に評価する。
論文参考訳（メタデータ） (2023-04-07T18:58:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。