論文の概要: Automating Android Build Repair: Bridging the Reasoning-Execution Gap in LLM Agents with Domain-Specific Tools
- arxiv url: http://arxiv.org/abs/2510.08640v1
- Date: Thu, 09 Oct 2025 01:33:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:47.292371
- Title: Automating Android Build Repair: Bridging the Reasoning-Execution Gap in LLM Agents with Domain-Specific Tools
- Title(参考訳): Androidビルドの修復を自動化する - ドメイン特化ツールによるLLMエージェントの推論実行ギャップのブリッジ
- Authors: Ha Min Son, Huan Ren, Xin Liu, Zhe Zhao,
- Abstract要約: 43のオープンソースプロジェクトのコミット履歴から算出した1,019のビルド失敗のベンチマークであるAndroidBuildBenchを紹介した。
それぞれの問題は、その後のコミットから検証されたソリューションとペアになって、修正が可能であることを保証する。
汎用シェルコマンドをドメイン認識抽象化に置き換える,ツールブリッジ(Tool Bridging)という戦略の有効性を実証する。
- 参考スコア(独自算出の注目度): 11.19523991999335
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Android is the largest mobile platform, yet automatically building applications remains a practical challenge. While Large Language Models (LLMs) show promise for code repair, their use for fixing Android build errors remains underexplored. To address this gap, we first introduce AndroidBuildBench, a benchmark of 1,019 build failures curated from the commit histories of 43 open-source Android projects. Each problem is paired with a verified solution from a subsequent commit, ensuring that fixes are feasible. Second, we propose GradleFixer, an LLM agent with domain-specific tools for inspecting and manipulating the Gradle build environment. GradleFixer achieves a resolve rate of 81.4% (pass@1), significantly outperforming a state-of-the-art coding agent that relies on a general-purpose shell. GradleFixer's success suggests that while LLMs possess the high-level knowledge to solve these failures, they struggle to translate this knowledge into effective low-level actions using a general-purpose shell. We demonstrate the effectiveness of a strategy we term Tool Bridging, which replaces general-purpose shell commands with domain-aware abstractions. We hypothesize this approach works through two mechanisms: 1) it provides tools in an API-like format that LLMs use more reliably, and 2) it constrains the action space to relevant operations. This approach bridges the gap between the model's high-level reasoning and effective low-level execution.
- Abstract(参考訳): Androidは最大のモバイルプラットフォームだが、アプリケーションを自動的に作ることは現実的な課題だ。
Large Language Models (LLMs) はコードの修復を約束しているが、Androidのビルドエラーの修正には未検討のままである。
このギャップに対処するために、まず最初にAndroidBuildBenchを紹介した。これは、オープンソースの43のAndroidプロジェクトのコミット履歴から算出した1,019のビルド失敗のベンチマークである。
それぞれの問題は、その後のコミットから検証されたソリューションとペアになって、修正が可能であることを保証する。
第2に,Gradleのビルド環境を検査および操作するためのドメイン固有のツールを備えたLLMエージェントであるGradleFixerを提案する。
GradleFixerは81.4%(pass@1)の解像度を達成し、汎用シェルに依存する最先端のコーディングエージェントを著しく上回っている。
GradleFixerの成功は、LSMがこれらの障害を解決するための高いレベルの知識を持っている一方で、汎用シェルを使用してこの知識を効果的な低レベルのアクションに変換するのに苦労していることを示唆している。
汎用シェルコマンドをドメイン認識抽象化に置き換える,ツールブリッジ(Tool Bridging)という戦略の有効性を実証する。
このアプローチは2つのメカニズムを通じて機能する、と仮定する。
1) LLMがより確実に使用するAPIライクなフォーマットでツールを提供する。
2) アクション空間を関連する操作に制約する。
このアプローチは、モデルの高レベル推論と効果的な低レベル実行のギャップを埋める。
関連論文リスト
- Where LLM Agents Fail and How They can Learn From Failures [62.196870049524364]
大規模言語モデル(LLM)エージェントは、複雑なマルチステップタスクの解決において有望であることを示す。
単一ルート原因エラーがその後の決定を通じて伝播する、障害のカスケードに対する脆弱性を増幅する。
現在のシステムは、モジュール的で体系的な方法でエージェントエラーを包括的に理解できるフレームワークを欠いている。
AgentErrorTaxonomyは、メモリ、リフレクション、計画、アクション、システムレベルの操作にまたがる障害モードのモジュール分類である。
論文 参考訳(メタデータ) (2025-09-29T18:20:27Z) - Learning to Use Tools via Cooperative and Interactive Agents [58.77710337157665]
ツール学習は、外部ツールを使用してユーティリティを拡張するエージェントとして、大きな言語モデル(LLM)を促進する。
ツール選択,ツール実行,アクションキャリブレーションの3つの特別なエージェントを個別にコーディネートする,協調型対話型エージェントフレームワークであるConAgentsを提案する。
3つのデータセットに対する実験により、LLMは、ConAgentsを装備した場合、大幅に改善されたベースラインよりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-03-05T15:08:16Z) - LLM-CompDroid: Repairing Configuration Compatibility Bugs in Android
Apps with Pre-trained Large Language Models [34.23051590289707]
LLMの長所と従来のバグ解決ツールを組み合わせたLLM-CompDroidフレームワークを紹介する。
LLM-CompDroidによるバグ解決性能の大幅な向上を示す実験結果を得た。
この革新的なアプローチは、Androidアプリケーションの信頼性と堅牢性を向上させることを約束している。
論文 参考訳(メタデータ) (2024-02-23T03:51:16Z) - CRAFT: Customizing LLMs by Creating and Retrieving from Specialized
Toolsets [75.64181719386497]
大規模言語モデル(LLM)のためのツール作成・検索フレームワークであるCRAFTを提案する。
タスク用に特別にキュレートされたツールセットを作成し、複雑なタスクを解決する能力を高めるためにこれらのセットからツールを取得するコンポーネントをLLMに装備する。
本手法はフレキシブルに設計されており,既製のLCMを細かな調整なしに未確認領域やモダリティに適応するためのプラグアンドプレイ方式を提供する。
論文 参考訳(メタデータ) (2023-09-29T17:40:26Z) - AutoDroid: LLM-powered Task Automation in Android [32.241570727243534]
モバイルタスク自動化システムであるAutoDroidを紹介した。
主なコンポーネントは、LLMでUIをブリッジする機能対応UI表現メソッドである。
我々は、メモリ拡張Androidタスク自動化のための新しいベンチマークで、その性能を158の共通タスクで評価した。
論文 参考訳(メタデータ) (2023-08-29T13:02:30Z) - ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world
APIs [104.37772295581088]
オープンソースの大規模言語モデル(LLM)、例えばLLaMAは、ツール使用能力に大きく制限されている。
データ構築、モデルトレーニング、評価を含む汎用ツールであるToolLLMを紹介する。
ツール使用のためのインストラクションチューニングフレームワークであるToolBenchを,ChatGPTを使って自動構築する。
論文 参考訳(メタデータ) (2023-07-31T15:56:53Z) - DexBERT: Effective, Task-Agnostic and Fine-grained Representation
Learning of Android Bytecode [0.40571357119162643]
そこで本研究では,Android アプリケーションで使用される主要なバイナリフォーマットである DEX バイトコードのチャンクを表現するために,BERT ライクな言語モデルを提案する。
DexBERTがDEX言語をモデル化できるかどうかを実証的に評価し、3つのクラスレベルのソフトウェアエンジニアリングタスクでモデルの有効性を評価する。
論文 参考訳(メタデータ) (2022-12-12T15:32:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。