論文の概要: Automating Android Build Repair: Bridging the Reasoning-Execution Gap in LLM Agents with Domain-Specific Tools
- arxiv url: http://arxiv.org/abs/2510.08640v1
- Date: Thu, 09 Oct 2025 01:33:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:47.292371
- Title: Automating Android Build Repair: Bridging the Reasoning-Execution Gap in LLM Agents with Domain-Specific Tools
- Title(参考訳): Androidビルドの修復を自動化する - ドメイン特化ツールによるLLMエージェントの推論実行ギャップのブリッジ
- Authors: Ha Min Son, Huan Ren, Xin Liu, Zhe Zhao,
- Abstract要約: 43のオープンソースプロジェクトのコミット履歴から算出した1,019のビルド失敗のベンチマークであるAndroidBuildBenchを紹介した。
それぞれの問題は、その後のコミットから検証されたソリューションとペアになって、修正が可能であることを保証する。
汎用シェルコマンドをドメイン認識抽象化に置き換える,ツールブリッジ(Tool Bridging)という戦略の有効性を実証する。
- 参考スコア(独自算出の注目度): 11.19523991999335
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Android is the largest mobile platform, yet automatically building applications remains a practical challenge. While Large Language Models (LLMs) show promise for code repair, their use for fixing Android build errors remains underexplored. To address this gap, we first introduce AndroidBuildBench, a benchmark of 1,019 build failures curated from the commit histories of 43 open-source Android projects. Each problem is paired with a verified solution from a subsequent commit, ensuring that fixes are feasible. Second, we propose GradleFixer, an LLM agent with domain-specific tools for inspecting and manipulating the Gradle build environment. GradleFixer achieves a resolve rate of 81.4% (pass@1), significantly outperforming a state-of-the-art coding agent that relies on a general-purpose shell. GradleFixer's success suggests that while LLMs possess the high-level knowledge to solve these failures, they struggle to translate this knowledge into effective low-level actions using a general-purpose shell. We demonstrate the effectiveness of a strategy we term Tool Bridging, which replaces general-purpose shell commands with domain-aware abstractions. We hypothesize this approach works through two mechanisms: 1) it provides tools in an API-like format that LLMs use more reliably, and 2) it constrains the action space to relevant operations. This approach bridges the gap between the model's high-level reasoning and effective low-level execution.
- Abstract(参考訳): Androidは最大のモバイルプラットフォームだが、アプリケーションを自動的に作ることは現実的な課題だ。
Large Language Models (LLMs) はコードの修復を約束しているが、Androidのビルドエラーの修正には未検討のままである。
このギャップに対処するために、まず最初にAndroidBuildBenchを紹介した。これは、オープンソースの43のAndroidプロジェクトのコミット履歴から算出した1,019のビルド失敗のベンチマークである。
それぞれの問題は、その後のコミットから検証されたソリューションとペアになって、修正が可能であることを保証する。
第2に,Gradleのビルド環境を検査および操作するためのドメイン固有のツールを備えたLLMエージェントであるGradleFixerを提案する。
GradleFixerは81.4%(pass@1)の解像度を達成し、汎用シェルに依存する最先端のコーディングエージェントを著しく上回っている。
GradleFixerの成功は、LSMがこれらの障害を解決するための高いレベルの知識を持っている一方で、汎用シェルを使用してこの知識を効果的な低レベルのアクションに変換するのに苦労していることを示唆している。
汎用シェルコマンドをドメイン認識抽象化に置き換える,ツールブリッジ(Tool Bridging)という戦略の有効性を実証する。
このアプローチは2つのメカニズムを通じて機能する、と仮定する。
1) LLMがより確実に使用するAPIライクなフォーマットでツールを提供する。
2) アクション空間を関連する操作に制約する。
このアプローチは、モデルの高レベル推論と効果的な低レベル実行のギャップを埋める。
関連論文リスト
- Gecko: A Simulation Environment with Stateful Feedback for Refining Agent Tool Calls [56.407063247662336]
本稿では,ルールとLLMを組み合わせてツール応答をシミュレートする総合環境であるGeckoを紹介する。
GATS は GPT-4o, GPT-5, Gemini-3.0-pro など様々な LLM のツールコール性能を一貫して改善している。
論文 参考訳(メタデータ) (2026-02-22T15:02:00Z) - Verification-Guided Context Optimization for Tool Calling via Hierarchical LLMs-as-Editors [6.990045323115733]
ツール関連のドキュメンテーションや知識ベースコンテキストを自動的に洗練する,大規模言語モデルをエディタとして使用するフレームワークであるVGCOを提案する。
まず、ツール呼び出しワークフローに自然に統合される階層構造を使用する。
第二に、状態認識、アクション特化、検証誘導であり、検索スペースを制限し、効率的で目標とする改善を可能にする。
論文 参考訳(メタデータ) (2025-12-15T19:48:21Z) - Diagnosing and Resolving Android Applications Building Issues: An Empirical Study [4.9727667541752085]
この研究は、JavaとKotlinで書かれた200のオープンソースプロジェクトについて実証分析を行い、ビルド失敗の診断と解決を行っている。
環境問題、依存関係、Gradleタスクエラー、設定問題、シンタックス/API不互換性の4つの主要なタイプのビルドエラーを特定しました。
論文 参考訳(メタデータ) (2025-11-09T02:01:14Z) - A Systematic Study of Time Limit Exceeded Errors in Online Programming Assignments [3.5043598215781393]
本稿では,オンラインプログラミングにおけるTLEエラーに関する大規模な実証的研究について述べる。
我々は1000のCodeforcesをTLEエラーで分析し、その根本原因を分類し、ユーザーがどのように修正しようとしたかを追跡した。
我々は,TLEエラーに特化して設計された最初の自動修復ツールであるNettleと,TLE修復を評価する最初のフレームワークであるNettle-Evalを紹介する。
論文 参考訳(メタデータ) (2025-10-16T06:18:55Z) - Where LLM Agents Fail and How They can Learn From Failures [62.196870049524364]
大規模言語モデル(LLM)エージェントは、複雑なマルチステップタスクの解決において有望であることを示す。
単一ルート原因エラーがその後の決定を通じて伝播する、障害のカスケードに対する脆弱性を増幅する。
現在のシステムは、モジュール的で体系的な方法でエージェントエラーを包括的に理解できるフレームワークを欠いている。
AgentErrorTaxonomyは、メモリ、リフレクション、計画、アクション、システムレベルの操作にまたがる障害モードのモジュール分類である。
論文 参考訳(メタデータ) (2025-09-29T18:20:27Z) - Learning to Use Tools via Cooperative and Interactive Agents [58.77710337157665]
ツール学習は、外部ツールを使用してユーティリティを拡張するエージェントとして、大きな言語モデル(LLM)を促進する。
ツール選択,ツール実行,アクションキャリブレーションの3つの特別なエージェントを個別にコーディネートする,協調型対話型エージェントフレームワークであるConAgentsを提案する。
3つのデータセットに対する実験により、LLMは、ConAgentsを装備した場合、大幅に改善されたベースラインよりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-03-05T15:08:16Z) - LLM-CompDroid: Repairing Configuration Compatibility Bugs in Android
Apps with Pre-trained Large Language Models [34.23051590289707]
LLMの長所と従来のバグ解決ツールを組み合わせたLLM-CompDroidフレームワークを紹介する。
LLM-CompDroidによるバグ解決性能の大幅な向上を示す実験結果を得た。
この革新的なアプローチは、Androidアプリケーションの信頼性と堅牢性を向上させることを約束している。
論文 参考訳(メタデータ) (2024-02-23T03:51:16Z) - Enhancing Open-Domain Task-Solving Capability of LLMs via Autonomous Tool Integration from GitHub [79.31134731122462]
オープンドメインのタスク解決能力を評価するためにOpenActベンチマークを導入します。
我々は,オープンドメインの進化するクエリに,GitHubから専門ツールを自律的に統合することで対処できる,新しいLLMベースのエージェントシステムであるOpenAgentを紹介する。
論文 参考訳(メタデータ) (2023-12-28T15:47:30Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - CRAFT: Customizing LLMs by Creating and Retrieving from Specialized
Toolsets [75.64181719386497]
大規模言語モデル(LLM)のためのツール作成・検索フレームワークであるCRAFTを提案する。
タスク用に特別にキュレートされたツールセットを作成し、複雑なタスクを解決する能力を高めるためにこれらのセットからツールを取得するコンポーネントをLLMに装備する。
本手法はフレキシブルに設計されており,既製のLCMを細かな調整なしに未確認領域やモダリティに適応するためのプラグアンドプレイ方式を提供する。
論文 参考訳(メタデータ) (2023-09-29T17:40:26Z) - AutoDroid: LLM-powered Task Automation in Android [32.241570727243534]
モバイルタスク自動化システムであるAutoDroidを紹介した。
主なコンポーネントは、LLMでUIをブリッジする機能対応UI表現メソッドである。
我々は、メモリ拡張Androidタスク自動化のための新しいベンチマークで、その性能を158の共通タスクで評価した。
論文 参考訳(メタデータ) (2023-08-29T13:02:30Z) - ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world
APIs [104.37772295581088]
オープンソースの大規模言語モデル(LLM)、例えばLLaMAは、ツール使用能力に大きく制限されている。
データ構築、モデルトレーニング、評価を含む汎用ツールであるToolLLMを紹介する。
ツール使用のためのインストラクションチューニングフレームワークであるToolBenchを,ChatGPTを使って自動構築する。
論文 参考訳(メタデータ) (2023-07-31T15:56:53Z) - DexBERT: Effective, Task-Agnostic and Fine-grained Representation
Learning of Android Bytecode [0.40571357119162643]
そこで本研究では,Android アプリケーションで使用される主要なバイナリフォーマットである DEX バイトコードのチャンクを表現するために,BERT ライクな言語モデルを提案する。
DexBERTがDEX言語をモデル化できるかどうかを実証的に評価し、3つのクラスレベルのソフトウェアエンジニアリングタスクでモデルの有効性を評価する。
論文 参考訳(メタデータ) (2022-12-12T15:32:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。