論文の概要: TreeMind: Automatically Reproducing Android Bug Reports via LLM-empowered Monte Carlo Tree Search
- arxiv url: http://arxiv.org/abs/2509.22431v1
- Date: Fri, 26 Sep 2025 14:50:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.517942
- Title: TreeMind: Automatically Reproducing Android Bug Reports via LLM-empowered Monte Carlo Tree Search
- Title(参考訳): TreeMind: LLMを利用したモンテカルロ木検索によるAndroidバグレポートの自動再生
- Authors: Zhengyu Chen, Zhaoyi Meng, Wenxiang Zhao, Wansen Wang, Haoyang Zhao, Jiahao Zhan, Jie Cui, Hong Zhong,
- Abstract要約: そこで我々は,大規模言語モデルとモンテカルロ木探索アルゴリズムを統合し,バグ再現における戦略的UI探索を実現する新しい手法であるTreeMindを提案する。
私たちの知る限りでは、これは、外部の意思決定とセマンティック推論を組み合わせた、信頼性のあるバグ再現のための最初の作業です。
広範に使用されている3つのベンチマークから、実世界の93のAndroidバグレポートのデータセットに基づいて、TreeMindを評価した。実験の結果、再現成功率の4つの最先端のベースラインを著しく上回っていることが示された。
- 参考スコア(独自算出の注目度): 24.23102808875548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatically reproducing Android app crashes from textual bug reports is challenging, particularly when the reports are incomplete and the modern UI exhibits high combinatorial complexity. Existing approaches based on reinforcement learning or large language models (LLMs) exhibit limitations in such scenarios. They struggle to infer unobserved steps and reconstruct the underlying user action sequences to navigate the vast UI interaction space, primarily due to limited goal-directed reasoning and planning. We present TreeMind, a novel technique that integrates LLMs with a customized Monte Carlo Tree Search (MCTS) algorithm to achieve strategic UI exploration in bug reproduction. To the best of our knowledge, this is the first work to combine external decision-making with LLM semantic reasoning for reliable bug reproduction. We formulate the reproduction task as a target-driven search problem, leveraging MCTS as the core planning mechanism to iteratively refine action sequences. To enhance MCTS with semantic reasoning, we introduce two LLM-guided agents with distinct roles: Expander generates top-k promising actions based on the current UI state and exploration history, while Simulator estimates the likelihood that each action leads toward successful reproduction. By incorporating multi-modal UI inputs and advanced prompting techniques, TreeMind conducts feedback-aware navigation that identifies missing but essential user actions and incrementally reconstructs the reproduction paths. We evaluate TreeMind on a dataset of 93 real-world Android bug reports from three widely-used benchmarks. Experimental results show that it significantly outperforms four state-of-the-art baselines in reproduction success rate. A real-world case study indicates that integrating LLM reasoning with MCTS-based planning is a compelling direction for automated bug reproduction.
- Abstract(参考訳): テキストによるバグ報告から自動でAndroidアプリのクラッシュを再現することは、特にレポートが不完全で、モダンなUIが高い組合せ複雑性を示す場合、難しい。
強化学習や大規模言語モデル(LLM)に基づく既存のアプローチでは、そのようなシナリオに制限がある。
彼らは、未観測のステップを推測し、基盤となるユーザーアクションシーケンスを再構築して、大きなUIインタラクション空間をナビゲートするのに苦労している。
我々は,LLMとMCTSアルゴリズムを統合し,バグ再現における戦略的UI探索を実現する新しい手法であるTreeMindを提案する。
我々の知る限りでは、これは、信頼性のあるバグ再現のために、外部決定とLLMの意味論的推論を組み合わせる最初の作業である。
本稿では,MCTSをコアプランニング機構として活用し,反復的に動作シーケンスを改良する目的探索問題として再生タスクを定式化する。
Expanderは、現在のUI状態と探索履歴に基づいて、トップkの有望なアクションを生成し、Simulatorは、各アクションが再現を成功に導く可能性を推定する。
マルチモーダルUI入力と高度なプロンプト技術を導入することで、TreeMindは、欠如しているが不可欠なユーザアクションを特定し、再現パスを漸進的に再構築するフィードバック対応ナビゲーションを実行する。
TreeMindを,広く使用されている3つのベンチマークから,実世界の93のAndroidバグレポートのデータセットで評価した。
実験の結果, 再現成功率において, 最先端の4つのベースラインを著しく上回っていることが明らかとなった。
実世界のケーススタディでは、LCM推論とMCTSベースの計画を統合することが、自動バグ再現にとって魅力的な方向であることを示唆している。
関連論文リスト
- SELT: Self-Evaluation Tree Search for LLMs with Task Decomposition [5.5688696788198975]
外部報酬モデルに頼らずにLSM推論を強化する新しいフレームワークであるSELT(Self-Evaluation LLM Tree Search)を紹介する。
知識に基づくMMLUとツール学習データセットSeal-Toolsを含む,挑戦的なベンチマークに対するアプローチを検証する。
論文 参考訳(メタデータ) (2025-06-09T08:52:27Z) - I-MCTS: Enhancing Agentic AutoML via Introspective Monte Carlo Tree Search [10.718560472954644]
イントロスペクティブモンテカルロ木探索(Introspective Monte Carlo Tree Search, I-MCTS)は、イントロスペクティブプロセスを通じてツリーノードを反復的に拡張する新しいアプローチである。
我々は,各ノードの解の直接評価を容易にするために,LLM(Large Language Model)ベースの値モデルを統合する。
当社のアプローチでは,強力なオープンソースAutoMLエージェントと比較して,パフォーマンスが6%向上している。
論文 参考訳(メタデータ) (2025-02-20T16:19:09Z) - Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search [74.46681227410038]
効率的な推論パス探索と学習のための集合モンテカルロ木探索(CoMCTS)を提案する。
我々はMulberry-260kを構築する。Mulberry-260kはマルチモーダルなデータセットで、各質問に対してリッチで明示的で明確に定義された推論ノードのツリーを持つ。
我々は、o1のようなステップバイステップ推論とリフレクション機能を備えたMLLMの一連のモデルであるMulberryを訓練するために、集合SFTを実行する。
論文 参考訳(メタデータ) (2024-12-24T10:07:51Z) - Think&Cite: Improving Attributed Text Generation with Self-Guided Tree Search and Progress Reward Modeling [63.98194996746229]
大型言語モデル(LLM)は幻覚を起こし、事実的に誤った情報を生み出す傾向にある。
我々はThink&Citeと呼ばれる新しいフレームワークを提案し、検索と統合された多段階推論問題として属性付きテキスト生成を定式化する。
論文 参考訳(メタデータ) (2024-12-19T13:55:48Z) - SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models [88.29990536278167]
SPaRは、木探索の自己精製を統合して、有効かつ同等な選好ペアを得るセルフプレイフレームワークである。
実験により,SPaRで誘導された3回の反復で訓練されたLLaMA3-8Bモデルが,一般機能を失うことなくIFEvalベンチマークでGPT-4-Turboを上回った。
論文 参考訳(メタデータ) (2024-12-16T09:47:43Z) - Recurrent Alignment with Hard Attention for Hierarchical Text Rating [6.858867989434858]
大規模言語モデル(LLM)を利用した階層型テキスト評価のための新しいフレームワークを提案する。
我々のフレームワークは、RAHA(Recurrent Alignment with Hard Attention)を取り入れています。
実験の結果,RAHAは3つの階層的テキスト評価データセットにおいて,既存の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-14T00:40:51Z) - Tree-Planner: Efficient Close-loop Task Planning with Large Language Models [63.06270302774049]
Tree-Plannerは、大きな言語モデルでタスクプランニングを3つの異なるフェーズに再構成する。
Tree-Plannerは高い効率を維持しながら最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-10-12T17:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。