論文の概要: Say One Thing, Do Another? Diagnosing Reasoning-Execution Gaps in VLM-Powered Mobile-Use Agents
- arxiv url: http://arxiv.org/abs/2510.02204v1
- Date: Thu, 02 Oct 2025 16:51:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.227285
- Title: Say One Thing, Do Another? Diagnosing Reasoning-Execution Gaps in VLM-Powered Mobile-Use Agents
- Title(参考訳): 言い換えれば、もう1つは? VLMによるモバイル利用エージェントにおける推論実行ギャップの診断
- Authors: Lingzhong Dong, Ziqi Zhou, Shuaibo Yang, Haiyue Sheng, Pengzhou Cheng, Zongru Wu, Zheng Wu, Gongshen Liu, Zhuosheng Zhang,
- Abstract要約: 視覚言語モデル(VLM)を利用したモバイル利用エージェントは、自然言語命令の解釈に大きな可能性を示している。
近年の研究では、チェーン・オブ・ソート(CoT)推論を取り入れることで、実行精度が向上する傾向が示唆されている。
既存の評価では、CoT推論が地道行動と一致しているかどうかを無視しながら実行精度を強調している。
- 参考スコア(独自算出の注目度): 24.363473366637376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mobile-use agents powered by vision-language models (VLMs) have shown great potential in interpreting natural language instructions and generating corresponding actions based on mobile graphical user interface. Recent studies suggest that incorporating chain-of-thought (CoT) reasoning tends to improve the execution accuracy. However, existing evaluations emphasize execution accuracy while neglecting whether CoT reasoning aligns with ground-truth actions. This oversight fails to assess potential reasoning-execution gaps, which in turn foster over-trust: users relying on seemingly plausible CoTs may unknowingly authorize harmful actions, potentially resulting in financial loss or trust crisis. In this work, we introduce a new evaluation framework to diagnose reasoning-execution gaps. At its core lies Ground-Truth Alignment (GTA), which measures whether the action implied by a CoT matches the ground-truth action. By combining GTA with the standard Exact Match (EM) metric, we jointly assess both the reasoning accuracy and execution accuracy. This joint perspective reveals two types of reasoning-execution gaps: (i) Execution Gap (EG), where the reasoning correctly identifies the correct action but execution fails, and (ii) Reasoning Gap (RG), where execution succeeds but reasoning process conflicts with the actual execution. Experimental results across a wide range of mobile interaction tasks reveal that reasoning-execution gaps are prevalent, with execution gaps occurring more frequently than reasoning gaps. Moreover, while scaling up model size reduces the overall gap, sizable execution gaps persist even in the largest models. Further analysis shows that our framework reliably reflects systematic EG/RG patterns in state-of-the-art models. These findings offer concrete diagnostics and support the development of more trustworthy mobile-use agents.
- Abstract(参考訳): 視覚言語モデル(VLM)を利用したモバイル利用エージェントは、自然言語命令を解釈し、モバイルグラフィカルユーザインタフェースに基づいて対応するアクションを生成する大きな可能性を示している。
近年の研究では、チェーン・オブ・ソート(CoT)推論を取り入れることで、実行精度が向上する傾向が示唆されている。
しかし、既存の評価では、CoT推論が地道行動と一致しているかどうかを無視しながら実行精度を強調している。
一見もっともらしいCoTに依存するユーザは、有害な行為を無意識に承認し、金融損失や信用危機をもたらす可能性がある。
本研究では,推論と実行のギャップを診断するための新しい評価フレームワークを提案する。
中心となるグラウンド・トゥルース・アライメント(GTA)は、CoTが入力したアクションがグラウンド・トゥルース・アクションと一致するかどうかを測定する。
GTAとEM(Exact Match)の基準値を組み合わせることで,推論精度と実行精度を両立させる。
この共同視点は2種類の推論と実行のギャップを明らかにします。
(i)実行ギャップ(EG) 正しい動作を正しく識別するが実行が失敗する理由
(ii)実行が成功するが、推論プロセスが実際の実行と矛盾するRG(Reasoning Gap)。
多様なモバイルインタラクションタスクに対する実験結果から,推論と実行のギャップが増加し,実行のギャップが推論のギャップよりも頻繁に発生することが明らかとなった。
さらに、モデルサイズをスケールアップすると全体的なギャップが減るが、大きなモデルでも大きな実行ギャップが持続する。
さらに分析した結果,我々のフレームワークは最先端モデルにおける系統的なEG/RGパターンを確実に反映していることがわかった。
これらの知見は、具体的な診断と、より信頼できるモバイル利用エージェントの開発を支援するものである。
関連論文リスト
- From Harm to Help: Turning Reasoning In-Context Demos into Assets for Reasoning LMs [58.02809208460186]
デモとしてDeepSeek-R1の高品質なトレースを使って、このパラドックスを再検討する。
デモが最適であっても、より多くの例を加えることで、常に精度が低下することがわかった。
デモを明示的で再利用可能な洞察に変換するシーケンシャルなテストタイム手順であるInsight-to-solve(I2S)を紹介します。
論文 参考訳(メタデータ) (2025-09-27T08:59:31Z) - Certainty-Guided Reasoning in Large Language Models: A Dynamic Thinking Budget Approach [0.15749416770494704]
CGR(Certainty-Guided Reasoning)はトークン使用量を削減するとともに,ベースライン精度を向上させる。
CGRは、確実なしきい値と効率の間の調整可能なトレードオフによって、数百万のトークンを集約的に排除することができる。
信頼性を推論プロセスに統合することにより、CGRは大きな推論言語モデルをより適応的で信頼性があり、リソース効率が良いものにする。
論文 参考訳(メタデータ) (2025-09-09T14:57:15Z) - Is Long-to-Short a Free Lunch? Investigating Inconsistency and Reasoning Efficiency in LRMs [8.359909829007005]
大規模推論モデル(LRM)において,効率的な推論手法が行動の不整合をもたらすかどうかを検討する。
$ICBENCH$は、3次元にわたるLRMの不整合を測定するために設計されたベンチマークである。
より大きなモデルは一般的に小さなモデルよりも一貫性が高いが、すべてのモデルが広く「計画的」な振る舞いを示す。
論文 参考訳(メタデータ) (2025-06-24T10:25:28Z) - Reasoning Can Hurt the Inductive Abilities of Large Language Models [16.996890415549952]
しばしば、Large Reasoning Models (LRM) で用いられるように、チェーン・オブ・シント(CoT)はそのような推論を促進すると仮定される。
隠れた人間定義ルールでゲームベースの4つの制御されたタスクを作成することで、この仮定を考察する。
CoT推論は帰納的性能を低下させる可能性があり, LRMは非推論的性能を低下させることが多い。
論文 参考訳(メタデータ) (2025-05-30T05:24:21Z) - PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。
シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。
実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文 参考訳(メタデータ) (2025-05-29T17:55:49Z) - VerifiAgent: a Unified Verification Agent in Language Model Reasoning [10.227089771963943]
本稿では,メタ検証とツールベース適応検証の2つのレベルを統合した統合検証エージェントを提案する。
VerifiAgentは推論型に基づいて適切な検証ツールを自律的に選択する。
推論スケーリングに効果的に適用でき、より少ないサンプルとコストでより良い結果が得られる。
論文 参考訳(メタデータ) (2025-04-01T04:05:03Z) - Preemptive Detection and Correction of Misaligned Actions in LLM Agents [58.39520480675366]
InferActは、実行前に不整合アクションを検出する新しいアプローチである。
タイムリーな修正をユーザーに警告し、有害な結果を防ぐ。
InferActは、ミスアライメントされたアクション検出におけるベースラインに対するMarco-F1の最大20%の改善を実現している。
論文 参考訳(メタデータ) (2024-07-16T15:24:44Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。
LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。
実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文 参考訳(メタデータ) (2023-08-31T14:31:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。