論文の概要: Beyond Syntax: Action Semantics Learning for App Agents
- arxiv url: http://arxiv.org/abs/2506.17697v1
- Date: Sat, 21 Jun 2025 12:08:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.54634
- Title: Beyond Syntax: Action Semantics Learning for App Agents
- Title(参考訳): Beyond Syntax: アプリエージェントのためのアクションセマンティクス学習
- Authors: Bohan Tang, Dezhao Luo, Jingxuan Chen, Shaogang Gong, Jianye Hao, Jun Wang, Kun Shao,
- Abstract要約: アクションセマンティックス学習(ASL、Action Semantics Learning)は、学習目的が真理行動の意味を捉える学習フレームワークである。
ASLは既存のメソッドよりもApp Agentの精度と一般化を大幅に改善する。
- 参考スコア(独自算出の注目度): 60.56331102288794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advent of Large Language Models (LLMs) enables the rise of App agents that interpret user intent and operate smartphone Apps through actions such as clicking and scrolling. While prompt-based solutions with closed LLM APIs show promising ability, they incur heavy compute costs and external API dependency. Fine-tuning smaller open-source LLMs solves these limitations. However, current fine-tuning methods use a syntax learning paradigm that forces agents to reproduce exactly the ground truth action strings, leading to out-of-distribution (OOD) vulnerability. To fill this gap, we propose Action Semantics Learning (ASL), a novel learning framework, where the learning objective is capturing the semantics of the ground truth actions. Specifically, inspired by the programming language theory, we define the action semantics for App agents as the state transition induced by the action in the user interface. With this insight, ASL employs a novel SEmantic Estimator (SEE) to compute a semantic reward to train the App agents in generating actions aligned with the semantics of ground truth actions, even when the syntactic forms differ. To support the effectiveness of ASL, we theoretically demonstrate the superior robustness of ASL for the OOD problem compared with the existing syntax learning paradigm. Extensive experiments on offline and online smartphone App operation benchmarks show that ASL significantly improves the accuracy and generalisation of App agents over existing methods.
- Abstract(参考訳): LLM(Large Language Models)の出現は、ユーザ意図を解釈し、スマートフォンアプリをクリックやスクロールといったアクションを通じて操作するAppエージェントの台頭を可能にする。
クローズド LLM API によるプロンプトベースのソリューションは有望な能力を示しているが、計算コストと外部 API 依存性を伴っている。
微調整の小さなオープンソース LLM はこれらの制限を解消する。
しかし、現在の微調整手法では構文学習パラダイムを使用して、エージェントに真理のアクション文字列を正確に再現させ、アウト・オブ・ディストリビューション(OOD)脆弱性を引き起こす。
このギャップを埋めるために,新たな学習フレームワークであるASL(Action Semantics Learning)を提案する。
具体的には、プログラミング言語理論に触発されて、ユーザインターフェイスのアクションによって引き起こされる状態遷移として、App Agentのアクションセマンティクスを定義します。
この洞察により、ASLは、セマンティック・エスペクタ(SEE)を使用して、セマンティック・エスペクタ(Semantic Estimator)を使用して、セマンティック・フォームが違っても、シマンティック・アクションのセマンティクスに沿ったアクションを生成するAppエージェントを訓練する。
ASLの有効性を支持するために,既存の構文学習パラダイムと比較して,OOD問題に対するASLの優れた堅牢性を理論的に実証する。
オフラインおよびオンラインスマートフォンのアプリ操作ベンチマークに関する大規模な実験によると、ASLは既存のメソッドよりもAppエージェントの精度と一般化を大幅に改善している。
関連論文リスト
- LELANTE: LEveraging LLM for Automated ANdroid TEsting [6.112769800569302]
既存のテストアプローチでは、開発者はAppiumやEspressoといったツールを使って手動でスクリプトを書き、対応するテストケースを実行する必要がある。
LELANTEは,大規模な言語モデル(LLM)を用いて,プリスクリプトを必要とせずにテストケースの実行を自動化する新しいフレームワークである。
10のAndroidアプリケーションにまたがる390のテストケースを対象とした実験では、LELANTEが73%のテスト実行の成功率を達成した。
論文 参考訳(メタデータ) (2025-04-29T16:13:49Z) - PAFFA: Premeditated Actions For Fast Agents [19.576180667174366]
PAFFAは、新しい推論時間手法を用いて、インターネット上でのタスクの完了を高速かつ正確にする手法である。
PAFFAは、堅牢なパフォーマンスを維持しながら、推論時間トークンを87%大幅に削減する。
調査に基づいてアクションライブラリを更新するUnravelの能力は、目に見えないウェブサイトへの一般化と適応を可能にする。
論文 参考訳(メタデータ) (2024-12-10T22:51:31Z) - The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理のための強力なパラダイムとして登場した。
LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。
以上の結果から,ICLをより大きなLCMで事前学習領域外の情動中心タスクに使用する場合,注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T19:07:32Z) - Language Agent Tree Search Unifies Reasoning Acting and Planning in Language Models [31.509994889286183]
我々はLanguage Agent Tree Search (LATS)を紹介した。Language Agent Tree Search (LATS)は、推論、行動、計画において言語モデル(LM)の能力を相乗化する最初の一般的なフレームワークである。
当社のアプローチの重要な特徴は、より意図的で適応的な問題解決メカニズムを提供する外部フィードバック環境の導入である。
LATSは、GPT-4でHumanEval上でプログラミングするための最先端パス@1精度(92.7%)を達成し、GPTによるWebShop上のWebナビゲーションの勾配ベースの微調整に匹敵する勾配なし性能(平均スコア75.9)を示す。
論文 参考訳(メタデータ) (2023-10-06T17:55:11Z) - LASER: LLM Agent with State-Space Exploration for Web Navigation [57.802977310392755]
大規模言語モデル(LLM)は、Webナビゲーションのようなインタラクティブな意思決定タスクにうまく適応している。
以前のメソッドでは、モデルに対して前方のみの実行モードを暗黙的に仮定しており、そこでは、オンコンテキストの例として、オラクルのトラジェクトリのみを提供する。
本稿では,対話型タスクを状態空間探索としてモデル化することを提案する。
論文 参考訳(メタデータ) (2023-09-15T05:44:08Z) - Guiding Pretraining in Reinforcement Learning with Large Language Models [133.32146904055233]
テキストコーパスからの背景知識を用いて探索を図形化する手法について述べる。
このメソッドはELLMと呼ばれ、言語モデルによって提案される目標を達成するエージェントに報酬を与える。
大規模な言語モデルの事前訓練を活用することで、ELLMはエージェントをループに人間を必要とせず、人間に有意義で、もっとも有用な行動へと導く。
論文 参考訳(メタデータ) (2023-02-13T21:16:03Z) - Language Models as Zero-Shot Planners: Extracting Actionable Knowledge
for Embodied Agents [111.33545170562337]
自然言語で表現された高レベルなタスクを、選択された実行可能なステップのセットに基底付ける可能性について検討する。
事前学習したLMが十分に大きく、適切に誘導された場合、ハイレベルなタスクを効果的に低レベルな計画に分解できることがわかった。
本稿では,既存の実演の条件を規定し,計画が許容可能な行動に意味的に変換される手順を提案する。
論文 参考訳(メタデータ) (2022-01-18T18:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。