論文の概要: Android in the Zoo: Chain-of-Action-Thought for GUI Agents
- arxiv url: http://arxiv.org/abs/2403.02713v2
- Date: Sat, 13 Jul 2024 02:12:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 01:45:18.212077
- Title: Android in the Zoo: Chain-of-Action-Thought for GUI Agents
- Title(参考訳): Android in the Zoo:GUIエージェントのためのアクションのチェーン
- Authors: Jiwen Zhang, Jihao Wu, Yihua Teng, Minghui Liao, Nuo Xu, Xiao Xiao, Zhongyu Wei, Duyu Tang,
- Abstract要約: この研究は、前回のアクション、現在のスクリーン、さらに重要なことは、どのアクションを実行するべきか、選択されたアクションによって導かれる結果について、アクション思考を記述する、Chain-of-Action-Thought (dubed CoAT)を提示する。
我々は,3つの既成LMMのゼロショット設定において,CoATは従来のコンテキストモデルと比較して,動作予測を大幅に改善することを示した。
このラインでの研究をさらに促進するために,AitZ(Android-In-The-Zoo)という,18,643のスクリーンアクションペアとチェーン・オブ・アクションを組み合わせたデータセットを構築した。
- 参考スコア(独自算出の注目度): 38.07337874116759
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language model (LLM) leads to a surge of autonomous GUI agents for smartphone, which completes a task triggered by natural language through predicting a sequence of actions of API. Even though the task highly relies on past actions and visual observations, existing studies typically consider little semantic information carried out by intermediate screenshots and screen operations. To address this, this work presents Chain-of-Action-Thought (dubbed CoAT), which takes the description of the previous actions, the current screen, and more importantly the action thinking of what actions should be performed and the outcomes led by the chosen action. We demonstrate that, in a zero-shot setting upon three off-the-shelf LMMs, CoAT significantly improves the action prediction compared to previous proposed context modeling. To further facilitate the research in this line, we construct a dataset Android-In-The-Zoo (AitZ), which contains 18,643 screen-action pairs together with chain-of-action-thought annotations. Experiments show that fine-tuning a 1B model (i.e. AUTO-UI-base) on our AitZ dataset achieves on-par performance with CogAgent-Chat-18B.
- Abstract(参考訳): 大きな言語モデル(LLM)は、スマートフォン向けの自律的なGUIエージェントの急増につながり、APIの一連のアクションを予測することによって自然言語によって引き起こされるタスクを完了させる。
タスクは過去の行動や視覚的な観察に大きく依存しているが、既存の研究では、中間のスクリーンショットや画面操作によって実行される意味情報をほとんど考慮していない。
これを解決するために、この研究は、前回のアクション、現在のスクリーン、さらに重要なことは、どのアクションを実行するべきか、選択されたアクションによって導かれる結果について、アクション思考を記述する、Chain-of-Action-Thought (dubed CoAT)を提示する。
我々は,3つの既成LMMのゼロショット設定において,CoATは従来のコンテキストモデルと比較して,動作予測を大幅に改善することを示した。
このラインでの研究をさらに促進するため、我々は18,643のスクリーンアクションペアとチェーン・オブ・アクション・アノテーションを含むAndroid-In-The-Zoo (AitZ) のデータセットを構築した。
AitZデータセット上の1Bモデル(つまりAUTO-UI-base)の微調整は、CogAgent-Chat-18Bでオンパー性能を達成することを示す。
関連論文リスト
- TreeSBA: Tree-Transformer for Self-Supervised Sequential Brick Assembly [51.29305265324916]
入力された多視点画像から連続的な組立動作を予測するために,クラスに依存しないツリー・トランスフォーマフレームワークを提案する。
逐次レンガ組立作業の大きな課題は、ステップワイドアクションラベルが実際に入手するのに費用がかかり、面倒であることである。
我々は、合成から現実への移行学習を活用することにより、この問題を緩和する。
論文 参考訳(メタデータ) (2024-07-22T14:05:27Z) - Semantically Guided Representation Learning For Action Anticipation [9.836788915947924]
本稿では,S-GEAR(Semantically Guided Representation Learning)フレームワークを提案する。
S-GEARは視覚行動のプロトタイプを学び、言語モデルを利用して関係を構造化し、意味を誘導する。
我々は,S-GEARが言語から視覚プロトタイプへ行動間の幾何学的関連を効果的に伝達することを示した。
論文 参考訳(メタデータ) (2024-07-02T14:44:01Z) - CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation [61.68049335444254]
MLLM(Multimodal large language model)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。
包括的環境認識(CEP)と条件付き行動予測(CAP)の2つの新しいアプローチを備えた包括的認知型LLMエージェントCoCo-Agentを提案する。
AITW と META-GUI ベンチマークにおいて,我々のエージェントは実シナリオで有望な性能を示す新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-19T08:29:03Z) - On the Efficacy of Text-Based Input Modalities for Action Anticipation [18.92991055344741]
マルチモーダル特徴とテキストキャプションから共同で学習するマルチモーダル予測変換器(MAT)を提案する。
モデルが最初にキャプションに合わせることによってビデオクリップのアクションを予測することを学習し、第2段階では、将来のアクションを予測するためにモデルを微調整する。
論文 参考訳(メタデータ) (2024-01-23T18:58:35Z) - JOADAA: joint online action detection and action anticipation [2.7792814152937027]
アクション予測は、過去のイベントと将来のイベントを結びつけることによって、将来のアクションを予測する。
オンラインアクション検出は、ストリーミング形式でアクションを予測するタスクである。
行動予測とオンライン行動検出を組み合わせることで、我々のアプローチは将来の情報の欠落した依存関係をカバーできる。
論文 参考訳(メタデータ) (2023-09-12T11:17:25Z) - Improving Vision-and-Language Navigation by Generating Future-View Image
Semantics [96.8435716885159]
VLN(Vision-and-Language Navigation)は、自然言語命令に基づいてエージェントが環境をナビゲートする必要があるタスクである。
エージェントのドメイン内事前トレーニングにおける3つのプロキシタスクを提案する: Masked Panorama Modeling (MPM)、 Masked Trajectory Modeling (MTM)、Action Prediction with Image Generation (APIG)。
次に、VLNタスク上のエージェントを補助的損失で微調整し、エージェントが生成するビューセマンティクスと次のステップのグラウンド真実ビューセマンティクスとの差を最小限に抑える。
論文 参考訳(メタデータ) (2023-04-11T00:36:02Z) - SimOn: A Simple Framework for Online Temporal Action Localization [51.27476730635852]
一般的なTransformerアーキテクチャを用いて,アクションインスタンスの予測を学習するSimOnというフレームワークを提案する。
THUMOS14とActivityNet1.3データセットの実験結果は、我々のモデルが従来の手法よりも著しく優れていることを示している。
論文 参考訳(メタデータ) (2022-11-08T04:50:54Z) - End-to-end Temporal Action Detection with Transformer [86.80289146697788]
時間的アクション検出(TAD)は、トリミングされていないビデオにおいて、すべてのアクションインスタンスのセマンティックラベルとバウンダリを決定することを目的としている。
そこで我々は,textitTadTR と呼ばれる Transformer によるTAD のエンドツーエンドフレームワークを構築した。
本手法は,HACSセグメンツとTHUMOS14の最先端性能とActivityNet-1.3の競合性能を実現する。
論文 参考訳(メタデータ) (2021-06-18T17:58:34Z) - Look Wide and Interpret Twice: Improving Performance on Interactive
Instruction-following Tasks [29.671268927569063]
近年の研究では、タスクのためのよく設計されたデータセットであるALFREDを用いてこの問題に対処している。
本稿では,従来の手法を大きなマージンで上回る新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-01T16:06:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。