論文の概要: Android in the Zoo: Chain-of-Action-Thought for GUI Agents
- arxiv url: http://arxiv.org/abs/2403.02713v1
- Date: Tue, 5 Mar 2024 07:09:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 15:48:11.012168
- Title: Android in the Zoo: Chain-of-Action-Thought for GUI Agents
- Title(参考訳): Android in the Zoo:GUIエージェントのためのアクションのチェーン
- Authors: Jiwen Zhang, Jihao Wu, Yihua Teng, Minghui Liao, Nuo Xu, Xiao Xiao,
Zhongyu Wei, Duyu Tang
- Abstract要約: Chain-of-Action-Thought(CoATと呼ばれる)は、標準的なコンテキストモデリングよりも目標の進捗を改善する。
AitZ(Android-In-The-Zoo)は18,643のスクリーンアクションペアとチェーン・オブ・アクション・アノテーションを含むベンチマークである。
実験の結果、AitZデータセット上で2億のモデルを微調整すると、CogAgent-Chat-18Bで同等のパフォーマンスが得られることがわかった。
- 参考スコア(独自算出の注目度): 39.713207012540884
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language model (LLM) leads to a surge of autonomous GUI agents for
smartphone, which completes a task triggered by natural language through
predicting a sequence of actions of API. Even though the task highly relies on
past actions and visual observations, existing studies typical consider little
semantic information carried out by intermediate screenshots and screen
operations. To address this, this work presents Chain-of-Action-Thought (dubbed
CoAT), which takes the description of the previous actions, the current screen,
and more importantly the action thinking of what actions should be performed
and the outcomes led by the chosen action. We demonstrate that, in a zero-shot
setting upon an off-the-shell LLM, CoAT significantly improves the goal
progress compared to standard context modeling. To further facilitate the
research in this line, we construct a benchmark Android-In-The-Zoo (AitZ),
which contains 18,643 screen-action pairs together with chain-of-action-thought
annotations. Experiments show that fine-tuning a 200M model on our AitZ dataset
achieves on par performance with CogAgent-Chat-18B.
- Abstract(参考訳): 大きな言語モデル(LLM)は、スマートフォン向けの自律的なGUIエージェントの急増につながり、APIの一連のアクションを予測することによって自然言語によって引き起こされるタスクを完了させる。
タスクは過去のアクションや視覚的な観察に大きく依存しているが、既存の研究は通常、中間のスクリーンショットや画面操作による意味的な情報はほとんど考慮されていない。
これを解決するために、この研究は、前回のアクション、現在のスクリーン、さらに重要なことは、どのアクションを実行するべきか、選択されたアクションによって導かれる結果について、アクション思考を記述する、Chain-of-Action-Thought (dubed CoAT)を提示する。
オフザシェル LLM 上のゼロショット設定では、CoAT は標準コンテキストモデリングと比較して目標の進捗を著しく改善する。
本研究をさらに促進するために,18,643種類のスクリーンアクションペアとチェーン・オブ・アクション・イン・ザ・ゾウアノテーションを含むベンチマークandroid-in-the-zoo(aitz)を構築した。
実験の結果、AitZデータセット上で2億のモデルを微調整すると、CogAgent-Chat-18Bで同等のパフォーマンスが得られることがわかった。
関連論文リスト
- Comprehensive Cognitive LLM Agent for Smartphone GUI Automation [69.32269322774543]
大規模言語モデル(LLM)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。
我々は、包括的環境認識(CEP)と条件付き行動予測(CAP)という2つの新しいアプローチで、包括的包括的アンダーラインAgent(CoCo-Agent)を提案する。
本稿では, AITW と META-GUI ベンチマークにおいて, 現実的なシナリオにおいて有望な性能を示す新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-19T08:29:03Z) - You Only Look at Screens: Multimodal Chain-of-Action Agents [43.850040967091616]
Auto-UIはインターフェースと直接対話するマルチモーダルソリューションである。
そこで本研究では,エージェントが実行すべきアクションを決定するためのチェーン・オブ・アクション手法を提案する。
我々は30Kのユニークな命令を持つ新しいデバイス制御ベンチマークAITWに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-09-20T16:12:32Z) - Action-GPT: Leveraging Large-scale Language Models for Improved and
Generalized Zero Shot Action Generation [8.753131760384964]
Action-GPTは、大規模言語モデルをテキストベースのアクション生成モデルに組み込むためのフレームワークである。
従来の動作句の代わりに詳細な記述を利用することで、テキストや動き空間のアライメントが向上することを示す。
論文 参考訳(メタデータ) (2022-11-28T17:57:48Z) - Zero-Shot Temporal Action Detection via Vision-Language Prompting [134.26292288193298]
視覚言語プロンプト(STALE)を用いた新しいゼロショット時間行動検出モデルを提案する。
我々のモデルは最先端の代替品を著しく上回っている。
我々のモデルは、近年の強力な競合相手よりも監督的TADにおいて優れた結果をもたらす。
論文 参考訳(メタデータ) (2022-07-17T13:59:46Z) - Unifying Architectures, Tasks, and Modalities Through a Simple
Sequence-to-Sequence Learning Framework [83.82026345508334]
モーダル性(クロスモダリティ、ビジョン、言語など)とタスク(画像生成、視覚接地、画像キャプション、画像分類、テキスト生成など)を統一する統合マルチモーダル事前訓練モデルOFAを提案する。
OFAは、イメージキャプション(COCO test CIDEr: 149.6)、テキスト・ツー・イメージ生成(COCO test FID: 10.5)、VQA(test-std encoder acc.: 80.02)、SNLI-VE(test acc.: 90)など、一連のマルチモーダルタスクにおける新しい最先端処理を実現している。
論文 参考訳(メタデータ) (2022-02-07T10:38:21Z) - ActionCLIP: A New Paradigm for Video Action Recognition [14.961103794667341]
ラベルテキストのセマンティック情報に重きを置くことで,行動認識の新しい視点を提供する。
動作認識のためのマルチモーダル学習フレームワークに基づく新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2021-09-17T11:21:34Z) - End-to-end Temporal Action Detection with Transformer [86.80289146697788]
時間的アクション検出(TAD)は、トリミングされていないビデオにおいて、すべてのアクションインスタンスのセマンティックラベルとバウンダリを決定することを目的としている。
そこで我々は,textitTadTR と呼ばれる Transformer によるTAD のエンドツーエンドフレームワークを構築した。
本手法は,HACSセグメンツとTHUMOS14の最先端性能とActivityNet-1.3の競合性能を実現する。
論文 参考訳(メタデータ) (2021-06-18T17:58:34Z) - Goal-Conditioned End-to-End Visuomotor Control for Versatile Skill
Primitives [89.34229413345541]
本稿では,制御器とその条件をエンドツーエンドに学習することで,落とし穴を回避する条件付け手法を提案する。
本モデルでは,ロボットの動きのダイナミックな画像表現に基づいて,複雑な動作シーケンスを予測する。
代表的MPCおよびILベースラインに対するタスク成功の大幅な改善を報告した。
論文 参考訳(メタデータ) (2020-03-19T15:04:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。