Fugu-MT 論文翻訳(概要): Android in the Zoo: Chain-of-Action-Thought for GUI Agents

論文の概要: Android in the Zoo: Chain-of-Action-Thought for GUI Agents

arxiv url: http://arxiv.org/abs/2403.02713v1
Date: Tue, 5 Mar 2024 07:09:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-06 15:48:11.012168
Title: Android in the Zoo: Chain-of-Action-Thought for GUI Agents
Title（参考訳）: Android in the Zoo:GUIエージェントのためのアクションのチェーン
Authors: Jiwen Zhang, Jihao Wu, Yihua Teng, Minghui Liao, Nuo Xu, Xiao Xiao, Zhongyu Wei, Duyu Tang
Abstract要約: Chain-of-Action-Thought(CoATと呼ばれる)は、標準的なコンテキストモデリングよりも目標の進捗を改善する。 AitZ(Android-In-The-Zoo)は18,643のスクリーンアクションペアとチェーン・オブ・アクション・アノテーションを含むベンチマークである。実験の結果、AitZデータセット上で2億のモデルを微調整すると、CogAgent-Chat-18Bで同等のパフォーマンスが得られることがわかった。
参考スコア（独自算出の注目度）: 39.713207012540884
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Large language model (LLM) leads to a surge of autonomous GUI agents for smartphone, which completes a task triggered by natural language through predicting a sequence of actions of API. Even though the task highly relies on past actions and visual observations, existing studies typical consider little semantic information carried out by intermediate screenshots and screen operations. To address this, this work presents Chain-of-Action-Thought (dubbed CoAT), which takes the description of the previous actions, the current screen, and more importantly the action thinking of what actions should be performed and the outcomes led by the chosen action. We demonstrate that, in a zero-shot setting upon an off-the-shell LLM, CoAT significantly improves the goal progress compared to standard context modeling. To further facilitate the research in this line, we construct a benchmark Android-In-The-Zoo (AitZ), which contains 18,643 screen-action pairs together with chain-of-action-thought annotations. Experiments show that fine-tuning a 200M model on our AitZ dataset achieves on par performance with CogAgent-Chat-18B.
Abstract（参考訳）: 大きな言語モデル(LLM)は、スマートフォン向けの自律的なGUIエージェントの急増につながり、APIの一連のアクションを予測することによって自然言語によって引き起こされるタスクを完了させる。タスクは過去のアクションや視覚的な観察に大きく依存しているが、既存の研究は通常、中間のスクリーンショットや画面操作による意味的な情報はほとんど考慮されていない。これを解決するために、この研究は、前回のアクション、現在のスクリーン、さらに重要なことは、どのアクションを実行するべきか、選択されたアクションによって導かれる結果について、アクション思考を記述する、Chain-of-Action-Thought (dubed CoAT)を提示する。オフザシェル LLM 上のゼロショット設定では、CoAT は標準コンテキストモデリングと比較して目標の進捗を著しく改善する。本研究をさらに促進するために,18,643種類のスクリーンアクションペアとチェーン・オブ・アクション・イン・ザ・ゾウアノテーションを含むベンチマークandroid-in-the-zoo(aitz)を構築した。実験の結果、AitZデータセット上で2億のモデルを微調整すると、CogAgent-Chat-18Bで同等のパフォーマンスが得られることがわかった。

関連論文リスト

Action Anticipation at a Glimpse: To What Extent Can Multimodal Cues Replace Video? [1.1288535170985818]
本稿では,Glimpseにおける行動予測手法であるAAGを紹介する。 AAGは、RGB機能と単一のフレームからの深さキューを組み合わせることで、空間的推論を強化している。以上の結果から,AAGを用いたマルチモーダル単一フレーム動作予測が競争力を発揮することが示された。
論文参考訳（メタデータ） (2025-12-02T14:57:17Z)
GTA1: GUI Test-time Scaling Agent [77.60727242084971]
本稿ではGUIテストタイムスケーリングエージェントGTA1の2つの課題について検討する。まず、最も適切なアクション提案を選択するために、テスト時間スケーリング手法を提案する。第2に、選択したアクション提案を対応する視覚要素にグラウンドする際の精度の向上を実現するモデルを提案する。
論文参考訳（メタデータ） (2025-07-08T08:52:18Z)
Masked Temporal Interpolation Diffusion for Procedure Planning in Instructional Videos [32.71627274876863]
本稿では,授業ビデオにおけるプロシージャ計画の課題に対処し,開始と終了の視覚的観察から協調的かつタスクに沿ったアクションシーケンスを生成することを目的とする。これまでの研究は主に、観察された状態と観察されていない行動の間のギャップを埋めるためにテキストレベルの監督に依存してきたが、行動間の複雑な時間的関係を捉えるのに苦労した。本研究では,拡散モデル内に潜時空間時間モジュールを導入した仮設仮設時間補間拡散モデルを提案する。
論文参考訳（メタデータ） (2025-07-04T08:54:59Z)
Towards Test Generation from Task Description for Mobile Testing with Multi-modal Reasoning [8.363126388041408]
マルチモーダルなマルチエージェントフレームワークであるVisiDroidを導入し、次のアクションを反復的に決定し、画面の視覚画像を利用してタスクの完全性を検出する。我々の評価では、VisiDroidの精度は87.3%で、最良基準線を23.5%上回っている。
論文参考訳（メタデータ） (2025-04-22T14:02:57Z)
Toward Generation of Test Cases from Task Descriptions via History-aware Planning [8.467983784989805]
自動Webテストでは、自然言語タスク記述からテストスクリプトを生成することがテスト生成プロセスの強化に不可欠である。このアクティビティには、将来のテストアクティビティのためのテストスクリプトを形成するために、アクションの正しいシーケンスを作成することが含まれる。 HxAgentは、1)現在の内容と実行可能なアクションの観察、2)以前のWeb状態とアクションの短期記憶、3)正しいアクションシーケンスによる長期的な経験、に基づいて次のアクションを決定するための反復的大規模言語モデルエージェントプランニング手法である。
論文参考訳（メタデータ） (2025-04-19T16:03:03Z)
Spatio-Temporal Context Prompting for Zero-Shot Action Detection [13.22912547389941]
本稿では,視覚言語モデルの豊富な知識を効果的に活用し,対人インタラクションを実現する手法を提案する。同時に複数の人物による異なる行動を認識するという課題に対処するために,興味あるトークンスポッティング機構を設計する。提案手法は,従来の手法に比べて優れた結果を得ることができ,さらにマルチアクションビデオに拡張することができる。
論文参考訳（メタデータ） (2024-08-28T17:59:05Z)
TreeSBA: Tree-Transformer for Self-Supervised Sequential Brick Assembly [51.29305265324916]
入力された多視点画像から連続的な組立動作を予測するために,クラスに依存しないツリー・トランスフォーマフレームワークを提案する。逐次レンガ組立作業の大きな課題は、ステップワイドアクションラベルが実際に入手するのに費用がかかり、面倒であることである。我々は、合成から現実への移行学習を活用することにより、この問題を緩和する。
論文参考訳（メタデータ） (2024-07-22T14:05:27Z)
Semantically Guided Representation Learning For Action Anticipation [9.836788915947924]
本稿では,S-GEAR(Semantically Guided Representation Learning)フレームワークを提案する。 S-GEARは視覚行動のプロトタイプを学び、言語モデルを利用して関係を構造化し、意味を誘導する。我々は,S-GEARが言語から視覚プロトタイプへ行動間の幾何学的関連を効果的に伝達することを示した。
論文参考訳（メタデータ） (2024-07-02T14:44:01Z)
CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation [61.68049335444254]
MLLM(Multimodal large language model)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。包括的環境認識(CEP)と条件付き行動予測(CAP)の2つの新しいアプローチを備えた包括的認知型LLMエージェントCoCo-Agentを提案する。 AITW と META-GUI ベンチマークにおいて,我々のエージェントは実シナリオで有望な性能を示す新しい最先端性能を実現する。
論文参考訳（メタデータ） (2024-02-19T08:29:03Z)
JOADAA: joint online action detection and action anticipation [2.7792814152937027]
アクション予測は、過去のイベントと将来のイベントを結びつけることによって、将来のアクションを予測する。オンラインアクション検出は、ストリーミング形式でアクションを予測するタスクである。行動予測とオンライン行動検出を組み合わせることで、我々のアプローチは将来の情報の欠落した依存関係をカバーできる。
論文参考訳（メタデータ） (2023-09-12T11:17:25Z)
Improving Vision-and-Language Navigation by Generating Future-View Image Semantics [96.8435716885159]
VLN(Vision-and-Language Navigation)は、自然言語命令に基づいてエージェントが環境をナビゲートする必要があるタスクである。エージェントのドメイン内事前トレーニングにおける3つのプロキシタスクを提案する: Masked Panorama Modeling (MPM)、 Masked Trajectory Modeling (MTM)、Action Prediction with Image Generation (APIG)。次に、VLNタスク上のエージェントを補助的損失で微調整し、エージェントが生成するビューセマンティクスと次のステップのグラウンド真実ビューセマンティクスとの差を最小限に抑える。
論文参考訳（メタデータ） (2023-04-11T00:36:02Z)
SimOn: A Simple Framework for Online Temporal Action Localization [51.27476730635852]
一般的なTransformerアーキテクチャを用いて,アクションインスタンスの予測を学習するSimOnというフレームワークを提案する。 THUMOS14とActivityNet1.3データセットの実験結果は、我々のモデルが従来の手法よりも著しく優れていることを示している。
論文参考訳（メタデータ） (2022-11-08T04:50:54Z)
End-to-end Temporal Action Detection with Transformer [86.80289146697788]
時間的アクション検出(TAD)は、トリミングされていないビデオにおいて、すべてのアクションインスタンスのセマンティックラベルとバウンダリを決定することを目的としている。そこで我々は,textitTadTR と呼ばれる Transformer によるTAD のエンドツーエンドフレームワークを構築した。本手法は,HACSセグメンツとTHUMOS14の最先端性能とActivityNet-1.3の競合性能を実現する。
論文参考訳（メタデータ） (2021-06-18T17:58:34Z)
Look Wide and Interpret Twice: Improving Performance on Interactive Instruction-following Tasks [29.671268927569063]
近年の研究では、タスクのためのよく設計されたデータセットであるALFREDを用いてこの問題に対処している。本稿では,従来の手法を大きなマージンで上回る新しい手法を提案する。
論文参考訳（メタデータ） (2021-06-01T16:06:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。