Fugu-MT 論文翻訳(概要): You Only Look at Screens: Multimodal Chain-of-Action Agents

論文の概要: You Only Look at Screens: Multimodal Chain-of-Action Agents

arxiv url: http://arxiv.org/abs/2309.11436v4
Date: Fri, 7 Jun 2024 04:52:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-10 20:56:18.043997
Title: You Only Look at Screens: Multimodal Chain-of-Action Agents
Title（参考訳）: スクリーンだけ見る:マルチモーダル・チェーン・オブ・アクション・エージェント
Authors: Zhuosheng Zhang, Aston Zhang,
Abstract要約: Auto-GUIは、インターフェースと直接対話するマルチモーダルソリューションである。そこで本研究では,エージェントが実行すべきアクションを決定するためのチェーン・オブ・アクション手法を提案する。我々は,30$Kのユニークな命令を持つ新しいデバイス制御ベンチマークAITWに対するアプローチを評価した。
参考スコア（独自算出の注目度）: 37.118034745972956
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Autonomous graphical user interface (GUI) agents aim to facilitate task automation by interacting with the user interface without manual intervention. Recent studies have investigated eliciting the capabilities of large language models (LLMs) for effective engagement in diverse environments. To align with the input-output requirement of LLMs, most existing approaches are developed under a sandbox setting where they rely on external tools and application-specific APIs to parse the environment into textual elements and interpret the predicted actions. Consequently, those approaches often grapple with inference inefficiency and error propagation risks. To mitigate the challenges, we introduce Auto-GUI, a multimodal solution that directly interacts with the interface, bypassing the need for environment parsing or reliance on application-dependent APIs. Moreover, we propose a chain-of-action technique -- leveraging a series of intermediate previous action histories and future action plans -- to help the agent decide what action to execute. We evaluate our approach on a new device-control benchmark AITW with 30$K$ unique instructions, spanning multi-step tasks such as application operation, web searching, and web shopping. Experimental results show that Auto-GUI achieves state-of-the-art performance with an action type prediction accuracy of 90\% and an overall action success rate of 74\%. Code is publicly available at https://github.com/cooelf/Auto-GUI.
Abstract（参考訳）: 自律型グラフィカルユーザインタフェース(GUI)エージェントは、手作業による介入なしにユーザインタフェースと対話することで、タスクの自動化を促進することを目的としている。近年,多様な環境において,大規模言語モデル(LLM)を効果的に活用する能力について検討している。 LLMの入出力要件に合わせて、既存のほとんどのアプローチはサンドボックス環境下で開発され、外部ツールやアプリケーション固有のAPIに依存して、環境をテキスト要素に解析し、予測されたアクションを解釈する。その結果、これらのアプローチは推論の非効率性とエラーの伝播リスクに悩まされることが多い。課題を軽減するため、私たちはAuto-GUIを導入しました。Auto-GUIはインターフェースと直接対話するマルチモーダルソリューションで、環境解析やアプリケーション依存APIへの依存を回避します。さらに、エージェントが実行すべきアクションを決定するのを助けるために、一連の中間的なアクション履歴と将来のアクション計画を活用するチェーン・オブ・アクション手法を提案する。我々は,アプリケーション操作やWeb検索,Webショッピングといったマルチステップタスクにまたがる,30$Kのユニークな命令を持つ新しいデバイス制御ベンチマークAITWに対するアプローチを評価した。実験の結果,Auto-GUIは動作型予測精度90\%,総合動作成功率74\%で最先端性能を達成することがわかった。コードはhttps://github.com/cooelf/Auto-GUIで公開されている。

関連論文リスト

AFRAgent : An Adaptive Feature Renormalization Based High Resolution Aware GUI agent [21.148033135113927]
インストラクトBLIPに基づくマルチモーダルアーキテクチャを導入し,GUI自動化における優れた性能を実現する。低解像度画像埋め込みを効果的に強化する適応的特徴正規化(トークンレベルのアフィン変換)手法を提案する。我々はAFRAgentをMeta-GUIおよびAITWベンチマークで評価し、スマートフォン自動化のための新しい最先端のベースラインを確立する。
論文参考訳（メタデータ） (2025-11-30T11:32:54Z)
AUTO-Explorer: Automated Data Collection for GUI Agent [58.58097564914626]
本稿では,アノテーションコストを最小限に抑えた自動データ収集手法であるAuto-Explorerを提案する。それは、GUI環境を自律的に解析し探索する、シンプルだが効果的な探索メカニズムを組み込んでいる。収集したデータを用いて,マルチモーダル大規模言語モデル(MLLM)を微調整し,GUI要素基盤テストセットを確立する。
論文参考訳（メタデータ） (2025-11-09T15:13:45Z)
GUI-PRA: Process Reward Agent for GUI Tasks [25.20594694997543]
プロセスリワードモデル(Process Reward Models, PRM)は、推論中に重要なプロセス信号でこれらのエージェントをガイドできる、有望なソリューションである。 PRMは「中間の失われた」現象に悩まされ、歴史的に圧倒的な状況が現在の段階の評価を損なう。 GUI-PRA(Process Reward Agent for GUI Tasks)は,標準的なPRMよりも優れたプロセス報酬の提供を目的とした判定エージェントである。
論文参考訳（メタデータ） (2025-09-27T11:42:36Z)
GTA1: GUI Test-time Scaling Agent [77.60727242084971]
本稿ではGUIテストタイムスケーリングエージェントGTA1の2つの課題について検討する。まず、最も適切なアクション提案を選択するために、テスト時間スケーリング手法を提案する。第2に、選択したアクション提案を対応する視覚要素にグラウンドする際の精度の向上を実現するモデルを提案する。
論文参考訳（メタデータ） (2025-07-08T08:52:18Z)
MobileGUI-RL: Advancing Mobile GUI Agent through Reinforcement Learning in Online Environment [63.62778707277929]
MobileGUI-RLは、オンライン環境でGUIエージェントをトレーニングするスケーラブルなフレームワークである。自己探索とフィルタリングを通じて学習可能なタスクのカリキュラムを合成する。 GRPOをGUIナビゲーションに適応させ、軌道認識の利点と複合報酬を付与する。
論文参考訳（メタデータ） (2025-07-08T07:07:53Z)
AgentCPM-GUI: Building Mobile-Use Agents with Reinforcement Fine-Tuning [82.42421823672954]
AgentCPM-GUIは、堅牢で効率的なオンデバイスGUIインタラクションのために構築されている。私たちのトレーニングパイプラインには、知覚を高めるためのグラウンドアウェア事前トレーニングが含まれています。 AgentCPM-GUIは5つの公開ベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-06-02T07:30:29Z)
UFO2: The Desktop AgentOS [60.317812905300336]
UFO2はWindowsデスクトップ用のマルチエージェントAgentOSで、実用的なシステムレベルの自動化に発展している。我々は、20以上の現実世界のWindowsアプリケーションに対してUFO2を評価し、従来のCUAよりもロバスト性および実行精度を大幅に改善した。我々の結果は、ディープOSの統合によって、信頼性の高いユーザ指向のデスクトップ自動化へのスケーラブルな道が開けることを示している。
論文参考訳（メタデータ） (2025-04-20T13:04:43Z)
ScreenLLM: Stateful Screen Schema for Efficient Action Understanding and Prediction [15.220300812671494]
先進的なUI理解とアクション予測に適したマルチモーダル大規模言語モデル(MLLM)のセットであるScreenLLMを紹介する。我々の研究は、多様なソフトウェア環境におけるユーザインタラクションを強化するスケーラブルで堅牢でインテリジェントなGUIエージェントの基礎を築いた。
論文参考訳（メタデータ） (2025-03-26T20:41:24Z)
UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。 OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文参考訳（メタデータ） (2025-01-21T17:48:10Z)
Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
自律型GUIエージェントのための統合視覚ベースのフレームワークであるAguvisを紹介する。提案手法は,画像に基づく観察と,自然言語の接地命令を視覚要素に活用する。これまでの作業の限界に対処するため、モデル内に明確な計画と推論を統合する。
論文参考訳（メタデータ） (2024-12-05T18:58:26Z)
ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。 256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文参考訳（メタデータ） (2024-11-26T14:29:47Z)
AutoGLM: Autonomous Foundation Agents for GUIs [51.276965515952]
我々は、グラフィカルユーザインタフェース(GUI)を介してデジタルデバイスを自律的に制御するための基礎エージェントとして設計された、ChatGLMファミリーの新しいシリーズであるAutoGLMを紹介する。実世界のGUIインタラクションのための実践的基礎エージェントシステムとしてAutoGLMを開発した。評価では、AutoGLMが複数のドメインにまたがって有効であることを示す。
論文参考訳（メタデータ） (2024-10-28T17:05:10Z)
ROS-LLM: A ROS framework for embodied AI with task feedback and structured reasoning [74.58666091522198]
非専門家による直感的なロボットプログラミングのためのフレームワークを提案する。ロボットオペレーティングシステム(ROS)からの自然言語のプロンプトと文脈情報を活用する我々のシステムは,大規模言語モデル (LLM) を統合し,非専門家がチャットインタフェースを通じてシステムにタスク要求を記述できるようにする。
論文参考訳（メタデータ） (2024-06-28T08:28:38Z)
CAAP: Context-Aware Action Planning Prompting to Solve Computer Tasks with Front-End UI Only [21.054681757006385]
本稿では,スクリーンショット画像のみを通して環境を知覚するエージェントを提案する。大規模言語モデルの推論能力を活用することで,大規模人間の実演データの必要性を解消する。 AgentはMiniWoB++の平均成功率は94.5%、WebShopの平均タスクスコアは62.3である。
論文参考訳（メタデータ） (2024-06-11T05:21:20Z)
CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation [61.68049335444254]
MLLM(Multimodal large language model)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。包括的環境認識(CEP)と条件付き行動予測(CAP)の2つの新しいアプローチを備えた包括的認知型LLMエージェントCoCo-Agentを提案する。 AITW と META-GUI ベンチマークにおいて,我々のエージェントは実シナリオで有望な性能を示す新しい最先端性能を実現する。
論文参考訳（メタデータ） (2024-02-19T08:29:03Z)
ASSISTGUI: Task-Oriented Desktop Graphical User Interface Automation [30.693616802332745]
本稿では,ユーザが要求するタスクに応じて,Windowsプラットフォーム上でマウスとキーボードを操作することができるかどうかを評価するための新しいベンチマーク,AssistGUIを提案する。本稿では,AIエージェントによって駆動される高度なGUIを組み込んだ高度なアクタ・クリティカル・フレームワークを提案する。
論文参考訳（メタデータ） (2023-12-20T15:28:38Z)
Reinforced UI Instruction Grounding: Towards a Generic UI Task Automation API [17.991044940694778]
汎用的なUIタスク自動化エグゼキュータとして、与えられたUIスクリーンショットに自然言語命令をベースとしたマルチモーダルモデルを構築します。画像からテキストまでの事前学習知識の活用を容易にするため,画素からシーケンスまでのパラダイムを踏襲する。提案する強化UI命令グラウンドモデルでは,最先端の手法よりも明確なマージンで性能が向上する。
論文参考訳（メタデータ） (2023-10-07T07:22:41Z)
Realistic simulation of users for IT systems in cyber ranges [63.20765930558542]
ユーザアクティビティを生成するために,外部エージェントを用いて各マシンを計測する。このエージェントは、決定論的および深層学習に基づく手法を組み合わせて、異なる環境に適応する。また,会話や文書の作成を容易にする条件付きテキスト生成モデルを提案する。
論文参考訳（メタデータ） (2021-11-23T10:53:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。