論文の概要: InfiGUIAgent: A Multimodal Generalist GUI Agent with Native Reasoning and Reflection
- arxiv url: http://arxiv.org/abs/2501.04575v1
- Date: Wed, 08 Jan 2025 15:45:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-09 14:56:43.883891
- Title: InfiGUIAgent: A Multimodal Generalist GUI Agent with Native Reasoning and Reflection
- Title(参考訳): InfiGUIAgent: ネイティブ推論とリフレクションを備えた多モード汎用GUIエージェント
- Authors: Yuhang Liu, Pengxiang Li, Zishu Wei, Congkai Xie, Xueyu Hu, Xinchen Xu, Shengyu Zhang, Xiaotian Han, Hongxia Yang, Fei Wu,
- Abstract要約: MLLMベースのGUIエージェントである textitInfiGUIAgent を2段階の教師付き微調整パイプラインでトレーニングした。
ステージ1はGUIの理解や接地といった基本的なスキルを強化し、ステージ2は階層的推論と予測反射推論のスキルを統合する。
textitInfiGUIAgentは、いくつかのGUIベンチマークで競合するパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 38.833925781308665
- License:
- Abstract: Graphical User Interface (GUI) Agents, powered by multimodal large language models (MLLMs), have shown great potential for task automation on computing devices such as computers and mobile phones. However, existing agents face challenges in multi-step reasoning and reliance on textual annotations, limiting their effectiveness. We introduce \textit{InfiGUIAgent}, an MLLM-based GUI Agent trained with a two-stage supervised fine-tuning pipeline. Stage 1 enhances fundamental skills such as GUI understanding and grounding, while Stage 2 integrates hierarchical reasoning and expectation-reflection reasoning skills using synthesized data to enable native reasoning abilities of the agents. \textit{InfiGUIAgent} achieves competitive performance on several GUI benchmarks, highlighting the impact of native reasoning skills in enhancing GUI interaction for automation tasks. Resources are available at \url{https://github.com/Reallm-Labs/InfiGUIAgent}.
- Abstract(参考訳): グラフィカルユーザインタフェース (GUI) エージェントはマルチモーダル大言語モデル (MLLM) をベースとして,コンピュータや携帯電話などのコンピュータ機器上でのタスク自動化に大きな可能性を示している。
しかし、既存のエージェントは、多段階の推論とテキストアノテーションへの依存において課題に直面し、その効果を制限している。
MLLMベースのGUIエージェントであるtextit{InfiGUIAgent} を2段階の教師付き微調整パイプラインでトレーニングした。
ステージ1はGUI理解や接地といった基本的なスキルを強化し、ステージ2は階層的推論と予測反射推論のスキルを合成データを使って統合し、エージェントのネイティブな推論能力を実現する。
\textit{InfiGUIAgent}は、いくつかのGUIベンチマークで競合性能を達成し、自動化タスクにおけるGUIインタラクションの強化におけるネイティブ推論スキルの影響を強調している。
リソースは \url{https://github.com/Reallm-Labs/InfiGUIAgent} で入手できる。
関連論文リスト
- ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。
デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。
256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文 参考訳(メタデータ) (2024-11-26T14:29:47Z) - GUI Agents with Foundation Models: A Comprehensive Survey [52.991688542729385]
この調査は(M)LLMベースのGUIエージェントに関する最近の研究を集約する。
データ、フレームワーク、アプリケーションにおける重要なイノベーションを強調します。
本稿では, (M)LLM ベースの GUI エージェントの分野におけるさらなる発展を期待する。
論文 参考訳(メタデータ) (2024-11-07T17:28:10Z) - ClickAgent: Enhancing UI Location Capabilities of Autonomous Agents [0.0]
ClickAgentは、自律エージェントを構築するための新しいフレームワークである。
ClickAgentでは、MLLMが推論とアクションプランニングを処理し、別のUIロケーションモデルが画面上の関連するUI要素を識別する。
本評価は,Androidスマートフォンエミュレータと実際のAndroidスマートフォンの両方で実施し,タスク成功率をエージェント性能測定の指標として用いた。
論文 参考訳(メタデータ) (2024-10-09T14:49:02Z) - GUICourse: From General Vision Language Models to Versatile GUI Agents [75.5150601913659]
GUICourseは、ビジュアルベースのGUIエージェントをトレーニングするためのデータセットスイートです。
まず、OCRとVLMのグラウンド機能を強化するためにGUIEnvデータセットを導入する。
次にGUIActとGUIChatデータセットを導入し、GUIコンポーネントやインタラクションに関する知識を充実させます。
論文 参考訳(メタデータ) (2024-06-17T08:30:55Z) - GUI-WORLD: A Dataset for GUI-oriented Multimodal LLM-based Agents [73.9254861755974]
本稿では,人間のMLLMアノテーションを巧みに作成するGUI-Worldという新しいデータセットを提案する。
各種GUIコンテンツの理解において,ImageLLMs や VideoLLMs などの最先端MLLMの能力を評価する。
論文 参考訳(メタデータ) (2024-06-16T06:56:53Z) - CAAP: Context-Aware Action Planning Prompting to Solve Computer Tasks with Front-End UI Only [21.054681757006385]
本稿では,スクリーンショット画像のみを通して環境を知覚するエージェントを提案する。
大規模言語モデルの推論能力を活用することで,大規模人間の実演データの必要性を解消する。
AgentはMiniWoB++の平均成功率は94.5%、WebShopの平均タスクスコアは62.3である。
論文 参考訳(メタデータ) (2024-06-11T05:21:20Z) - CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation [61.68049335444254]
MLLM(Multimodal large language model)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。
包括的環境認識(CEP)と条件付き行動予測(CAP)の2つの新しいアプローチを備えた包括的認知型LLMエージェントCoCo-Agentを提案する。
AITW と META-GUI ベンチマークにおいて,我々のエージェントは実シナリオで有望な性能を示す新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-19T08:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。