Fugu-MT 論文翻訳(概要): The Dawn of GUI Agent: A Preliminary Case Study with Claude 3.5 Computer Use

論文の概要: The Dawn of GUI Agent: A Preliminary Case Study with Claude 3.5 Computer Use

arxiv url: http://arxiv.org/abs/2411.10323v1
Date: Fri, 15 Nov 2024 16:23:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:48.122418
Title: The Dawn of GUI Agent: A Preliminary Case Study with Claude 3.5 Computer Use
Title（参考訳）: GUIエージェントの夜明け:クロード3.5コンピュータを用いた予備事例研究
Authors: Siyuan Hu, Mingyu Ouyang, Difei Gao, Mike Zheng Shou,
Abstract要約: Claude 3.5 Computer Useは、GUIエージェントとして公開ベータでコンピュータの使用を提供する最初のフロンティアAIモデルである。このケーススタディでは、さまざまなドメインやソフトウェアにまたがる、慎重に設計されたタスクの集合をキュレートし、整理する。これらのケースからの観察は、デスクトップアクションへのエンドツーエンド言語におけるClaude 3.5 Computer Useの前例のない能力を示している。
参考スコア（独自算出の注目度）: 18.416366168688246
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The recently released model, Claude 3.5 Computer Use, stands out as the first frontier AI model to offer computer use in public beta as a graphical user interface (GUI) agent. As an early beta, its capability in the real-world complex environment remains unknown. In this case study to explore Claude 3.5 Computer Use, we curate and organize a collection of carefully designed tasks spanning a variety of domains and software. Observations from these cases demonstrate Claude 3.5 Computer Use's unprecedented ability in end-to-end language to desktop actions. Along with this study, we provide an out-of-the-box agent framework for deploying API-based GUI automation models with easy implementation. Our case studies aim to showcase a groundwork of capabilities and limitations of Claude 3.5 Computer Use with detailed analyses and bring to the fore questions about planning, action, and critic, which must be considered for future improvement. We hope this preliminary exploration will inspire future research into the GUI agent community. All the test cases in the paper can be tried through the project: https://github.com/showlab/computer_use_ootb.
Abstract（参考訳）: 最近リリースされたClaude 3.5 Computer Useは、グラフィカルユーザインタフェース(GUI)エージェントとしてコンピュータをパブリックベータで提供する最初のフロンティアAIモデルとして注目されている。ベータ版として、実世界の複雑な環境での能力は未だに不明である。このケーススタディでは、Claude 3.5 Computer Useを探索するために、さまざまなドメインやソフトウェアにまたがる、慎重に設計されたタスクのコレクションをキュレートし、整理する。これらのケースからの観察は、デスクトップアクションへのエンドツーエンド言語におけるClaude 3.5 Computer Useの前例のない能力を示している。本研究は,APIベースのGUI自動化モデルを実装容易な実装でデプロイするための,既定のエージェントフレームワークを提供する。ケーススタディでは,Claude 3.5 Computer Useの能力と限界を詳細に分析し,今後の改善を検討する必要がある計画,行動,批判に関する前向きな疑問を提起することを目的としている。この予備的な調査がGUIエージェントコミュニティに将来の研究を刺激することを期待している。論文のすべてのテストケースは、プロジェクトを通して試すことができる。

関連論文リスト

GUI-explorer: Autonomous Exploration and Mining of Transition-aware Knowledge for GUI Agent [66.34801160469067]
MLLMはUIコンポーネントの誤解釈と古い知識の2つの大きな問題に悩まされている。本稿では,2つの基本的なメカニズムを組み込んだトレーニング不要なGUIエージェントであるGUI-Explorerを提案する。 SPA-Benchでは53.7%、AndroidWorldでは47.4%のタスク成功率で、GUI-ExplorerはSOTAエージェントよりも大幅に改善されている。
論文参考訳（メタデータ） (2025-05-22T16:01:06Z)
GUI-Bee: Align GUI Action Grounding to Novel Environments via Autonomous Exploration [56.58744345634623]
MLLMをベースとした自律エージェントGUI-Beeを提案する。 NovelScreenSpotも導入しています。これはGUIアクショングラウンドモデルと新しい環境との整合性をテストするためのベンチマークです。
論文参考訳（メタデータ） (2025-01-23T18:16:21Z)
GUI Testing Arena: A Unified Benchmark for Advancing Autonomous GUI Testing Agent [24.97846085313314]
自動GUIテストのプロセス全体を評価するための,形式化された総合的な環境を提案する。テストプロセスは、テスト意図の生成、テストタスクの実行、GUI欠陥検出という、3つの重要なサブタスクに分割します。実際のモバイルアプリケーション、人工的に注入された欠陥を持つモバイルアプリケーション、合成データという3つのデータタイプを使用して、異なるモデルの性能を評価する。
論文参考訳（メタデータ） (2024-12-24T13:41:47Z)
GUI Agents: A Survey [129.94551809688377]
グラフィカルユーザインタフェース(GUI)エージェントは、人間とコンピュータのインタラクションを自動化するためのトランスフォーメーションアプローチとして登場した。 GUIエージェントの関心の高まりと基本的な重要性により、ベンチマーク、評価指標、アーキテクチャ、トレーニングメソッドを分類する総合的な調査を提供する。
論文参考訳（メタデータ） (2024-12-18T04:48:28Z)
Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
自律型GUIエージェントのための統合視覚ベースのフレームワークであるAguvisを紹介する。提案手法は,画像に基づく観察と,自然言語の接地命令を視覚要素に活用する。これまでの作業の限界に対処するため、モデル内に明確な計画と推論を統合する。
論文参考訳（メタデータ） (2024-12-05T18:58:26Z)
Large Language Model-Brained GUI Agents: A Survey [42.82362907348966]
マルチモーダルモデルはGUI自動化の新しい時代を支えてきた。彼らは自然言語理解、コード生成、視覚処理において例外的な能力を示した。これらのエージェントはパラダイムシフトを表しており、ユーザーは単純な会話コマンドで複雑なマルチステップタスクを実行できる。
論文参考訳（メタデータ） (2024-11-27T12:13:39Z)
OS-ATLAS: A Foundation Action Model for Generalist GUI Agents [55.37173845836839]
OS-AtlasはGUIグラウンディングとOODエージェントタスクに優れた基礎的なGUIアクションモデルである。現在までに1300万以上のGUI要素を含む、オープンソースのクロスプラットフォームGUI基盤コーパスをリリースしています。
論文参考訳（メタデータ） (2024-10-30T17:10:19Z)
VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality Models [89.63342806812413]
PyTorchに基づく大規模マルチモーダリティモデルを評価するためのオープンソースツールキットを提案する。 VLMEvalKitは70以上の大規模なマルチモダリティモデルを実装しており、プロプライエタリなAPIとオープンソースモデルの両方を含んでいる。マルチモーダル学習研究の進展を追跡するために,OpenVLM Leaderboardを主催する。
論文参考訳（メタデータ） (2024-07-16T13:06:15Z)
GUICourse: From General Vision Language Models to Versatile GUI Agents [75.5150601913659]
GUICourseは、ビジュアルベースのGUIエージェントをトレーニングするためのデータセットスイートです。まず、OCRとVLMのグラウンド機能を強化するためにGUIEnvデータセットを導入する。次にGUIActとGUIChatデータセットを導入し、GUIコンポーネントやインタラクションに関する知識を充実させます。
論文参考訳（メタデータ） (2024-06-17T08:30:55Z)
OS-Copilot: Towards Generalist Computer Agents with Self-Improvement [48.29860831901484]
オペレーティングシステム(OS)の包括的要素と対話可能な汎用エージェントを構築するためのフレームワークであるOS-Copilotを紹介する。我々はOS-Copilotを使って、汎用コンピュータタスクを自動化する自己改善型実施エージェントであるFRIDAYを開発した。一般的なAIアシスタントのベンチマークであるGAIAでは、FRIDAYが従来の手法を35%上回り、以前のタスクから蓄積したスキルを通じて、目に見えないアプリケーションへの強力な一般化を示している。
論文参考訳（メタデータ） (2024-02-12T07:29:22Z)
ScreenAgent: A Vision Language Model-driven Computer Control Agent [17.11085071288194]
視覚言語モデル(VLM)エージェントが実際のコンピュータ画面と対話する環境を構築する。この環境では、エージェントは、マウスとキーボードのアクションを出力することで、スクリーンショットを観察し、GUI(Graphics User Interface)を操作することができる。そこで,ScreenAgentデータセットを構築し,様々なコンピュータタスクの完了時にスクリーンショットとアクションシーケンスを収集する。
論文参考訳（メタデータ） (2024-02-09T02:33:45Z)
CausalVLR: A Toolbox and Benchmark for Visual-Linguistic Causal Reasoning [107.81733977430517]
CausalVLR(Causal Visual-Linguistic Reasoning)は、最先端の因果関係の発見と因果推論方法の豊富なセットを含むオープンソースのツールボックスである。これらのメソッドはNVIDIAコンピューティングシステムの下でPyTorchを実装したツールボックスに含まれている。
論文参考訳（メタデータ） (2023-06-30T08:17:38Z)
End-to-end AI framework for interpretable prediction of molecular and crystal properties [3.8878792624088856]
このフレームワークは、CGCNN、PhysNet、SchNet、MPNN、MPNN-transformer、TorchMD-NETといった最先端AIモデルに基づいている。これらのAIモデルとベンチマークQM9、hMOF、MD17データセットを併用して、モデルがユーザ指定の材料特性を予測する方法を示す。
論文参考訳（メタデータ） (2022-12-21T19:27:51Z)
BlenderBot 3: a deployed conversational agent that continually learns to responsibly engage [41.87861654035883]
BlenderBot 3は、インターネットへのアクセスと長期記憶による対話をオープンドメインで行うことができる対話モデルである。モデルウェイトとコードの両方をリリースし、また、オーガニックユーザと対話するために、モデルを公開Webページにデプロイしました。
論文参考訳（メタデータ） (2022-08-05T14:20:46Z)
VRKitchen2.0-IndoorKit: A Tutorial for Augmented Indoor Scene Building in Omniverse [77.52012928882928]
INDOORKITはNVIDIA OMNIVERSEの組み込みツールキットである。屋内シーンビルディング、シーンランダム化、アニメーションコントロールのための柔軟なパイプラインを提供する。
論文参考訳（メタデータ） (2022-06-23T17:53:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。