Fugu-MT 論文翻訳(概要): ScreenLLM: Stateful Screen Schema for Efficient Action Understanding and Prediction

論文の概要: ScreenLLM: Stateful Screen Schema for Efficient Action Understanding and Prediction

arxiv url: http://arxiv.org/abs/2503.20978v1
Date: Wed, 26 Mar 2025 20:41:24 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-28 18:49:11.306426
Title: ScreenLLM: Stateful Screen Schema for Efficient Action Understanding and Prediction
Title（参考訳）: ScreenLLM: 効果的なアクション理解と予測のためのステートフルスクリーンスキーマ
Authors: Yiqiao Jin, Stefano Petrangeli, Yu Shen, Gang Wu,
Abstract要約: 先進的なUI理解とアクション予測に適したマルチモーダル大規模言語モデル(MLLM)のセットであるScreenLLMを紹介する。我々の研究は、多様なソフトウェア環境におけるユーザインタラクションを強化するスケーラブルで堅牢でインテリジェントなGUIエージェントの基礎を築いた。
参考スコア（独自算出の注目度）: 15.220300812671494
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Graphical User Interface (GUI) agents are autonomous systems that interpret and generate actions, enabling intelligent user assistance and automation. Effective training of these agent presents unique challenges, such as sparsity in supervision signals, scalability for large datasets, and the need for nuanced user understanding. We propose stateful screen schema, an efficient representation of GUI interactions that captures key user actions and intentions over time. Building on this foundation, we introduce ScreenLLM, a set of multimodal large language models (MLLMs) tailored for advanced UI understanding and action prediction. Extensive experiments on both open-source and proprietary models show that ScreenLLM accurately models user behavior and predicts actions. Our work lays the foundation for scalable, robust, and intelligent GUI agents that enhance user interaction in diverse software environments.
Abstract（参考訳）: グラフィカルユーザインタフェース(GUI)エージェントは、アクションを解釈して生成する自律システムであり、インテリジェントなユーザアシストと自動化を可能にする。これらのエージェントの効果的なトレーニングは、監視信号のスパーシリティ、大規模なデータセットのスケーラビリティ、ニュアンスなユーザ理解の必要性など、ユニークな課題を提示している。本稿では,GUIインタラクションの効率的な表現であるステートフルスクリーンスキーマを提案する。この基盤の上に構築されたScreenLLMは、高度なUI理解とアクション予測に適したマルチモーダルな大規模言語モデル(MLLM)のセットである。オープンソースモデルとプロプライエタリモデルの両方での大規模な実験では、ScreenLLMがユーザの振る舞いを正確にモデル化し、アクションを予測することが示されている。我々の研究は、多様なソフトウェア環境におけるユーザインタラクションを強化するスケーラブルで堅牢でインテリジェントなGUIエージェントの基礎を築いた。

関連論文リスト

ShowUI-Aloha: Human-Taught GUI Agent [46.35538753446132]
ShowUI-Alohaは、非構造化され、その内部の人間のスクリーン記録を構造化され、実行可能なタスクに変換する。学習者はこれらの生の相互作用と周囲の視覚的文脈を意味論的に解釈し、それらを記述的な自然言語キャプションに翻訳する。解析されたデモを読み、タスク状態を維持し、次のハイレベルアクションプランを動的に定式化するプランナー。
論文参考訳（メタデータ） (2026-01-12T04:04:20Z)
Mano Technical Report [29.551514304095296]
Manoは、大規模なWebおよびコンピュータシステムデータに基づいて事前訓練されたマルチモーダル基盤モデル上に構築された堅牢なGUIエージェントである。 Mano氏は、Mind2WebやOSWorldなど、複数のGUIベンチマークで最先端のパフォーマンスをデモしている。
論文参考訳（メタデータ） (2025-09-22T03:13:58Z)
MagicGUI: A Foundational Mobile GUI Agent with Scalable Data Pipeline and Reinforcement Fine-tuning [83.81404871748438]
MagicGUIは、現実のモバイルGUI環境における認識、接地、推論における重要な課題に対処するために設計された、基本的なモバイルGUIエージェントである。フレームワークには、包括的で正確なデータセット、知覚と接地能力の強化、包括的で統一されたアクション空間、計画指向の推論メカニズムを含む6つの重要なコンポーネントが含まれている。
論文参考訳（メタデータ） (2025-07-19T12:33:43Z)
PersonaAgent: When Large Language Model Agents Meet Personalization at Test Time [87.99027488664282]
PersonaAgentは、汎用的なパーソナライゼーションタスクに対処するために設計されたフレームワークである。パーソナライズされたメモリモジュールとパーソナライズされたアクションモジュールを統合する。テストタイムのユーザ嗜好アライメント戦略は、リアルタイムのユーザの嗜好アライメントを保証する。
論文参考訳（メタデータ） (2025-06-06T17:29:49Z)
AgentCPM-GUI: Building Mobile-Use Agents with Reinforcement Fine-Tuning [82.42421823672954]
AgentCPM-GUIは、堅牢で効率的なオンデバイスGUIインタラクションのために構築されている。私たちのトレーニングパイプラインには、知覚を高めるためのグラウンドアウェア事前トレーニングが含まれています。 AgentCPM-GUIは5つの公開ベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-06-02T07:30:29Z)
GUI Agents: A Survey [129.94551809688377]
グラフィカルユーザインタフェース(GUI)エージェントは、人間とコンピュータのインタラクションを自動化するためのトランスフォーメーションアプローチとして登場した。 GUIエージェントの関心の高まりと基本的な重要性により、ベンチマーク、評価指標、アーキテクチャ、トレーニングメソッドを分類する総合的な調査を提供する。
論文参考訳（メタデータ） (2024-12-18T04:48:28Z)
Zero-Shot Prompting Approaches for LLM-based Graphical User Interface Generation [53.1000575179389]
LLMに基づくGUI検索とフィルタリング機構を統合した検索型GUI生成(RAGG)手法を提案する。また,GUI 生成に Prompt Decomposition (PDGG) と Self-Critique (SCGG) を適用した。 UI/UX経験を持つ100人以上の集団作業者の3000以上のGUIアノテーションを対象とし,SPGGはPDGGやRAGGとは対照的に,より効果的なGUI生成につながる可能性が示唆された。
論文参考訳（メタデータ） (2024-12-15T22:17:30Z)
Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining [67.87810796668981]
インフォメーション・インフォメーション・インフォメーション・クロッピング(ISC)と自己精製デュアルラーニング(SRDL) Irisは850KのGUIアノテーションだけで、複数のベンチマークで最先端のパフォーマンスを実現している。これらの改善は、WebとOSエージェントの両方の下流タスクで大幅に向上した。
論文参考訳（メタデータ） (2024-12-13T18:40:10Z)
Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
自律型GUIエージェントのための統合視覚ベースのフレームワークであるAguvisを紹介する。提案手法は,画像に基づく観察と,自然言語の接地命令を視覚要素に活用する。これまでの作業の限界に対処するため、モデル内に明確な計画と推論を統合する。
論文参考訳（メタデータ） (2024-12-05T18:58:26Z)
Large Language Model-Brained GUI Agents: A Survey [42.82362907348966]
マルチモーダルモデルはGUI自動化の新しい時代を支えてきた。彼らは自然言語理解、コード生成、視覚処理において例外的な能力を示した。これらのエージェントはパラダイムシフトを表しており、ユーザーは単純な会話コマンドで複雑なマルチステップタスクを実行できる。
論文参考訳（メタデータ） (2024-11-27T12:13:39Z)
ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。 256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文参考訳（メタデータ） (2024-11-26T14:29:47Z)
GUI Action Narrator: Where and When Did That Action Take Place? [19.344324166716245]
我々は,4,189種類の動画キャプションサンプルからなるGUIアクションの動画キャプションベンチマークを開発した。本課題は,自然映像のキャプションに比較して,独特な課題を呈する。 GUI アクションデータセット textbfAct2Cap と GUI ビデオキャプションのためのシンプルなフレームワーク textbfGUI Narrator を紹介する。
論文参考訳（メタデータ） (2024-06-19T17:22:11Z)
CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation [61.68049335444254]
MLLM(Multimodal large language model)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。包括的環境認識(CEP)と条件付き行動予測(CAP)の2つの新しいアプローチを備えた包括的認知型LLMエージェントCoCo-Agentを提案する。 AITW と META-GUI ベンチマークにおいて,我々のエージェントは実シナリオで有望な性能を示す新しい最先端性能を実現する。
論文参考訳（メタデータ） (2024-02-19T08:29:03Z)
ASSISTGUI: Task-Oriented Desktop Graphical User Interface Automation [30.693616802332745]
本稿では,ユーザが要求するタスクに応じて,Windowsプラットフォーム上でマウスとキーボードを操作することができるかどうかを評価するための新しいベンチマーク,AssistGUIを提案する。本稿では,AIエージェントによって駆動される高度なGUIを組み込んだ高度なアクタ・クリティカル・フレームワークを提案する。
論文参考訳（メタデータ） (2023-12-20T15:28:38Z)
You Only Look at Screens: Multimodal Chain-of-Action Agents [37.118034745972956]
Auto-GUIは、インターフェースと直接対話するマルチモーダルソリューションである。そこで本研究では,エージェントが実行すべきアクションを決定するためのチェーン・オブ・アクション手法を提案する。我々は,30$Kのユニークな命令を持つ新しいデバイス制御ベンチマークAITWに対するアプローチを評価した。
論文参考訳（メタデータ） (2023-09-20T16:12:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。