論文の概要: Benchmarking Living-Screen-Native GUI Agents on Short-Video Platforms
- arxiv url: http://arxiv.org/abs/2606.04701v1
- Date: Wed, 03 Jun 2026 10:25:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.68311
- Title: Benchmarking Living-Screen-Native GUI Agents on Short-Video Platforms
- Title(参考訳): 短ビデオプラットフォーム上でのリビングスクリーンネイティブGUIエージェントのベンチマーク
- Authors: Jiashu Yao, Heyan Huang, Daiqing Wu, Wangke Chen, Huaxi Ai, Haoyu Wen, Zeming Liu, Yuhang Guo,
- Abstract要約: 我々はこのタスクをリビング-スクリーン-Native GUIエージェントとして定式化する。
LivingScreenは、短いビデオプラットフォームでインスタンス化する最初のベンチマークである。
- 参考スコア(独自算出の注目度): 42.64808979930857
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: GUI agents today assume a static screen, where the world is frozen between two actions. However, real interfaces such as short-video applications violate this assumption, as their content keeps playing, and a competent user must decide what to watch and for how long. We formalize this task as Living-Screen-Native GUI agents and introduce LivingScreen, the first benchmark instantiating it on short-video platforms, with a faithful browser-based environment, a three-tier task suite, and metrics that jointly score accuracy and information efficiency. Evaluating extensive frontier models, we find that none reaches the human cost-accuracy performance, and that their dominant failure mode is over- and under-observation, pointing to observation control as a missing capability axis for future GUI agents. All data and code will be available at https://github.com/BITHLP/LivingScreen.
- Abstract(参考訳): 現在、GUIエージェントは2つのアクションの間に世界が凍結されている静的スクリーンを前提としている。
しかし、ショートビデオアプリケーションのような実際のインターフェースは、コンテンツが再生され続けるにつれて、この仮定に反する。
我々は、このタスクをLiving-Screen-Native GUIエージェントとして形式化し、短いビデオプラットフォームでインスタンス化する最初のベンチマークであるLivingScreenを紹介します。
広範囲なフロンティアモデルを評価すると、人間のコスト精度性能には到達せず、その主な障害モードは過度かつ過観測であり、将来のGUIエージェントの能力軸として観測制御が欠落していることが分かる。
すべてのデータとコードはhttps://github.com/BITHLP/LivingScreen.comで入手できる。
関連論文リスト
- OmniGUI: Benchmarking GUI Agents in Omni-Modal Smartphone Environments [5.613789567241434]
我々はOmniGUIを紹介した。OmniGUIは、Omniモードのスマートフォン環境でGUIエージェントを評価するために設計された最初のステップレベルベンチマークである。
データセットには、29のアプリケーションにわたる709のエキスパートデモエピソード(2,579のアクションステップ)が含まれている。
我々の経験的評価は、現在のモデルは視覚的に静的なタスクに能力を示すが、その動作予測性能は同期時間と聴覚信号を必要とする環境において著しく低下することを示している。
論文 参考訳(メタデータ) (2026-04-03T08:57:06Z) - GUI-360$^\circ$: A Comprehensive Dataset and Benchmark for Computer-Using Agents [59.107657859025586]
GUI-360$circ$は、コンピュータ利用エージェント(CUA)を進化させるために設計された大規模で包括的なデータセットとベンチマークスイートである。
リリースされたコーパスには、人気のあるWindowsオフィスアプリケーションにおける数千のトラジェクトリにわたる1.2万以上の実行されたアクションステップが含まれている。
このデータセットは、3つの標準タスク、GUIグラウンド、スクリーン解析、アクション予測、ハイブリッドGUI+APIアクションスペースをサポートする。
論文 参考訳(メタデータ) (2025-11-06T12:19:02Z) - MobileGUI-RL: Advancing Mobile GUI Agent through Reinforcement Learning in Online Environment [63.62778707277929]
MobileGUI-RLは、オンライン環境でGUIエージェントをトレーニングするスケーラブルなフレームワークである。
自己探索とフィルタリングを通じて学習可能なタスクのカリキュラムを合成する。
GRPOをGUIナビゲーションに適応させ、軌道認識の利点と複合報酬を付与する。
論文 参考訳(メタデータ) (2025-07-08T07:07:53Z) - ZeroGUI: Automating Online GUI Learning at Zero Human Cost [75.21128388931945]
我々は、ZeroGUIを提案する。ZeroGUIは、Zeroの人的コストでGUIエージェントのトレーニングを自動化する、スケーラブルでオンライン学習フレームワークである。
具体的には、(i)VLMベースの自動タスク生成を統合して、現在の環境状態から多様なトレーニング目標を生成するとともに、(ii)手作り評価機能なしでタスク成功を評価するためのVLMベースの自動報酬推定と、(iii)GUI環境と継続的に対話し学習するための2段階オンライン強化学習を統合する。
論文 参考訳(メタデータ) (2025-05-29T17:59:51Z) - WorldGUI: An Interactive Benchmark for Desktop GUI Automation from Any Starting Point [17.165899818213475]
We introduced WorldGUI, a comprehensive GUI benchmark including tasks across 10 wide used desktop and web applications。
WorldGUI-Agentは3つのコアモジュールを統一する普遍的なフレームワークである。高レベルプラン修正のためのPlanner-Critic、中間検証のためのStep-Check、アクションレベルの最適化のためのActor-Criticである。
論文 参考訳(メタデータ) (2025-02-12T01:06:10Z) - GUIWatcher: Automatically Detecting GUI Lags by Analyzing Mobile Application Screencasts [9.997570370503617]
グラフィカルユーザインタフェース(GUI)はモバイルアプリケーションにおいて中心的な役割を果たし、ユーザビリティとユーザ満足度に直接影響を与えます。
遅延や応答性の低いGUIパフォーマンスは、ネガティブなユーザエクスペリエンスとモバイルアプリケーション(アプリ)レーティングの低下につながる可能性がある。
GUIWatcherは,モバイルアプリのテスト中に記録されたスクリーンキャストを分析し,GUIラグを検出するように設計されたフレームワークである。
論文 参考訳(メタデータ) (2025-02-06T16:43:51Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。
クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。
オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents [17.43878828389188]
タスク自動化のためのスクリーンショットのみに依存する新しいビジュアルグラフィカルユーザインタフェース(GUI)エージェントであるSeeClickを提案する。
この課題に対処するため,GUIグラウンディングによるSeeClickの改良を提案し,GUIグラウンディングデータのキュレーションを自動化する手法を考案した。
また、モバイル、デスクトップ、Web環境を含む初めての現実的なGUIグラウンドティングベンチマークであるScreenSpotも作成しました。
論文 参考訳(メタデータ) (2024-01-17T08:10:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。