論文の概要: Screen2AX: Vision-Based Approach for Automatic macOS Accessibility Generation
- arxiv url: http://arxiv.org/abs/2507.16704v1
- Date: Tue, 22 Jul 2025 15:38:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:14.187981
- Title: Screen2AX: Vision-Based Approach for Automatic macOS Accessibility Generation
- Title(参考訳): Screen2AX: macOSアクセシビリティ自動生成のためのビジョンベースのアプローチ
- Authors: Viktor Muryn, Marta Sumyk, Mariya Hirna, Sofiya Garkot, Maksym Shamrai,
- Abstract要約: 我々はScreen2AXを紹介した。Screen2AXは1つのスクリーンショットからリアルタイムでツリー構造されたアクセシビリティメタデータを自動生成する最初のフレームワークである。
本手法では,視覚言語およびオブジェクト検出モデルを用いてUI要素を階層的に検出,記述,整理し,Desktopのシステムレベルのアクセシビリティ構造を反映する。
我々はScreen2AXがネイティブアクセシビリティ表現よりも2.2倍の性能向上を実現し、ScreenSpotベンチマークの最先端のOmni V2システムを上回ることを実証した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Desktop accessibility metadata enables AI agents to interpret screens and supports users who depend on tools like screen readers. Yet, many applications remain largely inaccessible due to incomplete or missing metadata provided by developers - our investigation shows that only 33% of applications on macOS offer full accessibility support. While recent work on structured screen representation has primarily addressed specific challenges, such as UI element detection or captioning, none has attempted to capture the full complexity of desktop interfaces by replicating their entire hierarchical structure. To bridge this gap, we introduce Screen2AX, the first framework to automatically create real-time, tree-structured accessibility metadata from a single screenshot. Our method uses vision-language and object detection models to detect, describe, and organize UI elements hierarchically, mirroring macOS's system-level accessibility structure. To tackle the limited availability of data for macOS desktop applications, we compiled and publicly released three datasets encompassing 112 macOS applications, each annotated for UI element detection, grouping, and hierarchical accessibility metadata alongside corresponding screenshots. Screen2AX accurately infers hierarchy trees, achieving a 77% F1 score in reconstructing a complete accessibility tree. Crucially, these hierarchy trees improve the ability of autonomous agents to interpret and interact with complex desktop interfaces. We introduce Screen2AX-Task, a benchmark specifically designed for evaluating autonomous agent task execution in macOS desktop environments. Using this benchmark, we demonstrate that Screen2AX delivers a 2.2x performance improvement over native accessibility representations and surpasses the state-of-the-art OmniParser V2 system on the ScreenSpot benchmark.
- Abstract(参考訳): デスクトップアクセシビリティメタデータにより、AIエージェントはスクリーンを解釈し、スクリーンリーダーのようなツールに依存するユーザーをサポートする。
しかし、開発者が提供する不完全あるいは欠落したメタデータのため、多くのアプリケーションはアクセス不能のままです。
構造化画面表現に関する最近の研究は、UI要素の検出やキャプションといった特定の課題に主に対処してきたが、階層構造全体を複製することでデスクトップインターフェースの完全な複雑さを捉える試みは行われていない。
このギャップを埋めるために、私たちはScreen2AXを紹介します。Screen2AXは、1つのスクリーンショットからリアルタイムでツリー構造されたアクセシビリティメタデータを自動生成する最初のフレームワークです。
本手法では、視覚言語とオブジェクト検出モデルを用いて、UI要素を階層的に検出、記述、整理し、macOSのシステムレベルのアクセシビリティ構造を反映する。
macOSデスクトップアプリケーションの可用性の制限に対処するため、112のmacOSアプリケーションを含む3つのデータセットをコンパイルし、公開しました。
Screen2AXは階層木を正確に推論し、完全なアクセシビリティツリーを再構築する際に77%のF1スコアを達成した。
これらの階層木は、複雑なデスクトップインターフェースを解釈し、相互作用する自律エージェントの能力を向上する。
macOSデスクトップ環境での自律的なエージェントタスク実行を評価するためのベンチマークであるScreen2AX-Taskを紹介する。
このベンチマークを用いて、Screen2AXはネイティブアクセシビリティ表現よりも2.2倍の性能向上を実現し、ScreenSpotベンチマークの最先端のOmniParser V2システムを上回ることを実証した。
関連論文リスト
- What Limits Virtual Agent Application? OmniBench: A Scalable Multi-Dimensional Benchmark for Essential Virtual Agent Capabilities [56.646832992178105]
我々は、制御可能な複雑性のタスクを合成するための自動パイプラインを備えたクロスプラットフォームグラフベースのベンチマークであるOmniBenchを紹介した。
OmniEvalは、サブタスクレベルの評価、グラフベースのメトリクス、および10機能にわたる包括的なテストを含む多次元評価フレームワークである。
我々のデータセットには、20のシナリオにわたる36万のグラフ構造化タスクが含まれており、人間の受け入れ率は91%に達する。
論文 参考訳(メタデータ) (2025-06-10T15:59:38Z) - Scaling Computer-Use Grounding via User Interface Decomposition and Synthesis [59.83524388782554]
グラフィカルユーザインタフェース(GUI)の基盤は、コンピュータ利用エージェント開発において依然として重要なボトルネックとなっている。
多様なタスクタイプにまたがる564の細かな注釈付きサンプルからなる総合ベンチマークであるOSWorld-Gを紹介する。
我々は、400万のサンプルを含む、最大のコンピュータ利用基盤データセットであるJediを合成してリリースする。
論文 参考訳(メタデータ) (2025-05-19T15:09:23Z) - Scalable Video-to-Dataset Generation for Cross-Platform Mobile Agents [57.59830804627066]
実世界のモバイルOSナビゲーションをキャプチャする20Kの指導ビデオから,313Kの注釈付きフレームの大規模データセットであるMONDAYを紹介した。
MONDAYを事前学習フェーズに含むモデルは、堅牢なクロスプラットフォームの一般化機能を示す。
公開されているビデオコンテンツを利用して、包括的なタスクデータセットを作成する自動化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-19T02:39:03Z) - UFO2: The Desktop AgentOS [60.317812905300336]
UFO2はWindowsデスクトップ用のマルチエージェントAgentOSで、実用的なシステムレベルの自動化に発展している。
我々は、20以上の現実世界のWindowsアプリケーションに対してUFO2を評価し、従来のCUAよりもロバスト性および実行精度を大幅に改善した。
我々の結果は、ディープOSの統合によって、信頼性の高いユーザ指向のデスクトップ自動化へのスケーラブルな道が開けることを示している。
論文 参考訳(メタデータ) (2025-04-20T13:04:43Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。
クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。
オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - OmniParser for Pure Vision Based GUI Agent [37.911094082816504]
複数のオペレーティングシステムの汎用エージェントとしてGPT-4Vのようなパワーマルチモーダルモデルは、堅牢なスクリーン解析技術が欠如しているため、大部分は過小評価されている。
textsc OmniはScreenSpotベンチマークでGPT-4Vのパフォーマンスを大幅に改善した。
textsc Omni スクリーンショットは GPT-4V ベースラインを上回り、スクリーンショット以外の追加情報を必要とする。
論文 参考訳(メタデータ) (2024-08-01T00:00:43Z) - Weak-to-Strong 3D Object Detection with X-Ray Distillation [75.47580744933724]
本稿では,既存の任意の3Dオブジェクト検出フレームワークにシームレスに統合する多目的手法を提案する。
オブジェクト・コンプリートフレームを用いたX線蒸留は、教師付き設定と半教師付き設定の両方に適している。
提案手法は,半教師あり学習における最先端の手法を1-1.5mAPで超越する。
論文 参考訳(メタデータ) (2024-03-31T13:09:06Z) - Computer User Interface Understanding. A New Dataset and a Learning Framework [2.4473568032515147]
コンピュータUI理解の難しい課題を紹介します。
ユーザがアクションのシーケンスを実行しているビデオのセットでデータセットを提示し、各画像はその時点のデスクトップコンテンツを表示する。
また,データセットに関連する特徴を付加する合成サンプル生成パイプラインを構成するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-15T10:26:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。