論文の概要: Grounded GUI Understanding for Vision Based Spatial Intelligent Agent: Exemplified by Virtual Reality Apps
- arxiv url: http://arxiv.org/abs/2409.10811v3
- Date: Sat, 26 Oct 2024 05:38:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 20:24:10.352575
- Title: Grounded GUI Understanding for Vision Based Spatial Intelligent Agent: Exemplified by Virtual Reality Apps
- Title(参考訳): 視覚に基づく空間知能エージェントのための接地型GUI理解:バーチャルリアリティアプリによる実証
- Authors: Shuqing Li, Binchang Li, Yepang Liu, Cuiyun Gao, Jianping Zhang, Shing-Chi Cheung, Michael R. Lyu,
- Abstract要約: 仮想現実感アプリのための最初のゼロショットcOntext-sensitive inteRactable GUI ElemeNT dEtectionフレームワークOrienterを提案する。
人間の振る舞いを模倣することで、OrienterはまずVRアプリのシーンの意味的コンテキストを観察し、理解し、次に検出を実行する。
- 参考スコア(独自算出の注目度): 41.601579396549404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, spatial computing Virtual Reality (VR) has emerged as a transformative technology, offering users immersive and interactive experiences across diversified virtual environments. Users can interact with VR apps through interactable GUI elements (IGEs) on the stereoscopic three-dimensional (3D) graphical user interface (GUI). The accurate recognition of these IGEs is instrumental, serving as the foundation of many software engineering tasks, including automated testing and effective GUI search. The most recent IGE detection approaches for 2D mobile apps typically train a supervised object detection model based on a large-scale manually-labeled GUI dataset, usually with a pre-defined set of clickable GUI element categories like buttons and spinners. Such approaches can hardly be applied to IGE detection in VR apps, due to a multitude of challenges including complexities posed by open-vocabulary and heterogeneous IGE categories, intricacies of context-sensitive interactability, and the necessities of precise spatial perception and visual-semantic alignment for accurate IGE detection results. Thus, it is necessary to embark on the IGE research tailored to VR apps. In this paper, we propose the first zero-shot cOntext-sensitive inteRactable GUI ElemeNT dEtection framework for virtual Reality apps, named Orienter. By imitating human behaviors, Orienter observes and understands the semantic contexts of VR app scenes first, before performing the detection. The detection process is iterated within a feedback-directed validation and reflection loop. Specifically, Orienter contains three components, including (1) Semantic context comprehension, (2) Reflection-directed IGE candidate detection, and (3) Context-sensitive interactability classification. Extensive experiments demonstrate that Orienter is more effective than the state-of-the-art GUI element detection approaches.
- Abstract(参考訳): 近年、空間コンピューティングのバーチャルリアリティ(VR)は、様々な仮想環境にまたがって、没入的でインタラクティブな体験を提供するトランスフォーメーション技術として出現している。
ユーザは立体3Dグラフィカルユーザインタフェース(GUI)上で対話可能なGUI要素(IGE)を介してVRアプリと対話することができる。
これらのIGEの正確な認識は、自動テストや効果的なGUI検索など、多くのソフトウェアエンジニアリングタスクの基盤として機能する。
2Dモバイルアプリの最新のIGE検出アプローチは、通常、ボタンやスピナーのようなクリック可能なGUI要素カテゴリのセットで、手動で大規模にラベル付けされたGUIデータセットに基づいて、教師付きオブジェクト検出モデルをトレーニングする。
オープンボキャブラリとヘテロジニアスなIGEカテゴリによる複雑度、文脈に敏感な相互作用性の複雑さ、正確なIGE検出結果のための正確な空間知覚と視覚的セマンティックアライメントの必要性など、VRアプリのIGE検出にはこのようなアプローチが適用できない。
したがって、VRアプリに適したIGE研究を始める必要がある。
本稿では,仮想現実感アプリのための最初のゼロショットcOntext-sensitive inteRactable GUI ElemeNT dEtectionフレームワークOrienterを提案する。
人間の振る舞いを模倣することで、OrienterはまずVRアプリのシーンの意味的コンテキストを観察し、理解し、次に検出を実行する。
検出プロセスは、フィードバック指向のバリデーションとリフレクションループ内で反復される。
具体的には,(1)セマンティックコンテキスト理解,(2)リフレクション指向IGE候補検出,(3)コンテキスト依存的対話性分類の3つのコンポーネントを含む。
大規模な実験により、Orienterは最先端のGUI要素検出アプローチよりも効果的であることが示された。
関連論文リスト
- UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。
OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文 参考訳(メタデータ) (2025-01-21T17:48:10Z) - GUI Agents: A Survey [129.94551809688377]
グラフィカルユーザインタフェース(GUI)エージェントは、人間とコンピュータのインタラクションを自動化するためのトランスフォーメーションアプローチとして登場した。
GUIエージェントの関心の高まりと基本的な重要性により、ベンチマーク、評価指標、アーキテクチャ、トレーニングメソッドを分類する総合的な調査を提供する。
論文 参考訳(メタデータ) (2024-12-18T04:48:28Z) - Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining [67.87810796668981]
インフォメーション・インフォメーション・インフォメーション・クロッピング(ISC)と自己精製デュアルラーニング(SRDL)
Irisは850KのGUIアノテーションだけで、複数のベンチマークで最先端のパフォーマンスを実現している。
これらの改善は、WebとOSエージェントの両方の下流タスクで大幅に向上した。
論文 参考訳(メタデータ) (2024-12-13T18:40:10Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
自律型GUIエージェントのための統合視覚ベースのフレームワークであるAguvisを紹介する。
提案手法は,画像に基づく観察と,自然言語の接地命令を視覚要素に活用する。
これまでの作業の限界に対処するため、モデル内に明確な計画と推論を統合する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - Tremor Reduction for Accessible Ray Based Interaction in VR Applications [0.0]
多くの従来の2Dインタフェースのインタラクション方法は、入力機構にほとんど変更を加えることなく、VR空間で直接動作するように変換されている。
本稿では,低域通過フィルタを用いてユーザ入力ノイズの正規化を行い,光線による相互作用におけるモータの細かな要求を緩和する手法を提案する。
論文 参考訳(メタデータ) (2024-05-12T17:07:16Z) - Detect2Interact: Localizing Object Key Field in Visual Question Answering (VQA) with LLMs [5.891295920078768]
本稿では,物体の視覚的フィールド検出のための高度な手法を提案する。
まず,画像中の物体の詳細な空間地図を生成するために,SAMモデルを用いた。
次に、Vision Studioを使用してセマンティックオブジェクト記述を抽出する。
第3に、GPT-4の常識知識を用いて、オブジェクトの意味論と空間マップとのギャップを埋める。
論文 参考訳(メタデータ) (2024-04-01T14:53:36Z) - AgentStudio: A Toolkit for Building General Virtual Agents [57.02375267926862]
一般的な仮想エージェントは、マルチモーダルな観察、複雑なアクション空間のマスター、動的でオープンなドメイン環境における自己改善を扱う必要がある。
AgentStudioは、非常に汎用的な観察とアクション空間を備えた軽量でインタラクティブな環境を提供する。
オンラインベンチマークタスクの作成、GUI要素の注釈付け、ビデオ内のアクションのラベル付けといったツールを統合する。
環境とツールに基づいて、GUIインタラクションと関数呼び出しの両方を効率的な自動評価でベンチマークするオンラインタスクスイートをキュレートします。
論文 参考訳(メタデータ) (2024-03-26T17:54:15Z) - Semantic Interaction in Augmented Reality Environments for Microsoft
HoloLens [28.10437301492564]
屋内環境をキャプチャし、Microsoft HoloLensを使って既知のオブジェクトクラスとのインタラクションキューを表示する。
HoloLensが記録する3Dメッシュは、ユーザが動きながら、投影的なアプローチを使用してセマンティッククラスでアノテートされる。
結果はメッシュに融合され、顕著なオブジェクトセグメントが識別され、ユーザに3Dで表示される。
論文 参考訳(メタデータ) (2021-11-18T14:58:04Z) - HIDA: Towards Holistic Indoor Understanding for the Visually Impaired
via Semantic Instance Segmentation with a Wearable Solid-State LiDAR Sensor [25.206941504935685]
HIDAは、固体LiDARセンサを用いた3Dポイントクラウドインスタンスセグメンテーションに基づく軽量補助システムである。
システム全体は,3つのハードウェアコンポーネント,2つの対話的機能(障害物回避とオブジェクト探索),および音声ユーザインタフェースから構成される。
提案した3Dインスタンスセグメンテーションモデルは、ScanNet v2データセットで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2021-07-07T12:23:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。