Fugu-MT 論文翻訳(概要): Context-Dependent Interactable Graphical User Interface Element Detection for Spatial Computing Applications

論文の概要: Context-Dependent Interactable Graphical User Interface Element Detection for Spatial Computing Applications

arxiv url: http://arxiv.org/abs/2409.10811v2
Date: Wed, 18 Sep 2024 01:28:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-19 12:04:00.626632
Title: Context-Dependent Interactable Graphical User Interface Element Detection for Spatial Computing Applications
Title（参考訳）: 空間コンピューティングアプリケーションのためのコンテキスト依存型対話型グラフィカルユーザインタフェース要素検出
Authors: Shuqing Li, Binchang Li, Yepang Liu, Cuiyun Gao, Jianping Zhang, Shing-Chi Cheung, Michael R. Lyu,
Abstract要約: 仮想現実感アプリのための最初のゼロショットcOntext-sensitive inteRactable GUI ElemeNT dEtectionフレームワークOrienterを提案する。人間の振る舞いを模倣することで、OrienterはまずVRアプリのシーンの意味的コンテキストを観察し、理解し、次に検出を実行する。
参考スコア（独自算出の注目度）: 41.601579396549404
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In recent years, spatial computing Virtual Reality (VR) has emerged as a transformative technology, offering users immersive and interactive experiences across diversified virtual environments. Users can interact with VR apps through interactable GUI elements (IGEs) on the stereoscopic three-dimensional (3D) graphical user interface (GUI). The accurate recognition of these IGEs is instrumental, serving as the foundation of many software engineering tasks, including automated testing and effective GUI search. The most recent IGE detection approaches for 2D mobile apps typically train a supervised object detection model based on a large-scale manually-labeled GUI dataset, usually with a pre-defined set of clickable GUI element categories like buttons and spinners. Such approaches can hardly be applied to IGE detection in VR apps, due to a multitude of challenges including complexities posed by open-vocabulary and heterogeneous IGE categories, intricacies of context-sensitive interactability, and the necessities of precise spatial perception and visual-semantic alignment for accurate IGE detection results. Thus, it is necessary to embark on the IGE research tailored to VR apps. In this paper, we propose the first zero-shot cOntext-sensitive inteRactable GUI ElemeNT dEtection framework for virtual Reality apps, named Orienter. By imitating human behaviors, Orienter observes and understands the semantic contexts of VR app scenes first, before performing the detection. The detection process is iterated within a feedback-directed validation and reflection loop. Specifically, Orienter contains three components, including (1) Semantic context comprehension, (2) Reflection-directed IGE candidate detection, and (3) Context-sensitive interactability classification. Extensive experiments demonstrate that Orienter is more effective than the state-of-the-art GUI element detection approaches.
Abstract（参考訳）: 近年、空間コンピューティングのバーチャルリアリティ(VR)は、様々な仮想環境にまたがって、没入的でインタラクティブな体験を提供するトランスフォーメーション技術として出現している。ユーザは立体3Dグラフィカルユーザインタフェース(GUI)上で対話可能なGUI要素(IGE)を介してVRアプリと対話することができる。これらのIGEの正確な認識は、自動テストや効果的なGUI検索など、多くのソフトウェアエンジニアリングタスクの基盤として機能する。 2Dモバイルアプリの最新のIGE検出アプローチは、通常、ボタンやスピナーのようなクリック可能なGUI要素カテゴリのセットで、手動で大規模にラベル付けされたGUIデータセットに基づいて、教師付きオブジェクト検出モデルをトレーニングする。オープンボキャブラリとヘテロジニアスなIGEカテゴリによる複雑度、文脈に敏感な相互作用性の複雑さ、正確なIGE検出結果のための正確な空間知覚と視覚的セマンティックアライメントの必要性など、VRアプリのIGE検出にはこのようなアプローチが適用できない。したがって、VRアプリに適したIGE研究を始める必要がある。本稿では,仮想現実感アプリのための最初のゼロショットcOntext-sensitive inteRactable GUI ElemeNT dEtectionフレームワークOrienterを提案する。人間の振る舞いを模倣することで、OrienterはまずVRアプリのシーンの意味的コンテキストを観察し、理解し、次に検出を実行する。検出プロセスは、フィードバック指向のバリデーションとリフレクションループ内で反復される。具体的には,(1)セマンティックコンテキスト理解,(2)リフレクション指向IGE候補検出,(3)コンテキスト依存的対話性分類の3つのコンポーネントを含む。大規模な実験により、Orienterは最先端のGUI要素検出アプローチよりも効果的であることが示された。

関連論文リスト

Zero-shot HOI Detection with MLLM-based Detector-agnostic Interaction Recognition [71.5328300638085]
Zero-shot Human-Object Interaction (HOI) は、画像中の人間と物体を特定し、その相互作用を認識することを目的としている。 2段階法を含む既存の手法は、特定の検出器との相互作用認識を密に結合する。本稿では、オブジェクト検出をIRから分離し、マルチモーダル大言語モデル(MLLM)をゼロショットIRに活用する分離フレームワークを提案する。
論文参考訳（メタデータ） (2026-02-16T19:01:31Z)
GUI-Eyes: Tool-Augmented Perception for Visual Grounding in GUI Agents [39.807839972627015]
GUIタスクにおける能動的視覚知覚のための強化学習フレームワークであるGUI-Eyesを提案する。我々は、意思決定を粗い探索ときめ細かい接地に分解する進歩的認識戦略を導入する。 ScreenSpot-Proベンチマークでは、GUI-Eyes-3Bは3kラベルのサンプルのみを使用して44.8%のグラウンド精度を達成した。
論文参考訳（メタデータ） (2026-01-14T14:27:28Z)
AUTO-Explorer: Automated Data Collection for GUI Agent [58.58097564914626]
本稿では,アノテーションコストを最小限に抑えた自動データ収集手法であるAuto-Explorerを提案する。それは、GUI環境を自律的に解析し探索する、シンプルだが効果的な探索メカニズムを組み込んでいる。収集したデータを用いて,マルチモーダル大規模言語モデル(MLLM)を微調整し,GUI要素基盤テストセットを確立する。
論文参考訳（メタデータ） (2025-11-09T15:13:45Z)
Generalist Scanner Meets Specialist Locator: A Synergistic Coarse-to-Fine Framework for Robust GUI Grounding [53.14935624161711]
GMS: Generalist Scanner Meets Specialist LocatorはGUIグラウンディングのパフォーマンスを効果的に改善する相乗的粗大なフレームワークです。このデザインは、人間がGUIグラウンドを実行する方法にインスパイアされ、目がインターフェイスをスキャンし、脳が解釈と局所化に焦点を当てる。 ScreenSpot-Proデータセットの実験結果によると、'Scanner'モデルと'Locator'モデルは、それぞれ独立して使用する場合、それぞれ2.0%$と3.7%$の精度しか達成していないが、GMSフレームワークへの統合により、全体的な精度は35.7%$である。
論文参考訳（メタデータ） (2025-09-29T00:06:31Z)
R-VLM: Region-Aware Vision Language Model for Precise GUI Grounding [18.100091500983044]
GUI自動化における重要な課題は、様々なプラットフォームにまたがるインターフェイス要素の正確な基盤を作ることである。既存の視覚のみのGUIエージェントは、大きく散らかったスクリーンショットから直接要素を接地する。 R-VLMは、ズームインされた領域の提案を正確な要素ローカライゼーションに活用する新しいGUI基盤手法である。
論文参考訳（メタデータ） (2025-07-08T04:56:57Z)
Learning, Reasoning, Refinement: A Framework for Kahneman's Dual-System Intelligence in GUI Agents [15.303188467166752]
人間の動作に類似したGUI自動化のための適応学習を実現することにより,制限を克服する認知フレームワークであるCogniGUIを提案する。エージェントシステムの一般化と適応性を評価するために,マルチアプリケーションナビゲーション,動的状態遷移,インターフェースのコヒーレンスなどを含む総合ベンチマークScreenSeekを導入する。実験結果から,現在のGUIグラウンドベンチマークと新たに提案したベンチマークの両方において,CogniGUIが最先端の手法を上回ることが示された。
論文参考訳（メタデータ） (2025-06-22T06:30:52Z)
IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文参考訳（メタデータ） (2025-04-09T12:36:48Z)
FunGraph: Functionality Aware 3D Scene Graphs for Language-Prompted Scene Interaction [1.8124328823188356]
我々は、より細かな解像度でオブジェクトを検出し、保存することに集中し、価格関連部品に焦点をあてる。現在利用可能な3Dリソースを活用して、2Dデータを生成し、検出器をトレーニングし、標準の3Dシーングラフ生成パイプラインを拡張するために使用します。
論文参考訳（メタデータ） (2025-03-10T23:13:35Z)
UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。 OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文参考訳（メタデータ） (2025-01-21T17:48:10Z)
GUI Agents: A Survey [129.94551809688377]
グラフィカルユーザインタフェース(GUI)エージェントは、人間とコンピュータのインタラクションを自動化するためのトランスフォーメーションアプローチとして登場した。 GUIエージェントの関心の高まりと基本的な重要性により、ベンチマーク、評価指標、アーキテクチャ、トレーニングメソッドを分類する総合的な調査を提供する。
論文参考訳（メタデータ） (2024-12-18T04:48:28Z)
Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining [67.87810796668981]
インフォメーション・インフォメーション・インフォメーション・クロッピング(ISC)と自己精製デュアルラーニング(SRDL) Irisは850KのGUIアノテーションだけで、複数のベンチマークで最先端のパフォーマンスを実現している。これらの改善は、WebとOSエージェントの両方の下流タスクで大幅に向上した。
論文参考訳（メタデータ） (2024-12-13T18:40:10Z)
Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
自律型GUIエージェントのための統合視覚ベースのフレームワークであるAguvisを紹介する。提案手法は,画像に基づく観察と,自然言語の接地命令を視覚要素に活用する。これまでの作業の限界に対処するため、モデル内に明確な計画と推論を統合する。
論文参考訳（メタデータ） (2024-12-05T18:58:26Z)
Large Language Model-assisted Speech and Pointing Benefits Multiple 3D Object Selection in Virtual Reality [20.669785157017486]
マルチモーダル音声とレイキャストインタラクション技術を用いて,多目的選択タスクを支援するために,大規模言語モデルを活用する可能性を検討する。その結果,導入したAssistVRは,複数の対象物が存在する場合のベースライン技術よりも優れていた。
論文参考訳（メタデータ） (2024-10-28T14:56:51Z)
Tremor Reduction for Accessible Ray Based Interaction in VR Applications [0.0]
多くの従来の2Dインタフェースのインタラクション方法は、入力機構にほとんど変更を加えることなく、VR空間で直接動作するように変換されている。本稿では,低域通過フィルタを用いてユーザ入力ノイズの正規化を行い,光線による相互作用におけるモータの細かな要求を緩和する手法を提案する。
論文参考訳（メタデータ） (2024-05-12T17:07:16Z)
Visual Grounding Methods for Efficient Interaction with Desktop Graphical User Interfaces [1.3107174618549584]
Instruction Visual Grounding (IVG) はグラフィカルユーザインタフェース (GUI) におけるオブジェクト識別のためのマルチモーダルアプローチである本稿では、オブジェクト検出モデルであるLarge Language Model(LLM)とOCRモジュールを組み合わせたIVGocrと、エンド・ツー・エンドのグラウンド化にマルチモーダルアーキテクチャを用いたIVGdirectを提案する。私たちの最終テストデータセットは、将来の研究をサポートするために公開されています。
論文参考訳（メタデータ） (2024-05-05T19:10:19Z)
Detect2Interact: Localizing Object Key Field in Visual Question Answering (VQA) with LLMs [5.891295920078768]
本稿では,物体の視覚的フィールド検出のための高度な手法を提案する。まず,画像中の物体の詳細な空間地図を生成するために,SAMモデルを用いた。次に、Vision Studioを使用してセマンティックオブジェクト記述を抽出する。第3に、GPT-4の常識知識を用いて、オブジェクトの意味論と空間マップとのギャップを埋める。
論文参考訳（メタデータ） (2024-04-01T14:53:36Z)
AgentStudio: A Toolkit for Building General Virtual Agents [57.02375267926862]
一般的な仮想エージェントは、マルチモーダルな観察、複雑なアクション空間のマスター、動的でオープンなドメイン環境における自己改善を扱う必要がある。 AgentStudioは、非常に汎用的な観察とアクション空間を備えた軽量でインタラクティブな環境を提供する。オンラインベンチマークタスクの作成、GUI要素の注釈付け、ビデオ内のアクションのラベル付けといったツールを統合する。環境とツールに基づいて、GUIインタラクションと関数呼び出しの両方を効率的な自動評価でベンチマークするオンラインタスクスイートをキュレートします。
論文参考訳（メタデータ） (2024-03-26T17:54:15Z)
Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文参考訳（メタデータ） (2023-08-04T10:28:48Z)
The Devil is in the Task: Exploiting Reciprocal Appearance-Localization Features for Monocular 3D Object Detection [62.1185839286255]
低コストのモノクル3D物体検出は、自律運転において基本的な役割を果たす。 DFR-Netという動的特徴反射ネットワークを導入する。我々は、KITTIテストセットの全ての単分子3D物体検出器の中で、第1位にランク付けする。
論文参考訳（メタデータ） (2021-12-28T07:31:18Z)
Semantic Interaction in Augmented Reality Environments for Microsoft HoloLens [28.10437301492564]
屋内環境をキャプチャし、Microsoft HoloLensを使って既知のオブジェクトクラスとのインタラクションキューを表示する。 HoloLensが記録する3Dメッシュは、ユーザが動きながら、投影的なアプローチを使用してセマンティッククラスでアノテートされる。結果はメッシュに融合され、顕著なオブジェクトセグメントが識別され、ユーザに3Dで表示される。
論文参考訳（メタデータ） (2021-11-18T14:58:04Z)
HIDA: Towards Holistic Indoor Understanding for the Visually Impaired via Semantic Instance Segmentation with a Wearable Solid-State LiDAR Sensor [25.206941504935685]
HIDAは、固体LiDARセンサを用いた3Dポイントクラウドインスタンスセグメンテーションに基づく軽量補助システムである。システム全体は,3つのハードウェアコンポーネント,2つの対話的機能(障害物回避とオブジェクト探索),および音声ユーザインタフェースから構成される。提案した3Dインスタンスセグメンテーションモデルは、ScanNet v2データセットで最先端のパフォーマンスを達成した。
論文参考訳（メタデータ） (2021-07-07T12:23:53Z)
Improving Point Cloud Semantic Segmentation by Learning 3D Object Detection [102.62963605429508]
ポイントクラウドセマンティックセグメンテーションは、自動運転において重要な役割を果たす。現在の3Dセマンティックセグメンテーションネットワークは、よく表現されたクラスに対して優れた性能を発揮する畳み込みアーキテクチャに焦点を当てている。 Aware 3D Semantic Detection (DASS) フレームワークを提案する。
論文参考訳（メタデータ） (2020-09-22T14:17:40Z)
A Graph-based Interactive Reasoning for Human-Object Interaction Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。 In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文参考訳（メタデータ） (2020-07-14T09:29:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。