論文の概要: Reality Proxy: Fluid Interactions with Real-World Objects in MR via Abstract Representations
- arxiv url: http://arxiv.org/abs/2507.17248v1
- Date: Wed, 23 Jul 2025 06:34:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:14.88138
- Title: Reality Proxy: Fluid Interactions with Real-World Objects in MR via Abstract Representations
- Title(参考訳): 現実的プロキシ:抽象表現によるMRにおける実世界の物体との流体相互作用
- Authors: Xiaoan Liu, Difan Jia, Xianhao Carton Liu, Mar Gonzalez-Franco, Chen Zhu-Tian,
- Abstract要約: 本稿では,対話対象を物理オブジェクトからプロキシに切り替えるシステムであるReal Proxyを紹介する。
基本的な選択を容易にするだけでなく、Real ProxyはAIを使用して、対応する物理オブジェクトのセマンティック属性と階層的な空間的関係でプロキシを豊かにする。
本稿では,オフィス情報検索,大規模空間ナビゲーション,マルチドローン制御など,さまざまなシナリオにまたがる現実的プロキシの汎用性を実証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interacting with real-world objects in Mixed Reality (MR) often proves difficult when they are crowded, distant, or partially occluded, hindering straightforward selection and manipulation. We observe that these difficulties stem from performing interaction directly on physical objects, where input is tightly coupled to their physical constraints. Our key insight is to decouple interaction from these constraints by introducing proxies-abstract representations of real-world objects. We embody this concept in Reality Proxy, a system that seamlessly shifts interaction targets from physical objects to their proxies during selection. Beyond facilitating basic selection, Reality Proxy uses AI to enrich proxies with semantic attributes and hierarchical spatial relationships of their corresponding physical objects, enabling novel and previously cumbersome interactions in MR - such as skimming, attribute-based filtering, navigating nested groups, and complex multi object selections - all without requiring new gestures or menu systems. We demonstrate Reality Proxy's versatility across diverse scenarios, including office information retrieval, large-scale spatial navigation, and multi-drone control. An expert evaluation suggests the system's utility and usability, suggesting that proxy-based abstractions offer a powerful and generalizable interaction paradigm for future MR systems.
- Abstract(参考訳): MR(Mixed Reality)における現実世界の物体との相互作用は、それらが混み合ったり、離れていたり、部分的に隠されたりすることで、直接的な選択や操作を妨げることがしばしばある。
これらの困難は、入力が物理的制約に強く結びついている物理オブジェクト上で直接対話することに起因する。
我々のキーとなる洞察は、現実世界のオブジェクトのプロキシ-抽象表現を導入することによって、これらの制約から相互作用を分離することである。
このコンセプトを具体化したのが、リアルプロキシ(Real Proxy)というシステムです。
基本的な選択の促進に加えて、Reality ProxyはAIを使用して、関連する物理オブジェクトのセマンティック属性と階層的な空間的関係を持つプロキシを強化し、スイミング、属性ベースのフィルタリング、ネストされたグループのナビゲート、複雑な複数オブジェクトの選択など、MRの新規で煩雑なインタラクションを可能にする。
本稿では,オフィス情報検索,大規模空間ナビゲーション,マルチドローン制御など,さまざまなシナリオにまたがる現実的プロキシの汎用性を実証する。
専門家による評価はシステムの実用性とユーザビリティを示唆し、プロキシベースの抽象化が将来のMRシステムに対して強力で一般化可能な相互作用パラダイムを提供することを示唆している。
関連論文リスト
- InterMimic: Towards Universal Whole-Body Control for Physics-Based Human-Object Interactions [27.225777494300775]
このフレームワークは、単一のポリシーで、何時間も不完全なMoCapデータからしっかりと学習することができる。
実験の結果,InterMimicは複数のHOIデータセットにまたがって,現実的で多様なインタラクションを生成できることがわかった。
論文 参考訳(メタデータ) (2025-02-27T18:59:12Z) - From Objects to Events: Unlocking Complex Visual Understanding in Object Detectors via LLM-guided Symbolic Reasoning [71.41062111470414]
現在のオブジェクト検出器は、エンティティのローカライゼーションと分類において優れているが、イベント認識機能には固有の制限がある。
本稿では,単なるオブジェクト認識以上の標準オブジェクト検出能力を,複雑なイベント理解に拡張する新しいフレームワークを提案する。
私たちの重要なイノベーションは、高価なタスク固有のトレーニングを必要とせずに、オブジェクト検出とイベント理解のセマンティックなギャップを埋めることです。
論文 参考訳(メタデータ) (2025-02-09T10:30:54Z) - GAPartManip: A Large-scale Part-centric Dataset for Material-Agnostic Articulated Object Manipulation [11.880519765681408]
本稿では,音声操作のための大規模部分中心データセットを提案する。
写真リアリスティックな素材のランダム化と、パート指向でシーンレベルのアクション可能なインタラクションポーズの詳細なアノテーションが特徴である。
一般化可能なオブジェクト操作のための,優れた,堅牢な性能を実現する,新しいモジュラーフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-27T12:11:23Z) - DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。
DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。
実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-09T14:04:21Z) - ZoomNeXt: A Unified Collaborative Pyramid Network for Camouflaged Object Detection [70.11264880907652]
最近のオブジェクト(COD)は、現実のシナリオでは極めて複雑で難しい、視覚的にブレンドされたオブジェクトを周囲に分割しようと試みている。
本研究では,不明瞭な画像を観察したり,ズームインしたりアウトしたりする際の人間の行動を模倣する,効果的な統合協調ピラミッドネットワークを提案する。
我々のフレームワークは、画像とビデオのCODベンチマークにおいて、既存の最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2023-10-31T06:11:23Z) - Tachikuma: Understading Complex Interactions with Multi-Character and
Novel Objects by Large Language Models [67.20964015591262]
我々は,複数文字と新しいオブジェクトベースインタラクション推定タスクとサポートデータセットからなる,立久間というベンチマークを導入する。
このデータセットは、ゲームプレイ中のリアルタイム通信からログデータをキャプチャし、多様な、接地された複雑なインタラクションを提供して、さらなる探索を行う。
本稿では,対話理解の強化に有効であることを示すため,簡単なプロンプトベースラインを提案し,その性能評価を行う。
論文 参考訳(メタデータ) (2023-07-24T07:40:59Z) - PGformer: Proxy-Bridged Game Transformer for Multi-Person Highly
Interactive Extreme Motion Prediction [22.209454616479505]
本稿では,極端な動きを持つ複数人の協調動作予測に焦点をあてる。
プロキシユニットを導入して,提案したXQAモジュールと連携する関係者をブリッジする。
我々のアプローチは、弱い相互作用を持つCMU-MocapとMuPoTS-3Dデータセットとも互換性がある。
論文 参考訳(メタデータ) (2023-06-06T03:25:09Z) - Rotating Features for Object Discovery [74.1465486264609]
本稿では,複雑な特徴を高次元に一般化した回転特徴と,分散表現からオブジェクトを抽出する新たな評価手法を提案する。
これらの進歩により、分散オブジェクト中心の表現を単純な玩具から現実世界のデータに拡張することが可能になります。
論文 参考訳(メタデータ) (2023-06-01T12:16:26Z) - Multi-granularity Interaction Simulation for Unsupervised Interactive
Segmentation [38.08152990071453]
我々は、教師なし対話的セグメンテーションのための有望な方向を開くために、MIS(Multi-granularity Interaction Simulation)アプローチを導入する。
我々のMISは、非深層学習の非教師付き手法よりも優れており、アノテーションを使わずに従来の深層教師付き手法と同等である。
論文 参考訳(メタデータ) (2023-03-23T16:19:43Z) - Reusable Slotwise Mechanisms [45.48002329758044]
スロット間の通信を利用してオブジェクトのダイナミクスをモデル化するフレームワークであるReusable Slotwise Mechanisms(RCM)を紹介する。
RSMはCCI(Central Contextual Information)を活用し、選択したメカニズムが残りのスロットにアクセスできるようにする。
実験により, 最先端手法と比較してRCMの優れた性能が示された。
論文 参考訳(メタデータ) (2023-02-21T08:07:27Z) - Holistic Interaction Transformer Network for Action Detection [15.667833703317124]
HIT"ネットワークは、RGBストリームとポーズストリームからなる総合的なバイモーダルフレームワークである。
提案手法は,J-HMDB,UCF101-24,MultiSportsデータセットにおいて,従来の手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-23T10:19:37Z) - Enhancing Multi-Robot Perception via Learned Data Association [37.866254392010454]
本稿では,マルチロボット協調認識問題,特に分散セマンティックセグメンテーションにおけるマルチビューインフィル問題に対処する。
本稿では,ロボット群において各エージェントにデプロイ可能なニューラルネットワークであるMulti-Agent Infilling Networkを提案する。
具体的には、各ロボットが視覚情報を局所的に符号化・復号し、ニューラルメカニズムにより、不確実性を認識し、文脈に基づく中間特徴の交換を可能にする。
論文 参考訳(メタデータ) (2021-07-01T22:45:26Z) - Learning to Move with Affordance Maps [57.198806691838364]
物理的な空間を自律的に探索し、ナビゲートする能力は、事実上あらゆる移動型自律エージェントの基本的な要件である。
従来のSLAMベースの探索とナビゲーションのアプローチは、主にシーン幾何学の活用に重点を置いている。
学習可能な余剰マップは探索と航法の両方において従来のアプローチの強化に利用でき、性能が大幅に向上することを示します。
論文 参考訳(メタデータ) (2020-01-08T04:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。