論文の概要: Augmented Object Intelligence: Making the Analog World Interactable with XR-Objects
- arxiv url: http://arxiv.org/abs/2404.13274v2
- Date: Tue, 23 Apr 2024 03:09:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 18:27:13.936965
- Title: Augmented Object Intelligence: Making the Analog World Interactable with XR-Objects
- Title(参考訳): 拡張されたオブジェクトインテリジェンス:XRオブジェクトでアナログワールドを対話可能にする
- Authors: Mustafa Doga Dogan, Eric J. Gonzalez, Andrea Colaco, Karan Ahuja, Ruofei Du, Johnny Lee, Mar Gonzalez-Franco, David Kim,
- Abstract要約: 本稿では,デジタルと物理の境界線を曖昧にするために設計された,新しいXRインタラクションパラダイムであるAugmented Object Intelligence(AOI)を紹介する。
我々は,オープンソースのプロトタイプシステムであるXR-Objectsの形で,AOIの概念を実装した。
このシステムにより、アナログオブジェクトは情報を伝えるだけでなく、詳細を問い合わせたりタスクを実行するといったデジタルアクションを開始することができる。
- 参考スコア(独自算出の注目度): 18.574032913387573
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Seamless integration of physical objects as interactive digital entities remains a challenge for spatial computing. This paper introduces Augmented Object Intelligence (AOI), a novel XR interaction paradigm designed to blur the lines between digital and physical by equipping real-world objects with the ability to interact as if they were digital, where every object has the potential to serve as a portal to vast digital functionalities. Our approach utilizes object segmentation and classification, combined with the power of Multimodal Large Language Models (MLLMs), to facilitate these interactions. We implement the AOI concept in the form of XR-Objects, an open-source prototype system that provides a platform for users to engage with their physical environment in rich and contextually relevant ways. This system enables analog objects to not only convey information but also to initiate digital actions, such as querying for details or executing tasks. Our contributions are threefold: (1) we define the AOI concept and detail its advantages over traditional AI assistants, (2) detail the XR-Objects system's open-source design and implementation, and (3) show its versatility through a variety of use cases and a user study.
- Abstract(参考訳): 対話型デジタルエンティティとしての物理オブジェクトのシームレスな統合は、空間コンピューティングの課題である。
本稿では,デジタルオブジェクトがデジタルであるかのように対話できる能力を備えた,デジタルと物理的の境界線を曖昧にするために設計された,新しいXRインタラクションパラダイムであるAugmented Object Intelligence(AOI)を紹介する。
提案手法では,オブジェクトのセグメンテーションと分類と,MLLM(Multimodal Large Language Models)のパワーを組み合わせることで,これらのインタラクションを容易にする。
我々は,AOI の概念を XR-Objects というオープンソースのプロトタイプシステムで実装する。
このシステムにより、アナログオブジェクトが情報を伝えるだけでなく、細部への問い合わせやタスクの実行といったデジタルアクションを開始することができる。
1)従来のAIアシスタントよりもAOIの概念を定義し、その利点を詳述し、(2)XR-Objectsシステムのオープンソース設計と実装を詳述し、(3)さまざまなユースケースとユーザスタディを通じてその汎用性を示す。
関連論文リスト
- Articulate-Anything: Automatic Modeling of Articulated Objects via a Vision-Language Foundation Model [35.184607650708784]
Articulate-Anythingは、テキスト、画像、ビデオを含む多くの入力モダリティから、多種多様な複雑なオブジェクトの明瞭化を自動化する。
本システムでは,メッシュ検索機構を通じて既存の3Dデータセットを,反復的に提案,評価,洗練を行うアクタ・クリティカル・システムとともに活用する。
論文 参考訳(メタデータ) (2024-10-03T19:42:16Z) - Weak-to-Strong 3D Object Detection with X-Ray Distillation [75.47580744933724]
本稿では,既存の任意の3Dオブジェクト検出フレームワークにシームレスに統合する多目的手法を提案する。
オブジェクト・コンプリートフレームを用いたX線蒸留は、教師付き設定と半教師付き設定の両方に適している。
提案手法は,半教師あり学習における最先端の手法を1-1.5mAPで超越する。
論文 参考訳(メタデータ) (2024-03-31T13:09:06Z) - ROAM: Robust and Object-Aware Motion Generation Using Neural Pose
Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。
我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。
本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-24T17:59:51Z) - Towards a conceptual model for the FAIR Digital Object Framework [0.0]
FAIR Digital Objectsのムーブメントは、FAIR原則に従ってデジタルオブジェクトを公開し、探索できるインフラを目指している。
概念モデルは、FAIR原則に関連するデジタルオブジェクトの側面をカバーする。
論文 参考訳(メタデータ) (2023-02-23T10:00:46Z) - Complex-Valued Autoencoders for Object Discovery [62.26260974933819]
本稿では,オブジェクト中心表現に対する分散アプローチとして,複合オートエンコーダを提案する。
このシンプルで効率的なアプローチは、単純なマルチオブジェクトデータセット上の等価な実数値オートエンコーダよりも、より良い再構成性能を実現することを示す。
また、2つのデータセット上のSlotAttentionモデルと競合しないオブジェクト発見性能を実現し、SlotAttentionが失敗する第3のデータセットでオブジェクトをアンタングルする。
論文 参考訳(メタデータ) (2022-04-05T09:25:28Z) - ObjectFolder: A Dataset of Objects with Implicit Visual, Auditory, and
Tactile Representations [52.226947570070784]
両課題に対処する100のオブジェクトからなるデータセットであるObjectを,2つの重要なイノベーションで紹介する。
まず、オブジェクトは視覚的、聴覚的、触覚的なすべてのオブジェクトの知覚データをエンコードし、多数の多感覚オブジェクト認識タスクを可能にする。
第2に、Objectは統一されたオブジェクト中心のシミュレーションと、各オブジェクトの視覚的テクスチャ、触覚的読み出し、触覚的読み出しに暗黙的な表現を採用しており、データセットの使用が柔軟で共有が容易である。
論文 参考訳(メタデータ) (2021-09-16T14:00:59Z) - O2O-Afford: Annotation-Free Large-Scale Object-Object Affordance
Learning [24.9242853417825]
本稿では,様々なタスクに対するオブジェクト・オブジェクトのインタラクションを学習するための,統一的なアベイランス学習フレームワークを提案する。
我々は、人間のアノテーションやデモンストレーションを必要とせずに、大規模なオブジェクト・オブジェクト・アベイランス・ラーニングを行うことができる。
大規模合成データと実世界のデータを用いた実験により,提案手法の有効性が証明された。
論文 参考訳(メタデータ) (2021-06-29T04:38:12Z) - Where2Act: From Pixels to Actions for Articulated 3D Objects [54.19638599501286]
可動部を有する関節物体の押出しや引抜き等の基本動作に関連する高度に局所化された動作可能な情報を抽出する。
シミュレーションでネットワークをトレーニングできるオンラインデータサンプリング戦略を備えた学習から対話までのフレームワークを提案します。
私たちの学習モデルは、現実世界のデータにも転送します。
論文 参考訳(メタデータ) (2021-01-07T18:56:38Z) - A Deep Learning Approach to Object Affordance Segmentation [31.221897360610114]
我々は,ビデオと静的画像の両方において,画素単位の価格ラベルを推定するオートエンコーダを設計する。
本モデルは,ソフトアテンション機構を用いて,オブジェクトラベルやバウンディングボックスの必要性を克服する。
本モデルは,SOR3D-AFF上での強い教師付き手法と比較して,競争力のある結果が得られることを示す。
論文 参考訳(メタデータ) (2020-04-18T15:34:41Z) - Look-into-Object: Self-supervised Structure Modeling for Object
Recognition [71.68524003173219]
我々は,自己スーパービジョンを取り入れた「対象」(具体的かつ内在的に対象構造をモデル化する)を提案する。
認識バックボーンは、より堅牢な表現学習のために大幅に拡張可能であることを示す。
提案手法は汎用オブジェクト認識(ImageNet)や細粒度オブジェクト認識タスク(CUB, Cars, Aircraft)など,多数のベンチマークにおいて大きなパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-03-31T12:22:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。