論文の概要: ArK: Augmented Reality with Knowledge Interactive Emergent Ability
- arxiv url: http://arxiv.org/abs/2305.00970v1
- Date: Mon, 1 May 2023 17:57:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 12:37:51.909832
- Title: ArK: Augmented Reality with Knowledge Interactive Emergent Ability
- Title(参考訳): ArK:知識対話型創発能力を備えた拡張現実
- Authors: Qiuyuan Huang, Jae Sung Park, Abhinav Gupta, Paul Bennett, Ran Gong,
Subhojit Som, Baolin Peng, Owais Khan Mohammed, Chris Pal, Yejin Choi,
Jianfeng Gao
- Abstract要約: 基礎モデルから新しいドメインへの知識記憶の伝達を学習する無限エージェントを開発する。
私たちのアプローチの核心は、Augmented Reality with Knowledge Inference Interaction (ArK)と呼ばれる新しいメカニズムである。
我々のArKアプローチは,大規模な基礎モデルと組み合わせることで,生成された2D/3Dシーンの品質を大幅に向上することを示す。
- 参考スコア(独自算出の注目度): 115.72679420999535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the growing adoption of mixed reality and interactive AI agents, it
remains challenging for these systems to generate high quality 2D/3D scenes in
unseen environments. The common practice requires deploying an AI agent to
collect large amounts of data for model training for every new task. This
process is costly, or even impossible, for many domains. In this study, we
develop an infinite agent that learns to transfer knowledge memory from general
foundation models (e.g. GPT4, DALLE) to novel domains or scenarios for scene
understanding and generation in the physical or virtual world. The heart of our
approach is an emerging mechanism, dubbed Augmented Reality with Knowledge
Inference Interaction (ArK), which leverages knowledge-memory to generate
scenes in unseen physical world and virtual reality environments. The knowledge
interactive emergent ability (Figure 1) is demonstrated as the observation
learns i) micro-action of cross-modality: in multi-modality models to collect a
large amount of relevant knowledge memory data for each interaction task (e.g.,
unseen scene understanding) from the physical reality; and ii) macro-behavior
of reality-agnostic: in mix-reality environments to improve interactions that
tailor to different characterized roles, target variables, collaborative
information, and so on. We validate the effectiveness of ArK on the scene
generation and editing tasks. We show that our ArK approach, combined with
large foundation models, significantly improves the quality of generated 2D/3D
scenes, compared to baselines, demonstrating the potential benefit of
incorporating ArK in generative AI for applications such as metaverse and
gaming simulation.
- Abstract(参考訳): 混合現実と対話型AIエージェントの普及にもかかわらず、これらのシステムでは、目に見えない環境で高品質な2D/3Dシーンを生成することは依然として困難である。
一般的なプラクティスは、AIエージェントをデプロイして、新しいタスク毎にモデルトレーニングのために大量のデータを収集することである。
多くのドメインにとってこのプロセスは費用がかかり、あるいは不可能です。
本研究では,一般基礎モデル(GPT4, DALLE)から物理・仮想世界におけるシーン理解・生成のための新しい領域やシナリオへの知識記憶の伝達を学習する無限エージェントを開発する。
このアプローチの核心はAugmented Reality with Knowledge Inference Interaction (ArK)と呼ばれる新しいメカニズムであり、知識メモリを活用して、目に見えない物理世界と仮想現実環境におけるシーンを生成する。
観察が学習する知識対話的創発能力(第1図)を実証する。
一 クロスモダリティのマイクロアクション:多モードモデルにおいて、身体的現実から各インタラクションタスク(例えば、見えないシーン理解)の大量の関連知識記憶データを収集すること。
二 現実非依存のマクロ行動:異なる特徴のある役割、標的変数、協調情報等に合わせた相互作用を改善する混合現実環境において。
シーン生成と編集作業におけるArKの有効性を検証する。
我々のArKアプローチは,大規模ファンデーションモデルと組み合わせることで,生成した2D/3Dシーンの品質をベースラインよりも大幅に向上し,メタバースやゲームシミュレーションなどのアプリケーションにArKを生成AIに組み込むことの潜在的なメリットを示す。
関連論文リスト
- Multimodal 3D Fusion and In-Situ Learning for Spatially Aware AI [10.335943413484815]
拡張現実における仮想世界と物理世界のシームレスな統合は、物理的な環境を意味的に「理解する」システムから恩恵を受ける。
本稿では,意味的知識と言語的知識を幾何学的表現と一体化する多モード3Dオブジェクト表現を提案する。
提案システムの有用性を,Magic Leap 2上の2つの実世界のARアプリケーションを用いて実証する:a) 自然言語を用いた物理環境における空間探索,b) 時間とともにオブジェクトの変化を追跡するインテリジェントなインベントリシステム。
論文 参考訳(メタデータ) (2024-10-06T23:25:21Z) - Online Decision MetaMorphFormer: A Casual Transformer-Based Reinforcement Learning Framework of Universal Embodied Intelligence [2.890656584329591]
Online Decision MetaMorphFormer (ODM)は、自己認識、環境認識、行動計画の実現を目的としている。
ODMは、異なる環境にあるマルチジョイントボディを持つ任意のエージェントに適用することができ、大規模な事前トレーニングデータセットを使用して、さまざまなタイプのタスクでトレーニングすることができる。
論文 参考訳(メタデータ) (2024-09-11T15:22:43Z) - An Interactive Agent Foundation Model [49.77861810045509]
本稿では,AIエージェントを訓練するための新しいマルチタスクエージェントトレーニングパラダイムを用いた対話型エージェント基礎モデルを提案する。
トレーニングパラダイムは、視覚マスク付きオートエンコーダ、言語モデリング、次世代の予測など、多様な事前学習戦略を統一する。
私たちは、ロボティクス、ゲームAI、ヘルスケアという3つの異なる領域でフレームワークのパフォーマンスを実演します。
論文 参考訳(メタデータ) (2024-02-08T18:58:02Z) - Agent AI: Surveying the Horizons of Multimodal Interaction [83.18367129924997]
エージェントAI(Agent AI)とは、視覚刺激や言語入力、その他の環境データを知覚できる対話型システムである。
我々は,バーチャルリアリティやシミュレートされたシーンを容易に作成し,仮想環境内に具体化されたエージェントと対話できる未来を構想する。
論文 参考訳(メタデータ) (2024-01-07T19:11:18Z) - REACT: Recognize Every Action Everywhere All At Once [8.10024991952397]
グループ・アクティビティ・デコーダ(GAR)はコンピュータビジョンにおける基本的な問題であり、スポーツ分析、監視、社会場面の理解に様々な応用がある。
本稿では,変換器エンコーダ・デコーダモデルにインスパイアされたREACTアーキテクチャを提案する。
提案手法は,グループ活動の認識と理解において優れた精度を示すとともに,最先端のGAR手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-11-27T20:48:54Z) - Robot Skill Generalization via Keypoint Integrated Soft Actor-Critic
Gaussian Mixture Models [21.13906762261418]
ロボット操作システムの長年の課題は、取得したモータースキルを、目に見えない環境に適応させ、一般化することだ。
我々は、模倣と強化のパラダイムを統合するハイブリッドスキルモデルを用いて、この課題に取り組む。
提案手法は,ロボットが新規環境への大幅なゼロショット一般化を実現し,目標環境におけるスキルをスクラッチから学習するよりも早く洗練することができることを示す。
論文 参考訳(メタデータ) (2023-10-23T16:03:23Z) - Knowledge-enhanced Agents for Interactive Text Games [16.055119735473017]
テキストベースのゲームにおいてエージェントの機能的接地を改善するための知識注入フレームワークを提案する。
学習に基づくエージェントに注入するドメイン知識の2つの形態について考察する。
我々のフレームワークは、強化学習エージェントと言語モデルエージェントの2つの代表的なモデルクラスをサポートしている。
論文 参考訳(メタデータ) (2023-05-08T23:31:39Z) - WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.4875156387271]
我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。
そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-27T12:25:21Z) - Evaluating Continual Learning Algorithms by Generating 3D Virtual
Environments [66.83839051693695]
連続学習とは、人間や動物が特定の環境で徐々に学習する能力である。
本稿では3次元仮想環境の最近の進歩を活用して,フォトリアリスティックな外観を持つ潜在的に長寿命な動的シーンの自動生成にアプローチすることを提案する。
本論文の新たな要素は、シーンがパラメトリックな方法で記述され、エージェントが知覚する入力ストリームの視覚的複雑さを完全に制御できることである。
論文 参考訳(メタデータ) (2021-09-16T10:37:21Z) - ThreeDWorld: A Platform for Interactive Multi-Modal Physical Simulation [75.0278287071591]
ThreeDWorld (TDW) はインタラクティブなマルチモーダル物理シミュレーションのためのプラットフォームである。
TDWは、リッチな3D環境において、高忠実な感覚データのシミュレーションと、移動体エージェントとオブジェクト間の物理的相互作用を可能にする。
我々は、コンピュータビジョン、機械学習、認知科学における新たな研究方向において、TDWによって実現された初期実験を提示する。
論文 参考訳(メタデータ) (2020-07-09T17:33:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。