論文の概要: LiveScene: Language Embedding Interactive Radiance Fields for Physical Scene Rendering and Control
- arxiv url: http://arxiv.org/abs/2406.16038v1
- Date: Sun, 23 Jun 2024 07:26:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 19:13:57.690298
- Title: LiveScene: Language Embedding Interactive Radiance Fields for Physical Scene Rendering and Control
- Title(参考訳): LiveScene:物理シーンレンダリングと制御のための対話的放射場を組み込んだ言語
- Authors: Delin Qu, Qizhi Chen, Pingrui Zhang, Xianqiang Gao, Bin Zhao, Dong Wang, Xuelong Li,
- Abstract要約: 我々は,対話型オブジェクト再構成を単一オブジェクトレベルから複雑なシーンレベルまで拡張する。
シーンレベルの言語埋め込み型対話型ニューラルラジアンスフィールドであるLiveSceneを提案する。
LiveSceneは複雑なシーンで複数のインタラクティブオブジェクトを効率的に再構築し、制御する。
- 参考スコア(独自算出の注目度): 45.1230495980299
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper aims to advance the progress of physical world interactive scene reconstruction by extending the interactive object reconstruction from single object level to complex scene level. To this end, we first construct one simulated and one real scene-level physical interaction dataset containing 28 scenes with multiple interactive objects per scene. Furthermore, to accurately model the interactive motions of multiple objects in complex scenes, we propose LiveScene, the first scene-level language-embedded interactive neural radiance field that efficiently reconstructs and controls multiple interactive objects in complex scenes. LiveScene introduces an efficient factorization that decomposes the interactive scene into multiple local deformable fields to separately reconstruct individual interactive objects, achieving the first accurate and independent control on multiple interactive objects in a complex scene. Moreover, we introduce an interaction-aware language embedding method that generates varying language embeddings to localize individual interactive objects under different interactive states, enabling arbitrary control of interactive objects using natural language. Finally, we evaluate LiveScene on the constructed datasets OminiSim and InterReal with various simulated and real-world complex scenes. Extensive experiment results demonstrate that the proposed approach achieves SOTA novel view synthesis and language grounding performance, surpassing existing methods by +9.89, +1.30, and +1.99 in PSNR on CoNeRF Synthetic, OminiSim #chanllenging, and InterReal #chanllenging datasets, and +65.12 of mIOU on OminiSim, respectively. Project page: \href{https://livescenes.github.io}{https://livescenes.github.io}.
- Abstract(参考訳): 本稿では,対話型オブジェクト再構成を単一オブジェクトレベルから複雑なシーンレベルに拡張することにより,物理世界インタラクティブなシーン再構築の進展を推し進めることを目的とする。
そこで我々はまず,28のシーンと複数の対話オブジェクトを含む実シーンレベルの物理インタラクションデータセットを構築した。
さらに,複雑なシーンにおける複数のオブジェクトのインタラクティブな動きを正確にモデル化するために,複雑なシーンにおける複数のオブジェクトを効率的に再構成・制御する,最初のシーンレベルの言語埋め込み型対話型ニューラルラディアンス場であるLiveSceneを提案する。
LiveSceneは、インタラクティブなシーンを複数の局所的な変形可能なフィールドに分解し、個別のインタラクティブなオブジェクトを別々に再構成し、複雑なシーンにおける複数のインタラクティブなオブジェクトに対する最初の正確かつ独立した制御を実現する。
さらに,異なる対話状態下での対話オブジェクトのローカライズのために,様々な言語埋め込みを生成する対話型言語埋め込み手法を導入し,自然言語を用いた対話型オブジェクトの任意制御を実現する。
最後に、OminiSimとInterRealを構築したデータセット上で、様々なシミュレートされた実世界の複雑なシーンでLiveSceneを評価する。
提案手法は,CoNeRF合成におけるPSNR+9.89,+1.30,+1.99,OminiSim#chanllengingデータセットにおけるOminiSim#chanllengingデータセット+65.12,OminiSimにおけるmIOU+65.12をそれぞれ上回り,SOTAの新規なビュー合成と言語基盤性能を実現することを示す。
プロジェクトページ: \href{https://livescenes.github.io}{https://livescenes.github.io}
関連論文リスト
- The Scene Language: Representing Scenes with Programs, Words, and Embeddings [23.707974056165042]
本稿では,視覚シーンの構造,意味,アイデンティティを簡潔かつ正確に記述した視覚シーン表現であるシーン言語を紹介する。
シーン内のエンティティの階層構造と関係構造を指定するプログラム、各エンティティのセマンティッククラスを要約する自然言語の単語、各エンティティの視覚的アイデンティティをキャプチャする埋め込みである。
論文 参考訳(メタデータ) (2024-10-22T07:40:20Z) - Generating Human Motion in 3D Scenes from Text Descriptions [60.04976442328767]
本稿では,人間とシーンのインタラクションをテキストで記述した3次元屋内シーンにおけるヒューマンモーション生成の課題に焦点を当てた。
複雑な問題を2つのより管理可能なサブプロブレムに分解する新しい手法を提案する。
対象オブジェクトの言語グラウンド化には、大きな言語モデルのパワーを活用し、モーション生成には、オブジェクト中心のシーン表現を設計する。
論文 参考訳(メタデータ) (2024-05-13T14:30:12Z) - Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。
我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。
トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文 参考訳(メタデータ) (2024-04-16T16:04:38Z) - ASSIST: Interactive Scene Nodes for Scalable and Realistic Indoor
Simulation [17.34617771579733]
本稿では、合成および現実的なシミュレーションのためのパノプティクス表現として、オブジェクト指向神経放射場であるASSISTを提案する。
各オブジェクトの情報を統一的に格納する新しいシーンノードデータ構造は、イントラシーンとクロスシーンの両方でオンラインインタラクションを可能にする。
論文 参考訳(メタデータ) (2023-11-10T17:56:43Z) - Synthesizing Physical Character-Scene Interactions [64.26035523518846]
仮想キャラクタとその周辺環境間のこのような相互作用を合成する必要がある。
本稿では,逆模倣学習と強化学習を用いて物理シミュレーション文字を学習するシステムを提案する。
我々のアプローチは、物理学に基づくキャラクターモーション生成を広い適用性に一歩近づいた。
論文 参考訳(メタデータ) (2023-02-02T05:21:32Z) - DisCoScene: Spatially Disentangled Generative Radiance Fields for
Controllable 3D-aware Scene Synthesis [90.32352050266104]
DisCoSceneは高品質で制御可能なシーン合成のための3Daware生成モデルである。
グローバルな局所的差別を伴う2次元画像のみを学習することで、シーン全体をオブジェクト中心の生成フィールドに分解する。
挑戦的な屋外データセットを含む多くのシーンデータセットで最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-12-22T18:59:59Z) - Compositional Human-Scene Interaction Synthesis with Semantic Control [16.93177243590465]
高レベルのセマンティック仕様によって制御された所定の3Dシーンと相互作用する人間を合成することを目的としている。
本研究では,3次元人体表面点と3次元物体を共同符号化したトランスフォーマーを用いた新しい生成モデルを設計する。
人間が同時に複数の物体と相互作用できる相互作用の構成的性質に着想を得て、相互作用のセマンティクスを原子間相互作用-対象対の様々な数の合成として定義する。
論文 参考訳(メタデータ) (2022-07-26T11:37:44Z) - iGibson, a Simulation Environment for Interactive Tasks in Large
Realistic Scenes [54.04456391489063]
iGibsonは、大規模な現実的なシーンにおける対話的なタスクのためのロボットソリューションを開発するための、新しいシミュレーション環境である。
私たちの環境には、厳密で明瞭な物体が密集した15のインタラクティブなホームサイズシーンが含まれています。
iGibsonの機能はナビゲーションエージェントの一般化を可能にし、人間-iGibsonインターフェースと統合されたモーションプランナーは、単純な人間の実演行動の効率的な模倣学習を促進する。
論文 参考訳(メタデータ) (2020-12-05T02:14:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。