論文の概要: LiveScene: Language Embedding Interactive Radiance Fields for Physical Scene Rendering and Control
- arxiv url: http://arxiv.org/abs/2406.16038v1
- Date: Sun, 23 Jun 2024 07:26:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 19:13:57.690298
- Title: LiveScene: Language Embedding Interactive Radiance Fields for Physical Scene Rendering and Control
- Title(参考訳): LiveScene:物理シーンレンダリングと制御のための対話的放射場を組み込んだ言語
- Authors: Delin Qu, Qizhi Chen, Pingrui Zhang, Xianqiang Gao, Bin Zhao, Dong Wang, Xuelong Li,
- Abstract要約: 我々は,対話型オブジェクト再構成を単一オブジェクトレベルから複雑なシーンレベルまで拡張する。
シーンレベルの言語埋め込み型対話型ニューラルラジアンスフィールドであるLiveSceneを提案する。
LiveSceneは複雑なシーンで複数のインタラクティブオブジェクトを効率的に再構築し、制御する。
- 参考スコア(独自算出の注目度): 45.1230495980299
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper aims to advance the progress of physical world interactive scene reconstruction by extending the interactive object reconstruction from single object level to complex scene level. To this end, we first construct one simulated and one real scene-level physical interaction dataset containing 28 scenes with multiple interactive objects per scene. Furthermore, to accurately model the interactive motions of multiple objects in complex scenes, we propose LiveScene, the first scene-level language-embedded interactive neural radiance field that efficiently reconstructs and controls multiple interactive objects in complex scenes. LiveScene introduces an efficient factorization that decomposes the interactive scene into multiple local deformable fields to separately reconstruct individual interactive objects, achieving the first accurate and independent control on multiple interactive objects in a complex scene. Moreover, we introduce an interaction-aware language embedding method that generates varying language embeddings to localize individual interactive objects under different interactive states, enabling arbitrary control of interactive objects using natural language. Finally, we evaluate LiveScene on the constructed datasets OminiSim and InterReal with various simulated and real-world complex scenes. Extensive experiment results demonstrate that the proposed approach achieves SOTA novel view synthesis and language grounding performance, surpassing existing methods by +9.89, +1.30, and +1.99 in PSNR on CoNeRF Synthetic, OminiSim #chanllenging, and InterReal #chanllenging datasets, and +65.12 of mIOU on OminiSim, respectively. Project page: \href{https://livescenes.github.io}{https://livescenes.github.io}.
- Abstract(参考訳): 本稿では,対話型オブジェクト再構成を単一オブジェクトレベルから複雑なシーンレベルに拡張することにより,物理世界インタラクティブなシーン再構築の進展を推し進めることを目的とする。
そこで我々はまず,28のシーンと複数の対話オブジェクトを含む実シーンレベルの物理インタラクションデータセットを構築した。
さらに,複雑なシーンにおける複数のオブジェクトのインタラクティブな動きを正確にモデル化するために,複雑なシーンにおける複数のオブジェクトを効率的に再構成・制御する,最初のシーンレベルの言語埋め込み型対話型ニューラルラディアンス場であるLiveSceneを提案する。
LiveSceneは、インタラクティブなシーンを複数の局所的な変形可能なフィールドに分解し、個別のインタラクティブなオブジェクトを別々に再構成し、複雑なシーンにおける複数のインタラクティブなオブジェクトに対する最初の正確かつ独立した制御を実現する。
さらに,異なる対話状態下での対話オブジェクトのローカライズのために,様々な言語埋め込みを生成する対話型言語埋め込み手法を導入し,自然言語を用いた対話型オブジェクトの任意制御を実現する。
最後に、OminiSimとInterRealを構築したデータセット上で、様々なシミュレートされた実世界の複雑なシーンでLiveSceneを評価する。
提案手法は,CoNeRF合成におけるPSNR+9.89,+1.30,+1.99,OminiSim#chanllengingデータセットにおけるOminiSim#chanllengingデータセット+65.12,OminiSimにおけるmIOU+65.12をそれぞれ上回り,SOTAの新規なビュー合成と言語基盤性能を実現することを示す。
プロジェクトページ: \href{https://livescenes.github.io}{https://livescenes.github.io}
関連論文リスト
- ChatSplat: 3D Conversational Gaussian Splatting [51.40403199909113]
ChatSplatは3D言語フィールドを構築するシステムで、3D空間内でリッチなチャットベースのインタラクションを可能にする。
ビューレベルのインタラクションのために,各ビューのレンダリングされた特徴マップをトークンにエンコードするエンコーダを設計し,それを大規模言語モデルで処理した。
シーンレベルでは、ChatSplatはマルチビュートークンを組み合わせて、シーン全体を考慮したインタラクションを可能にする。
論文 参考訳(メタデータ) (2024-12-01T08:59:30Z) - SIMS: Simulating Human-Scene Interactions with Real World Script Planning [33.31213669502036]
本稿では,長期的物理的プラプティブルなヒューマン・シーンインタラクションの計画と制御のための新しい枠組みを提案する。
大規模言語モデル(LLM)は論理的なストーリーラインを理解し、生成することができる。
これを活用することで、言語理解とシーン理解の両方を実現する二重認識ポリシーを利用する。
論文 参考訳(メタデータ) (2024-11-29T18:36:15Z) - Generating Human Motion in 3D Scenes from Text Descriptions [60.04976442328767]
本稿では,人間とシーンのインタラクションをテキストで記述した3次元屋内シーンにおけるヒューマンモーション生成の課題に焦点を当てた。
複雑な問題を2つのより管理可能なサブプロブレムに分解する新しい手法を提案する。
対象オブジェクトの言語グラウンド化には、大きな言語モデルのパワーを活用し、モーション生成には、オブジェクト中心のシーン表現を設計する。
論文 参考訳(メタデータ) (2024-05-13T14:30:12Z) - Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。
我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。
トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文 参考訳(メタデータ) (2024-04-16T16:04:38Z) - ASSIST: Interactive Scene Nodes for Scalable and Realistic Indoor
Simulation [17.34617771579733]
本稿では、合成および現実的なシミュレーションのためのパノプティクス表現として、オブジェクト指向神経放射場であるASSISTを提案する。
各オブジェクトの情報を統一的に格納する新しいシーンノードデータ構造は、イントラシーンとクロスシーンの両方でオンラインインタラクションを可能にする。
論文 参考訳(メタデータ) (2023-11-10T17:56:43Z) - Synthesizing Physical Character-Scene Interactions [64.26035523518846]
仮想キャラクタとその周辺環境間のこのような相互作用を合成する必要がある。
本稿では,逆模倣学習と強化学習を用いて物理シミュレーション文字を学習するシステムを提案する。
我々のアプローチは、物理学に基づくキャラクターモーション生成を広い適用性に一歩近づいた。
論文 参考訳(メタデータ) (2023-02-02T05:21:32Z) - DisCoScene: Spatially Disentangled Generative Radiance Fields for
Controllable 3D-aware Scene Synthesis [90.32352050266104]
DisCoSceneは高品質で制御可能なシーン合成のための3Daware生成モデルである。
グローバルな局所的差別を伴う2次元画像のみを学習することで、シーン全体をオブジェクト中心の生成フィールドに分解する。
挑戦的な屋外データセットを含む多くのシーンデータセットで最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-12-22T18:59:59Z) - Compositional Human-Scene Interaction Synthesis with Semantic Control [16.93177243590465]
高レベルのセマンティック仕様によって制御された所定の3Dシーンと相互作用する人間を合成することを目的としている。
本研究では,3次元人体表面点と3次元物体を共同符号化したトランスフォーマーを用いた新しい生成モデルを設計する。
人間が同時に複数の物体と相互作用できる相互作用の構成的性質に着想を得て、相互作用のセマンティクスを原子間相互作用-対象対の様々な数の合成として定義する。
論文 参考訳(メタデータ) (2022-07-26T11:37:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。