論文の概要: LiveScene: Language Embedding Interactive Radiance Fields for Physical Scene Rendering and Control
- arxiv url: http://arxiv.org/abs/2406.16038v2
- Date: Sun, 03 Nov 2024 07:37:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:40:40.465579
- Title: LiveScene: Language Embedding Interactive Radiance Fields for Physical Scene Rendering and Control
- Title(参考訳): LiveScene:物理シーンレンダリングと制御のための対話的放射場を組み込んだ言語
- Authors: Delin Qu, Qizhi Chen, Pingrui Zhang, Xianqiang Gao, Bin Zhao, Dong Wang, Xuelong Li,
- Abstract要約: 本稿では,複雑なシーンにオブジェクトレベルの再構築を拡大し,インタラクティブなシーン再構築を推し進める。
複数のオブジェクトを効率的に再構成し,制御する,シーンレベルの言語埋め込み型対話型放射場LiveSceneを提案する。
- 参考スコア(独自算出の注目度): 45.1230495980299
- License:
- Abstract: This paper scales object-level reconstruction to complex scenes, advancing interactive scene reconstruction. We introduce two datasets, OmniSim and InterReal, featuring 28 scenes with multiple interactive objects. To tackle the challenge of inaccurate interactive motion recovery in complex scenes, we propose LiveScene, a scene-level language-embedded interactive radiance field that efficiently reconstructs and controls multiple objects. By decomposing the interactive scene into local deformable fields, LiveScene enables separate reconstruction of individual object motions, reducing memory consumption. Additionally, our interaction-aware language embedding localizes individual interactive objects, allowing for arbitrary control using natural language. Our approach demonstrates significant superiority in novel view synthesis, interactive scene control, and language grounding performance through extensive experiments. Project page: https://livescenes.github.io.
- Abstract(参考訳): 本稿では,複雑なシーンにオブジェクトレベルの再構築を拡大し,インタラクティブなシーン再構築を推し進める。
OmniSimとInterRealという2つのデータセットを紹介します。
複雑なシーンにおける不正確な対話的動き回復の課題を解決するために,複数のオブジェクトを効率的に再構成・制御するシーンレベルの言語埋め込み型対話的放射場LiveSceneを提案する。
インタラクティブなシーンをローカルな変形可能なフィールドに分解することで、LiveSceneは個々のオブジェクトの動きを別々に再構築し、メモリ消費を削減できる。
さらに、対話型言語を組み込むと、個々の対話型オブジェクトがローカライズされ、自然言語による任意の制御が可能となる。
提案手法は,新しいビュー合成,対話型シーン制御,言語接地性能において,広範囲な実験を通して大きな優位性を示す。
プロジェクトページ: https://livescenes.github.io
関連論文リスト
- ChatSplat: 3D Conversational Gaussian Splatting [51.40403199909113]
ChatSplatは3D言語フィールドを構築するシステムで、3D空間内でリッチなチャットベースのインタラクションを可能にする。
ビューレベルのインタラクションのために,各ビューのレンダリングされた特徴マップをトークンにエンコードするエンコーダを設計し,それを大規模言語モデルで処理した。
シーンレベルでは、ChatSplatはマルチビュートークンを組み合わせて、シーン全体を考慮したインタラクションを可能にする。
論文 参考訳(メタデータ) (2024-12-01T08:59:30Z) - SIMS: Simulating Human-Scene Interactions with Real World Script Planning [33.31213669502036]
本稿では,長期的物理的プラプティブルなヒューマン・シーンインタラクションの計画と制御のための新しい枠組みを提案する。
大規模言語モデル(LLM)は論理的なストーリーラインを理解し、生成することができる。
これを活用することで、言語理解とシーン理解の両方を実現する二重認識ポリシーを利用する。
論文 参考訳(メタデータ) (2024-11-29T18:36:15Z) - Generating Human Motion in 3D Scenes from Text Descriptions [60.04976442328767]
本稿では,人間とシーンのインタラクションをテキストで記述した3次元屋内シーンにおけるヒューマンモーション生成の課題に焦点を当てた。
複雑な問題を2つのより管理可能なサブプロブレムに分解する新しい手法を提案する。
対象オブジェクトの言語グラウンド化には、大きな言語モデルのパワーを活用し、モーション生成には、オブジェクト中心のシーン表現を設計する。
論文 参考訳(メタデータ) (2024-05-13T14:30:12Z) - Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。
我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。
トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文 参考訳(メタデータ) (2024-04-16T16:04:38Z) - ASSIST: Interactive Scene Nodes for Scalable and Realistic Indoor
Simulation [17.34617771579733]
本稿では、合成および現実的なシミュレーションのためのパノプティクス表現として、オブジェクト指向神経放射場であるASSISTを提案する。
各オブジェクトの情報を統一的に格納する新しいシーンノードデータ構造は、イントラシーンとクロスシーンの両方でオンラインインタラクションを可能にする。
論文 参考訳(メタデータ) (2023-11-10T17:56:43Z) - Synthesizing Physical Character-Scene Interactions [64.26035523518846]
仮想キャラクタとその周辺環境間のこのような相互作用を合成する必要がある。
本稿では,逆模倣学習と強化学習を用いて物理シミュレーション文字を学習するシステムを提案する。
我々のアプローチは、物理学に基づくキャラクターモーション生成を広い適用性に一歩近づいた。
論文 参考訳(メタデータ) (2023-02-02T05:21:32Z) - DisCoScene: Spatially Disentangled Generative Radiance Fields for
Controllable 3D-aware Scene Synthesis [90.32352050266104]
DisCoSceneは高品質で制御可能なシーン合成のための3Daware生成モデルである。
グローバルな局所的差別を伴う2次元画像のみを学習することで、シーン全体をオブジェクト中心の生成フィールドに分解する。
挑戦的な屋外データセットを含む多くのシーンデータセットで最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-12-22T18:59:59Z) - Compositional Human-Scene Interaction Synthesis with Semantic Control [16.93177243590465]
高レベルのセマンティック仕様によって制御された所定の3Dシーンと相互作用する人間を合成することを目的としている。
本研究では,3次元人体表面点と3次元物体を共同符号化したトランスフォーマーを用いた新しい生成モデルを設計する。
人間が同時に複数の物体と相互作用できる相互作用の構成的性質に着想を得て、相互作用のセマンティクスを原子間相互作用-対象対の様々な数の合成として定義する。
論文 参考訳(メタデータ) (2022-07-26T11:37:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。