論文の概要: LiveScene: Language Embedding Interactive Radiance Fields for Physical Scene Rendering and Control
- arxiv url: http://arxiv.org/abs/2406.16038v3
- Date: Wed, 12 Mar 2025 03:19:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 16:44:42.864574
- Title: LiveScene: Language Embedding Interactive Radiance Fields for Physical Scene Rendering and Control
- Title(参考訳): LiveScene:物理シーンレンダリングと制御のための対話的放射場を組み込んだ言語
- Authors: Delin Qu, Qizhi Chen, Pingrui Zhang, Xianqiang Gao, Junzhe Li, Bin Zhao, Dong Wang, Xuelong Li,
- Abstract要約: 本稿では,複雑なシーンにオブジェクトレベルの再構築を拡大し,インタラクティブなシーン再構築を推し進める。
複数のオブジェクトを効率的に再構成し,制御する,シーンレベルの言語埋め込み型対話型放射場LiveSceneを提案する。
- 参考スコア(独自算出の注目度): 43.25983939699873
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper scales object-level reconstruction to complex scenes, advancing interactive scene reconstruction. We introduce two datasets, OmniSim and InterReal, featuring 28 scenes with multiple interactive objects. To tackle the challenge of inaccurate interactive motion recovery in complex scenes, we propose LiveScene, a scene-level language-embedded interactive radiance field that efficiently reconstructs and controls multiple objects. By decomposing the interactive scene into local deformable fields, LiveScene enables separate reconstruction of individual object motions, reducing memory consumption. Additionally, our interaction-aware language embedding localizes individual interactive objects, allowing for arbitrary control using natural language. Our approach demonstrates significant superiority in novel view synthesis, interactive scene control, and language grounding performance through extensive experiments. Project page: https://livescenes.github.io.
- Abstract(参考訳): 本稿では,複雑なシーンにオブジェクトレベルの再構築を拡大し,インタラクティブなシーン再構築を推し進める。
OmniSimとInterRealという2つのデータセットを紹介します。
複雑なシーンにおける不正確な対話的動き回復の課題を解決するために,複数のオブジェクトを効率的に再構成・制御するシーンレベルの言語埋め込み型対話的放射場LiveSceneを提案する。
インタラクティブなシーンをローカルな変形可能なフィールドに分解することで、LiveSceneは個々のオブジェクトの動きを別々に再構築し、メモリ消費を削減できる。
さらに、対話型言語を組み込むと、個々の対話型オブジェクトがローカライズされ、自然言語による任意の制御が可能となる。
提案手法は,新しいビュー合成,対話型シーン制御,言語接地性能において,広範囲な実験を通して大きな優位性を示す。
プロジェクトページ: https://livescenes.github.io
関連論文リスト
- SceneFoundry: Generating Interactive Infinite 3D Worlds [22.60801815197924]
SceneFoundryは、機能的な家具を備えたアパートスケールの3Dワールドを生成する言語誘導拡散フレームワークである。
本フレームワークは,多様なシーンタイプや環境にまたがって,構造的に妥当でセマンティック・コヒーレントで,機能的にインタラクティブな環境を生成する。
論文 参考訳(メタデータ) (2026-01-09T14:33:10Z) - SceneAdapt: Scene-aware Adaptation of Human Motion Diffusion [74.70024991949269]
テキスト条件付モーションモデルにシーン認識を注入するフレームワークであるSceneAdaptを紹介する。
主要なアイデアは、2つの異なるデータセットをブリッジするプロキシタスクとして、テキストなしで学習可能なモーションインテリシングを使用することだ。
その結果,SceneAdaptはシーン認識をテキスト・トゥ・モーション・モデルに効果的に注入することがわかった。
論文 参考訳(メタデータ) (2025-10-14T23:42:10Z) - REACT3D: Recovering Articulations for Interactive Physical 3D Scenes [96.27769519526426]
REACT3Dは静的な3Dシーンを一貫した幾何学を持つシミュレーション可能なインタラクティブなレプリカに変換するフレームワークである。
室内の様々な場面における検出・分離・調音計測における最先端性能について検討した。
論文 参考訳(メタデータ) (2025-10-13T12:37:59Z) - MorphoSim: An Interactive, Controllable, and Editable Language-guided 4D World Simulator [42.06769509897601]
マルチビューの一貫性とオブジェクトレベルの制御を備えた4Dシーンを生成する言語ガイドフレームワークであるMorphoSimを紹介する。
このフレームワークは、軌跡誘導生成と機能フィールドの延長を統合し、完全な再生成なしにインタラクティブに編集を適用できる。
論文 参考訳(メタデータ) (2025-10-05T22:55:17Z) - InteractMove: Text-Controlled Human-Object Interaction Generation in 3D Scenes with Movable Objects [15.92165183796286]
動画像を用いた3次元シーンにおけるテキスト制御によるオブジェクトインタラクション生成の課題を提案する。
既存の人間とシーンの相互作用データセットは、不十分な相互作用カテゴリに悩まされる。
異なる手関節の接触領域を予測するための手指型手指合せ学習を提案する。
論文 参考訳(メタデータ) (2025-09-28T03:29:15Z) - HOSIG: Full-Body Human-Object-Scene Interaction Generation with Hierarchical Scene Perception [57.37135310143126]
HO SIGは階層的なシーン認識を通じて全体インタラクションを合成するための新しいフレームワークである。
我々のフレームワークは、自己回帰生成による運動長の無制限化をサポートし、手動による介入を最小限に抑える。
この研究は、シーン認識ナビゲーションとデクスタラスオブジェクト操作の間に重要なギャップを埋める。
論文 参考訳(メタデータ) (2025-06-02T12:08:08Z) - Human-Object Interaction with Vision-Language Model Guided Relative Movement Dynamics [30.43930233035367]
本稿では,統合されたオブジェクトインタラクションフレームワークを提案する。
静的シーンと動的オブジェクトとのインタラクションを言語コマンドを使って統一的に制御する。
我々のフレームワークは動的、調音的、静的なオブジェクト間の長い水平相互作用をサポートしている。
論文 参考訳(メタデータ) (2025-03-24T05:18:04Z) - ChatSplat: 3D Conversational Gaussian Splatting [51.40403199909113]
ChatSplatは3D言語フィールドを構築するシステムで、3D空間内でリッチなチャットベースのインタラクションを可能にする。
ビューレベルのインタラクションのために,各ビューのレンダリングされた特徴マップをトークンにエンコードするエンコーダを設計し,それを大規模言語モデルで処理した。
シーンレベルでは、ChatSplatはマルチビュートークンを組み合わせて、シーン全体を考慮したインタラクションを可能にする。
論文 参考訳(メタデータ) (2024-12-01T08:59:30Z) - The Scene Language: Representing Scenes with Programs, Words, and Embeddings [23.707974056165042]
本稿では,視覚シーンの構造,意味,アイデンティティを簡潔かつ正確に記述した視覚シーン表現であるシーン言語を紹介する。
シーン内のエンティティの階層構造と関係構造を指定するプログラム、各エンティティのセマンティッククラスを要約する自然言語の単語、各エンティティの視覚的アイデンティティをキャプチャする埋め込みである。
論文 参考訳(メタデータ) (2024-10-22T07:40:20Z) - Generating Human Motion in 3D Scenes from Text Descriptions [60.04976442328767]
本稿では,人間とシーンのインタラクションをテキストで記述した3次元屋内シーンにおけるヒューマンモーション生成の課題に焦点を当てた。
複雑な問題を2つのより管理可能なサブプロブレムに分解する新しい手法を提案する。
対象オブジェクトの言語グラウンド化には、大きな言語モデルのパワーを活用し、モーション生成には、オブジェクト中心のシーン表現を設計する。
論文 参考訳(メタデータ) (2024-05-13T14:30:12Z) - Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。
我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。
トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文 参考訳(メタデータ) (2024-04-16T16:04:38Z) - ASSIST: Interactive Scene Nodes for Scalable and Realistic Indoor
Simulation [17.34617771579733]
本稿では、合成および現実的なシミュレーションのためのパノプティクス表現として、オブジェクト指向神経放射場であるASSISTを提案する。
各オブジェクトの情報を統一的に格納する新しいシーンノードデータ構造は、イントラシーンとクロスシーンの両方でオンラインインタラクションを可能にする。
論文 参考訳(メタデータ) (2023-11-10T17:56:43Z) - Synthesizing Physical Character-Scene Interactions [64.26035523518846]
仮想キャラクタとその周辺環境間のこのような相互作用を合成する必要がある。
本稿では,逆模倣学習と強化学習を用いて物理シミュレーション文字を学習するシステムを提案する。
我々のアプローチは、物理学に基づくキャラクターモーション生成を広い適用性に一歩近づいた。
論文 参考訳(メタデータ) (2023-02-02T05:21:32Z) - DisCoScene: Spatially Disentangled Generative Radiance Fields for
Controllable 3D-aware Scene Synthesis [90.32352050266104]
DisCoSceneは高品質で制御可能なシーン合成のための3Daware生成モデルである。
グローバルな局所的差別を伴う2次元画像のみを学習することで、シーン全体をオブジェクト中心の生成フィールドに分解する。
挑戦的な屋外データセットを含む多くのシーンデータセットで最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-12-22T18:59:59Z) - Compositional Human-Scene Interaction Synthesis with Semantic Control [16.93177243590465]
高レベルのセマンティック仕様によって制御された所定の3Dシーンと相互作用する人間を合成することを目的としている。
本研究では,3次元人体表面点と3次元物体を共同符号化したトランスフォーマーを用いた新しい生成モデルを設計する。
人間が同時に複数の物体と相互作用できる相互作用の構成的性質に着想を得て、相互作用のセマンティクスを原子間相互作用-対象対の様々な数の合成として定義する。
論文 参考訳(メタデータ) (2022-07-26T11:37:44Z) - iGibson, a Simulation Environment for Interactive Tasks in Large
Realistic Scenes [54.04456391489063]
iGibsonは、大規模な現実的なシーンにおける対話的なタスクのためのロボットソリューションを開発するための、新しいシミュレーション環境である。
私たちの環境には、厳密で明瞭な物体が密集した15のインタラクティブなホームサイズシーンが含まれています。
iGibsonの機能はナビゲーションエージェントの一般化を可能にし、人間-iGibsonインターフェースと統合されたモーションプランナーは、単純な人間の実演行動の効率的な模倣学習を促進する。
論文 参考訳(メタデータ) (2020-12-05T02:14:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。