Fugu-MT 論文翻訳(概要): SceneGen: Generative Contextual Scene Augmentation using Scene Graph Priors

論文の概要: SceneGen: Generative Contextual Scene Augmentation using Scene Graph Priors

arxiv url: http://arxiv.org/abs/2009.12395v2
Date: Wed, 30 Sep 2020 17:06:05 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-14 23:15:13.063833
Title: SceneGen: Generative Contextual Scene Augmentation using Scene Graph Priors
Title（参考訳）: SceneGen: Scene Graph Priorsを用いた生成コンテキストシーン拡張
Authors: Mohammad Keshavarzi, Aakash Parikh, Xiyu Zhai, Melody Mao, Luisa Caldas, Allen Y. Yang
Abstract要約: SceneGenは、既存のシーン内の仮想オブジェクトの位置と方向を予測する、生成的コンテキスト拡張フレームワークである。 SceneGenはセグメンテーションされたシーンを入力として、仮想コンテンツを置くための位置と向きの確率マップを出力する。オブジェクト, オブジェクト群, 部屋間の明確な位相特性をカプセル化した空間的シーングラフ表現を定式化する。そこで本研究では,オブジェクトをリアルタイムに拡張可能な拡張現実アプリケーションを開発した。
参考スコア（独自算出の注目度）: 3.1969855247377827
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Spatial computing experiences are constrained by the real-world surroundings of the user. In such experiences, augmenting virtual objects to existing scenes require a contextual approach, where geometrical conflicts are avoided, and functional and plausible relationships to other objects are maintained in the target environment. Yet, due to the complexity and diversity of user environments, automatically calculating ideal positions of virtual content that is adaptive to the context of the scene is considered a challenging task. Motivated by this problem, in this paper we introduce SceneGen, a generative contextual augmentation framework that predicts virtual object positions and orientations within existing scenes. SceneGen takes a semantically segmented scene as input, and outputs positional and orientational probability maps for placing virtual content. We formulate a novel spatial Scene Graph representation, which encapsulates explicit topological properties between objects, object groups, and the room. We believe providing explicit and intuitive features plays an important role in informative content creation and user interaction of spatial computing settings, a quality that is not captured in implicit models. We use kernel density estimation (KDE) to build a multivariate conditional knowledge model trained using prior spatial Scene Graphs extracted from real-world 3D scanned data. To further capture orientational properties, we develop a fast pose annotation tool to extend current real-world datasets with orientational labels. Finally, to demonstrate our system in action, we develop an Augmented Reality application, in which objects can be contextually augmented in real-time.
Abstract（参考訳）: 空間コンピューティング体験は、ユーザの実環境によって制約される。このような経験では、仮想オブジェクトを既存のシーンに拡張するには、幾何学的衝突を避けるためのコンテキスト的アプローチが必要であり、他のオブジェクトに対する機能的かつ妥当な関係は、ターゲット環境で維持される。しかし、ユーザ環境の複雑さと多様性のため、シーンのコンテキストに適応した仮想コンテンツの理想的な位置を自動的に計算することは難しい課題である。そこで本稿では,既存のシーンにおける仮想オブジェクトの位置や方向を予測する,生成的コンテキスト拡張フレームワークであるscenegenを提案する。 SceneGenはセグメンテーションされたシーンを入力として、仮想コンテンツを置くための位置と向きの確率マップを出力する。オブジェクト, オブジェクト群, 部屋間の明確な位相特性をカプセル化した空間的シーングラフ表現を定式化する。明示的で直感的な機能を提供することは、暗黙のモデルでは捉えられない品質である空間コンピューティング設定の情報コンテンツ作成やユーザインタラクションにおいて重要な役割を担っていると考えています。実世界の3次元スキャンデータから抽出した事前空間シーングラフを用いて学習した多変量条件付知識モデルの構築にカーネル密度推定(kde)を用いる。そこで我々は,現在現実のデータセットを向きラベルで拡張する高速ポーズアノテーションツールを開発した。最後に,本システムが動作していることを示すために,オブジェクトをリアルタイムに拡張可能な拡張現実アプリケーションを開発した。

関連論文リスト

HiScene: Creating Hierarchical 3D Scenes with Isometric View Generation [50.206100327643284]
HiSceneは、2D画像生成と3Dオブジェクト生成のギャップを埋める新しい階層的なフレームワークである。構成構造を維持しながら2次元表現に整合した3次元コンテンツを生成する。
論文参考訳（メタデータ） (2025-04-17T16:33:39Z)
Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
現在、視覚言語モデル(VLM)には、状況を考慮した特定の物体をシーン内でローカライズする学習という、基本的な認知能力がないことが分かっています。この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文参考訳（メタデータ） (2024-11-20T13:34:22Z)
Personalized Instance-based Navigation Toward User-Specific Objects in Realistic Environments [44.6372390798904]
本稿では,特定の個人オブジェクトの位置と到達を具体化するタスクデノマイトされたパーソナライズされたパーソナライズドインスタンスベースのナビゲーション(PIN)を提案する。各エピソードにおいて、ターゲットオブジェクトは、中性背景上の視覚的参照画像のセットと手動による注釈付きテキスト記述の2つのモードを使用してエージェントに提示される。
論文参考訳（メタデータ） (2024-10-23T18:01:09Z)
SpaceBlender: Creating Context-Rich Collaborative Spaces Through Generative 3D Scene Blending [19.06858242647237]
ユーザが提供する2Dイメージを,コンテキストに富んだ3D環境に変換するパイプラインであるSpaceBlenderを紹介する。参加者はSpaceBlenderが提供する親しみやすさとコンテキストを高く評価したが、生成環境の複雑さは注目された。そこで我々は,パイプライン改善の方向性を提案し,異なるシナリオに対するブレンド空間の価値と設計について議論する。
論文参考訳（メタデータ） (2024-09-20T22:27:31Z)
Dynamic Scene Understanding through Object-Centric Voxelization and Neural Rendering [57.895846642868904]
オブジェクト中心学習が可能な動的シーンのための3次元生成モデルDynaVol-Sを提案する。ボキセル化は、個々の空間的位置において、物体ごとの占有確率を推定する。提案手法は2次元セマンティックな特徴を統合して3次元セマンティック・グリッドを作成し,複数の不整合ボクセル・グリッドを通してシーンを表現する。
論文参考訳（メタデータ） (2024-07-30T15:33:58Z)
Context-Aware Indoor Point Cloud Object Generation through User Instructions [6.398660996031915]
本稿では,その周辺環境とシームレスに統合された点雲オブジェクトを生成することができる,新しいエンドツーエンドのマルチモーダルディープニューラルネットワークを提案する。我々のモデルは、これまで見えなかったオブジェクトレイアウトで新しい環境を作成できるようにすることで、シーン修正に革命をもたらす。
論文参考訳（メタデータ） (2023-11-26T06:40:16Z)
AnyDoor: Zero-shot Object-level Image Customization [63.44307304097742]
ユーザが指定した場所の新しいシーンにターゲットオブジェクトをテレポートする機能を備えた拡散ベースのイメージジェネレータであるAnyDoorを紹介する。我々のモデルは1回のみ訓練され、推論段階では多様なオブジェクトとシーンの組み合わせに懸命に一般化される。
論文参考訳（メタデータ） (2023-07-18T17:59:02Z)
CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文参考訳（メタデータ） (2023-05-25T17:39:13Z)
A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented, Temporal and Depth-aware design [77.34726150561087]
我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
論文参考訳（メタデータ） (2023-03-08T01:29:55Z)
Continuous Scene Representations for Embodied AI [33.00565252990522]
連続シーン表現 (Continuous Scene Representations, CSR) は、空間内を移動するエンボディエージェントによって構築されたシーン表現である。私たちの重要な洞察は、オブジェクト間のペアワイズ関係を潜在空間に埋め込むことです。 CSRは、エージェントがシーン内を移動するときにオブジェクトを追跡し、それに従って表現を更新し、部屋の構成の変更を検出する。
論文参考訳（メタデータ） (2022-03-31T17:55:33Z)
Evaluating Continual Learning Algorithms by Generating 3D Virtual Environments [66.83839051693695]
連続学習とは、人間や動物が特定の環境で徐々に学習する能力である。本稿では3次元仮想環境の最近の進歩を活用して,フォトリアリスティックな外観を持つ潜在的に長寿命な動的シーンの自動生成にアプローチすることを提案する。本論文の新たな要素は、シーンがパラメトリックな方法で記述され、エージェントが知覚する入力ストリームの視覚的複雑さを完全に制御できることである。
論文参考訳（メタデータ） (2021-09-16T10:37:21Z)
Spatio-Temporal Graph for Video Captioning with Knowledge Distillation [50.034189314258356]
空間と時間におけるオブジェクトの相互作用を利用したビデオキャプションのためのグラフモデルを提案する。我々のモデルは解釈可能なリンクを構築し、明示的な視覚的グラウンドを提供することができる。オブジェクト数の変動による相関を回避するため,オブジェクト認識型知識蒸留機構を提案する。
論文参考訳（メタデータ） (2020-03-31T03:58:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。