論文の概要: SceneGen: Generative Contextual Scene Augmentation using Scene Graph
Priors
- arxiv url: http://arxiv.org/abs/2009.12395v2
- Date: Wed, 30 Sep 2020 17:06:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 23:15:13.063833
- Title: SceneGen: Generative Contextual Scene Augmentation using Scene Graph
Priors
- Title(参考訳): SceneGen: Scene Graph Priorsを用いた生成コンテキストシーン拡張
- Authors: Mohammad Keshavarzi, Aakash Parikh, Xiyu Zhai, Melody Mao, Luisa
Caldas, Allen Y. Yang
- Abstract要約: SceneGenは、既存のシーン内の仮想オブジェクトの位置と方向を予測する、生成的コンテキスト拡張フレームワークである。
SceneGenはセグメンテーションされたシーンを入力として、仮想コンテンツを置くための位置と向きの確率マップを出力する。
オブジェクト, オブジェクト群, 部屋間の明確な位相特性をカプセル化した空間的シーングラフ表現を定式化する。
そこで本研究では,オブジェクトをリアルタイムに拡張可能な拡張現実アプリケーションを開発した。
- 参考スコア(独自算出の注目度): 3.1969855247377827
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatial computing experiences are constrained by the real-world surroundings
of the user. In such experiences, augmenting virtual objects to existing scenes
require a contextual approach, where geometrical conflicts are avoided, and
functional and plausible relationships to other objects are maintained in the
target environment. Yet, due to the complexity and diversity of user
environments, automatically calculating ideal positions of virtual content that
is adaptive to the context of the scene is considered a challenging task.
Motivated by this problem, in this paper we introduce SceneGen, a generative
contextual augmentation framework that predicts virtual object positions and
orientations within existing scenes. SceneGen takes a semantically segmented
scene as input, and outputs positional and orientational probability maps for
placing virtual content. We formulate a novel spatial Scene Graph
representation, which encapsulates explicit topological properties between
objects, object groups, and the room. We believe providing explicit and
intuitive features plays an important role in informative content creation and
user interaction of spatial computing settings, a quality that is not captured
in implicit models. We use kernel density estimation (KDE) to build a
multivariate conditional knowledge model trained using prior spatial Scene
Graphs extracted from real-world 3D scanned data. To further capture
orientational properties, we develop a fast pose annotation tool to extend
current real-world datasets with orientational labels. Finally, to demonstrate
our system in action, we develop an Augmented Reality application, in which
objects can be contextually augmented in real-time.
- Abstract(参考訳): 空間コンピューティング体験は、ユーザの実環境によって制約される。
このような経験では、仮想オブジェクトを既存のシーンに拡張するには、幾何学的衝突を避けるためのコンテキスト的アプローチが必要であり、他のオブジェクトに対する機能的かつ妥当な関係は、ターゲット環境で維持される。
しかし、ユーザ環境の複雑さと多様性のため、シーンのコンテキストに適応した仮想コンテンツの理想的な位置を自動的に計算することは難しい課題である。
そこで本稿では,既存のシーンにおける仮想オブジェクトの位置や方向を予測する,生成的コンテキスト拡張フレームワークであるscenegenを提案する。
SceneGenはセグメンテーションされたシーンを入力として、仮想コンテンツを置くための位置と向きの確率マップを出力する。
オブジェクト, オブジェクト群, 部屋間の明確な位相特性をカプセル化した空間的シーングラフ表現を定式化する。
明示的で直感的な機能を提供することは、暗黙のモデルでは捉えられない品質である空間コンピューティング設定の情報コンテンツ作成やユーザインタラクションにおいて重要な役割を担っていると考えています。
実世界の3次元スキャンデータから抽出した事前空間シーングラフを用いて学習した多変量条件付知識モデルの構築にカーネル密度推定(kde)を用いる。
そこで我々は,現在現実のデータセットを向きラベルで拡張する高速ポーズアノテーションツールを開発した。
最後に,本システムが動作していることを示すために,オブジェクトをリアルタイムに拡張可能な拡張現実アプリケーションを開発した。
関連論文リスト
- CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z) - A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented,
Temporal and Depth-aware design [77.34726150561087]
我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。
私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
論文 参考訳(メタデータ) (2023-03-08T01:29:55Z) - Structure-Guided Image Completion with Image-level and Object-level
Semantic Discriminators [118.6132221271663]
複雑な意味論やオブジェクトの生成を改善するために,セマンティック・ディミネータとオブジェクトレベル・ディミネータからなる学習パラダイムを提案する。
特に、セマンティック・ディミネーターは、事前学習された視覚的特徴を利用して、生成された視覚概念の現実性を改善する。
提案手法は, 生成品質を著しく向上させ, 各種タスクの最先端化を実現する。
論文 参考訳(メタデータ) (2022-12-13T01:36:56Z) - Sim-To-Real Transfer of Visual Grounding for Human-Aided Ambiguity
Resolution [0.0]
視覚的接地という課題について考察し, エージェントは, 混み合ったシーンからオブジェクトを抽出し, 自然言語で記述する。
視覚的接地に対する現代の全体論的アプローチは、言語構造を無視し、ジェネリックドメインをカバーするのに苦労する。
実体,属性,空間関係の合成視覚的グラウンド化のための,完全に分離されたモジュラー・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-24T14:12:32Z) - Continuous Scene Representations for Embodied AI [33.00565252990522]
連続シーン表現 (Continuous Scene Representations, CSR) は、空間内を移動するエンボディエージェントによって構築されたシーン表現である。
私たちの重要な洞察は、オブジェクト間のペアワイズ関係を潜在空間に埋め込むことです。
CSRは、エージェントがシーン内を移動するときにオブジェクトを追跡し、それに従って表現を更新し、部屋の構成の変更を検出する。
論文 参考訳(メタデータ) (2022-03-31T17:55:33Z) - Evaluating Continual Learning Algorithms by Generating 3D Virtual
Environments [66.83839051693695]
連続学習とは、人間や動物が特定の環境で徐々に学習する能力である。
本稿では3次元仮想環境の最近の進歩を活用して,フォトリアリスティックな外観を持つ潜在的に長寿命な動的シーンの自動生成にアプローチすることを提案する。
本論文の新たな要素は、シーンがパラメトリックな方法で記述され、エージェントが知覚する入力ストリームの視覚的複雑さを完全に制御できることである。
論文 参考訳(メタデータ) (2021-09-16T10:37:21Z) - Open-Ended Fine-Grained 3D Object Categorization by Combining Shape and
Texture Features in Multiple Colorspaces [5.89118432388542]
本研究では, 形状情報はすべてのカテゴリの共通パターンを符号化し, テクスチャ情報を用いて各インスタンスの外観を詳細に記述する。
提案したネットワークアーキテクチャは、オブジェクト分類の精度とスケーラビリティの観点から、選択した最先端のアプローチよりも優れていた。
論文 参考訳(メタデータ) (2020-09-19T14:06:18Z) - OpenRooms: An End-to-End Open Framework for Photorealistic Indoor Scene
Datasets [103.54691385842314]
本研究では,屋内シーンの大規模フォトリアリスティックデータセットを作成するための新しいフレームワークを提案する。
私たちの目標は、データセット作成プロセスを広く利用できるようにすることです。
これにより、逆レンダリング、シーン理解、ロボット工学における重要な応用が可能になる。
論文 参考訳(メタデータ) (2020-07-25T06:48:47Z) - Spatio-Temporal Graph for Video Captioning with Knowledge Distillation [50.034189314258356]
空間と時間におけるオブジェクトの相互作用を利用したビデオキャプションのためのグラフモデルを提案する。
我々のモデルは解釈可能なリンクを構築し、明示的な視覚的グラウンドを提供することができる。
オブジェクト数の変動による相関を回避するため,オブジェクト認識型知識蒸留機構を提案する。
論文 参考訳(メタデータ) (2020-03-31T03:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。