論文の概要: PISA: Point-cloud-based Instructed Scene Augmentation
- arxiv url: http://arxiv.org/abs/2311.16501v1
- Date: Sun, 26 Nov 2023 06:40:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 20:00:22.566172
- Title: PISA: Point-cloud-based Instructed Scene Augmentation
- Title(参考訳): pisa: ポイントクラウドベースのインストラクションシーン拡張
- Authors: Yiyang Luo and Ke Lin
- Abstract要約: 本稿では,周辺環境に整合した点雲オブジェクトを生成可能な,最初のエンドツーエンドのマルチモーダルディープニューラルネットワークを提案する。
我々のモデルは、クエリとポイントクラウドの入力に基づいて、適切な位置で明らかにオブジェクトを生成します。
- 参考スコア(独自算出の注目度): 7.843067454031
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Indoor scene augmentation has become an emerging topic in the field of
computer vision with applications in augmented and virtual reality. However,
existing scene augmentation methods mostly require a pre-built object database
with a given position as the desired location. In this paper, we propose the
first end-to-end multi-modal deep neural network that can generate point cloud
objects consistent with their surroundings, conditioned on text instructions.
Our model generates a seemly object in the appropriate position based on the
inputs of a query and point clouds, thereby enabling the creation of new
scenarios involving previously unseen layouts of objects. Database of
pre-stored CAD models is no longer needed. We use Point-E as our generative
model and introduce methods including quantified position prediction and Top-K
estimation to mitigate the false negative problems caused by ambiguous language
description. Moreover, we evaluate the ability of our model by demonstrating
the diversity of generated objects, the effectiveness of instruction, and
quantitative metric results, which collectively indicate that our model is
capable of generating realistic in-door objects. For a more thorough
evaluation, we also incorporate visual grounding as a metric to assess the
quality of the scenes generated by our model.
- Abstract(参考訳): 屋内シーン拡張は、拡張現実と仮想現実の応用を含むコンピュータビジョンの分野において、新たなトピックとなっている。
しかし、既存のシーン拡張手法は、主に所望の場所として所定の位置を持つ事前構築されたオブジェクトデータベースを必要とする。
本稿では,テキスト命令で条件付きで周囲に整合した点雲オブジェクトを生成可能な,最初のエンドツーエンドマルチモーダルディープニューラルネットワークを提案する。
我々のモデルは、クエリとポイントクラウドの入力に基づいて、適切な位置に一見オブジェクトを生成し、これにより、以前は目に見えないオブジェクトのレイアウトを含む新しいシナリオを作成することができる。
プレストアされたCADモデルのデータベースはもはや不要である。
生成モデルとしてPoint-Eを用い,不明瞭な言語記述による偽陰性問題を緩和するために,定量化位置予測とTop-K推定を含む手法を導入する。
さらに,本モデルが実際の室内物体を生成できることを総合的に示し,生成物体の多様性,指示の有効性,定量的測定結果を示すことにより,モデルの能力を評価する。
さらに詳細な評価のために、モデルによって生成されたシーンの品質を評価するためのメトリクスとして、視覚的な接地も取り入れています。
関連論文リスト
- DeBaRA: Denoising-Based 3D Room Arrangement Generation [22.96293773013579]
有界環境における正確で制御可能で柔軟なアレンジメント生成に適したスコアベースモデルであるDeBaRAを紹介する。
本研究では,オブジェクトの空間特性に着目して,シーン合成や完了,再配置など,複数のダウンストリームアプリケーションを実行するために,単一トレーニングされたDeBaRAモデルをテスト時に活用できることを実証する。
論文 参考訳(メタデータ) (2024-09-26T23:18:25Z) - Automatic Scene Generation: State-of-the-Art Techniques, Models, Datasets, Challenges, and Future Prospects [0.94371657253557]
本調査は、機械学習、ディープラーニング、組み込みシステム、自然言語処理(NLP)を活用する技術に焦点を当てる。
モデルを,変分オートエンコーダ(VAE),GAN(Generative Adrial Networks),トランスフォーマー(Transformer),拡散モデル(Diffusion Models)の4つのタイプに分類する。
また、COCO-Stuff、Visual Genome、MS-COCOといった、これらのモデルのトレーニングと評価に欠かせない最も一般的なデータセットについてもレビューする。
論文 参考訳(メタデータ) (2024-09-14T19:09:10Z) - Real-Time Indoor Object Detection based on hybrid CNN-Transformer Approach [0.0]
屋内環境でのリアルタイム物体検出はコンピュータビジョンの難しい領域であり、可変照明や複雑な背景といった独特な障害に直面している。
この研究は、既存のデータセットと計算モデルの評価を精査し、洗練されたデータセットの作成につながった。
本稿では,CNN検出モデルを適応させ,室内の散らばったシーンにおける重要な特徴を識別・優先順位付けするモデルの能力を高めるためのアテンション機構を組み込んだ。
論文 参考訳(メタデータ) (2024-09-03T13:14:08Z) - Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。
8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。
多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-17T10:37:07Z) - BEHAVIOR Vision Suite: Customizable Dataset Generation via Simulation [57.40024206484446]
我々は、コンピュータビジョンモデルの体系的評価のために、完全にカスタマイズされた合成データを生成するためのツールと資産のセットであるBEHAVIOR Vision Suite(BVS)を紹介する。
BVSはシーンレベルで多数の調整可能なパラメータをサポートする。
アプリケーションシナリオを3つ紹介する。
論文 参考訳(メタデータ) (2024-05-15T17:57:56Z) - Mitigating Object Dependencies: Improving Point Cloud Self-Supervised Learning through Object Exchange [50.45953583802282]
我々は,ポイントクラウドシーン理解のための新たな自己教師型学習(SSL)戦略を導入する。
このアプローチでは、オブジェクトパターンとコンテキストキューの両方を活用して、堅牢な機能を生成します。
提案手法は既存のSSL技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-11T06:39:53Z) - UniQuadric: A SLAM Backend for Unknown Rigid Object 3D Tracking and
Light-Weight Modeling [7.626461564400769]
本稿では,エゴモーショントラッキング,剛体オブジェクトモーショントラッキング,モデリングを統一するSLAMバックエンドを提案する。
本システムは,複雑な動的シーンにおける物体知覚の潜在的な応用を実証する。
論文 参考訳(メタデータ) (2023-09-29T07:50:09Z) - CPPF++: Uncertainty-Aware Sim2Real Object Pose Estimation by Vote Aggregation [67.12857074801731]
そこで本研究では,シミュレートからリアルなポーズ推定のための新しい手法であるCPPF++を提案する。
投票衝突による課題に対処するため,投票の不確実性をモデル化する新たなアプローチを提案する。
ノイズの多いペアフィルタリング、オンラインアライメント最適化、機能アンサンブルなど、いくつかの革新的なモジュールを組み込んでいます。
論文 参考訳(メタデータ) (2022-11-24T03:27:00Z) - Temporal Predictive Coding For Model-Based Planning In Latent Space [80.99554006174093]
時間的に予測可能な環境要素を符号化するために,時間的予測符号化を用いた情報理論的手法を提案する。
本稿では,DMControl タスクの背景を複雑な情報を含む自然なビデオに置き換える,標準的な DMControl タスクの挑戦的な修正について評価する。
論文 参考訳(メタデータ) (2021-06-14T04:31:15Z) - SceneGen: Generative Contextual Scene Augmentation using Scene Graph
Priors [3.1969855247377827]
SceneGenは、既存のシーン内の仮想オブジェクトの位置と方向を予測する、生成的コンテキスト拡張フレームワークである。
SceneGenはセグメンテーションされたシーンを入力として、仮想コンテンツを置くための位置と向きの確率マップを出力する。
オブジェクト, オブジェクト群, 部屋間の明確な位相特性をカプセル化した空間的シーングラフ表現を定式化する。
そこで本研究では,オブジェクトをリアルタイムに拡張可能な拡張現実アプリケーションを開発した。
論文 参考訳(メタデータ) (2020-09-25T18:36:27Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。