論文の概要: PISA: Point-cloud-based Instructed Scene Augmentation
- arxiv url: http://arxiv.org/abs/2311.16501v1
- Date: Sun, 26 Nov 2023 06:40:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 20:00:22.566172
- Title: PISA: Point-cloud-based Instructed Scene Augmentation
- Title(参考訳): pisa: ポイントクラウドベースのインストラクションシーン拡張
- Authors: Yiyang Luo and Ke Lin
- Abstract要約: 本稿では,周辺環境に整合した点雲オブジェクトを生成可能な,最初のエンドツーエンドのマルチモーダルディープニューラルネットワークを提案する。
我々のモデルは、クエリとポイントクラウドの入力に基づいて、適切な位置で明らかにオブジェクトを生成します。
- 参考スコア(独自算出の注目度): 7.843067454031
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Indoor scene augmentation has become an emerging topic in the field of
computer vision with applications in augmented and virtual reality. However,
existing scene augmentation methods mostly require a pre-built object database
with a given position as the desired location. In this paper, we propose the
first end-to-end multi-modal deep neural network that can generate point cloud
objects consistent with their surroundings, conditioned on text instructions.
Our model generates a seemly object in the appropriate position based on the
inputs of a query and point clouds, thereby enabling the creation of new
scenarios involving previously unseen layouts of objects. Database of
pre-stored CAD models is no longer needed. We use Point-E as our generative
model and introduce methods including quantified position prediction and Top-K
estimation to mitigate the false negative problems caused by ambiguous language
description. Moreover, we evaluate the ability of our model by demonstrating
the diversity of generated objects, the effectiveness of instruction, and
quantitative metric results, which collectively indicate that our model is
capable of generating realistic in-door objects. For a more thorough
evaluation, we also incorporate visual grounding as a metric to assess the
quality of the scenes generated by our model.
- Abstract(参考訳): 屋内シーン拡張は、拡張現実と仮想現実の応用を含むコンピュータビジョンの分野において、新たなトピックとなっている。
しかし、既存のシーン拡張手法は、主に所望の場所として所定の位置を持つ事前構築されたオブジェクトデータベースを必要とする。
本稿では,テキスト命令で条件付きで周囲に整合した点雲オブジェクトを生成可能な,最初のエンドツーエンドマルチモーダルディープニューラルネットワークを提案する。
我々のモデルは、クエリとポイントクラウドの入力に基づいて、適切な位置に一見オブジェクトを生成し、これにより、以前は目に見えないオブジェクトのレイアウトを含む新しいシナリオを作成することができる。
プレストアされたCADモデルのデータベースはもはや不要である。
生成モデルとしてPoint-Eを用い,不明瞭な言語記述による偽陰性問題を緩和するために,定量化位置予測とTop-K推定を含む手法を導入する。
さらに,本モデルが実際の室内物体を生成できることを総合的に示し,生成物体の多様性,指示の有効性,定量的測定結果を示すことにより,モデルの能力を評価する。
さらに詳細な評価のために、モデルによって生成されたシーンの品質を評価するためのメトリクスとして、視覚的な接地も取り入れています。
関連論文リスト
- LocaliseBot: Multi-view 3D object localisation with differentiable
rendering for robot grasping [9.690844449175948]
オブジェクトのポーズ推定に重点を置いています。
このアプローチは,オブジェクトの複数ビュー,それらの視点におけるカメラのパラメータ,オブジェクトの3次元CADモデルという3つの情報に依存している。
推定対象のポーズが99.65%の精度で真理把握候補を把握できることが示される。
論文 参考訳(メタデータ) (2023-11-14T14:27:53Z) - YOLOPose V2: Understanding and Improving Transformer-based 6D Pose
Estimation [36.067414358144816]
YOLOPoseはトランスフォーマーベースの多目的6Dポーズ推定法である。
キーポイントから向きを予測するために,学習可能な向き推定モジュールを用いる。
提案手法はリアルタイムアプリケーションに適した手法であり,最先端の手法に匹敵する結果が得られる。
論文 参考訳(メタデータ) (2023-07-21T12:53:54Z) - MegaPose: 6D Pose Estimation of Novel Objects via Render & Compare [84.80956484848505]
MegaPoseは、トレーニング中に見えない新しいオブジェクトの6Dポーズを推定する方法である。
本稿では,新しいオブジェクトに適用可能なR&Compare戦略に基づく6次元ポーズリファインダを提案する。
第2に,合成レンダリングと同一物体の観察画像間のポーズ誤差をリファインダで補正できるか否かを分類するために訓練されたネットワークを利用する,粗いポーズ推定のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-12-13T19:30:03Z) - Towards Self-Supervised Category-Level Object Pose and Size Estimation [121.28537953301951]
本研究は,一深度画像からのカテゴリレベルのオブジェクトポーズとサイズ推定のための自己教師型フレームワークを提案する。
我々は、同じ形状の点雲における幾何学的整合性を利用して自己超越する。
論文 参考訳(メタデータ) (2022-03-06T06:02:30Z) - Object Pose Estimation using Mid-level Visual Representations [5.220940151628735]
本研究は,これまで見つからなかった環境に効果的に移動可能なオブジェクトカテゴリのポーズ推定モデルを提案する。
ポーズ推定のための深層畳み込みネットワークモデル(CNN)は、通常、オブジェクト検出、ポーズ推定、または3D再構成のために算出されたデータセットに基づいて訓練され評価される。
一般化と新しい環境への移動に関しては,この手法が好ましいことを示す。
論文 参考訳(メタデータ) (2022-03-02T22:49:17Z) - KINet: Unsupervised Forward Models for Robotic Pushing Manipulation [8.572983995175909]
キーポイント表現に基づいたオブジェクトインタラクションを推論する、教師なしフレームワークKINetを紹介します。
我々のモデルは、オブジェクトとキーポイント座標を関連付けることを学び、システムのグラフ表現を発見する。
キーポイント空間における物理的推論を学習することにより、我々のモデルは、異なる数のオブジェクトを持つシナリオに自動的に一般化する。
論文 参考訳(メタデータ) (2022-02-18T03:32:08Z) - Temporal Predictive Coding For Model-Based Planning In Latent Space [80.99554006174093]
時間的に予測可能な環境要素を符号化するために,時間的予測符号化を用いた情報理論的手法を提案する。
本稿では,DMControl タスクの背景を複雑な情報を含む自然なビデオに置き換える,標準的な DMControl タスクの挑戦的な修正について評価する。
論文 参考訳(メタデータ) (2021-06-14T04:31:15Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - From a Point Cloud to a Simulation Model: Bayesian Segmentation and
Entropy based Uncertainty Estimation for 3D Modelling [0.6882042556551611]
ブラウンフィールド計画の場合、既存のデータは時代遅れで、特に2Dで計画されていた古い植物には不完全であることが多い。
現在の環境モデルは、既存のデータに基づいて直接生成することはできないし、そのような工場モデルを構築する方法に関する全体論的なアプローチはほとんど存在しない。
本研究では,大規模屋内環境のデジタル化から始まり,静的環境やシミュレーションモデルの生成で終わる方法論的ワークフローを詳述する。
論文 参考訳(メタデータ) (2021-02-04T08:59:49Z) - Single View Metrology in the Wild [94.7005246862618]
本研究では,物体の3次元の高さや地上のカメラの高さで表現されるシーンの絶対的なスケールを再現する,単一ビューメロジに対する新しいアプローチを提案する。
本手法は,被写体の高さなどの3Dエンティティによる未知のカメラとの相互作用から,弱い教師付き制約を抑えるために設計されたディープネットワークによって学習されたデータ駆動の先行情報に依存する。
いくつかのデータセットと仮想オブジェクト挿入を含むアプリケーションに対して、最先端の定性的かつ定量的な結果を示す。
論文 参考訳(メタデータ) (2020-07-18T22:31:33Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。