Fugu-MT 論文翻訳(概要): PISA: Point-cloud-based Instructed Scene Augmentation

論文の概要: PISA: Point-cloud-based Instructed Scene Augmentation

arxiv url: http://arxiv.org/abs/2311.16501v1
Date: Sun, 26 Nov 2023 06:40:16 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-29 20:00:22.566172
Title: PISA: Point-cloud-based Instructed Scene Augmentation
Title（参考訳）: pisa: ポイントクラウドベースのインストラクションシーン拡張
Authors: Yiyang Luo and Ke Lin
Abstract要約: 本稿では,周辺環境に整合した点雲オブジェクトを生成可能な,最初のエンドツーエンドのマルチモーダルディープニューラルネットワークを提案する。我々のモデルは、クエリとポイントクラウドの入力に基づいて、適切な位置で明らかにオブジェクトを生成します。
参考スコア（独自算出の注目度）: 7.843067454031
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Indoor scene augmentation has become an emerging topic in the field of computer vision with applications in augmented and virtual reality. However, existing scene augmentation methods mostly require a pre-built object database with a given position as the desired location. In this paper, we propose the first end-to-end multi-modal deep neural network that can generate point cloud objects consistent with their surroundings, conditioned on text instructions. Our model generates a seemly object in the appropriate position based on the inputs of a query and point clouds, thereby enabling the creation of new scenarios involving previously unseen layouts of objects. Database of pre-stored CAD models is no longer needed. We use Point-E as our generative model and introduce methods including quantified position prediction and Top-K estimation to mitigate the false negative problems caused by ambiguous language description. Moreover, we evaluate the ability of our model by demonstrating the diversity of generated objects, the effectiveness of instruction, and quantitative metric results, which collectively indicate that our model is capable of generating realistic in-door objects. For a more thorough evaluation, we also incorporate visual grounding as a metric to assess the quality of the scenes generated by our model.
Abstract（参考訳）: 屋内シーン拡張は、拡張現実と仮想現実の応用を含むコンピュータビジョンの分野において、新たなトピックとなっている。しかし、既存のシーン拡張手法は、主に所望の場所として所定の位置を持つ事前構築されたオブジェクトデータベースを必要とする。本稿では,テキスト命令で条件付きで周囲に整合した点雲オブジェクトを生成可能な,最初のエンドツーエンドマルチモーダルディープニューラルネットワークを提案する。我々のモデルは、クエリとポイントクラウドの入力に基づいて、適切な位置に一見オブジェクトを生成し、これにより、以前は目に見えないオブジェクトのレイアウトを含む新しいシナリオを作成することができる。プレストアされたCADモデルのデータベースはもはや不要である。生成モデルとしてPoint-Eを用い,不明瞭な言語記述による偽陰性問題を緩和するために,定量化位置予測とTop-K推定を含む手法を導入する。さらに,本モデルが実際の室内物体を生成できることを総合的に示し,生成物体の多様性,指示の有効性,定量的測定結果を示すことにより,モデルの能力を評価する。さらに詳細な評価のために、モデルによって生成されたシーンの品質を評価するためのメトリクスとして、視覚的な接地も取り入れています。

関連論文リスト

Towards Depth Foundation Model: Recent Trends in Vision-Based Depth Estimation [75.30238170051291]
深さ推定は3Dコンピュータビジョンの基本課題であり、3D再構成、自由視点レンダリング、ロボティクス、自律運転、AR/VR技術といった応用に不可欠である。 LiDARのようなハードウェアセンサーに依存する従来の方法は、しばしば高コスト、低解像度、環境感度によって制限され、現実のシナリオで適用性を制限する。ビジョンベースの手法の最近の進歩は有望な代替手段を提供するが、低容量モデルアーキテクチャやドメイン固有の小規模データセットへの依存のため、一般化と安定性の課題に直面している。
論文参考訳（メタデータ） (2025-07-15T17:59:59Z)
Online 3D Scene Reconstruction Using Neural Object Priors [83.14204014687938]
本稿では,RGB-Dビデオシーケンスが与えられたオブジェクトのレベルにおいて,オンラインでシーンを再構成する問題に対処する。本稿では,新しい対象部品が明らかになれば,オブジェクト中心の暗黙表現を継続的に更新する特徴グリッド機構を提案する。提案手法は, 再建精度と完全性の観点から, 最先端のニューラル暗黙モデルより優れている。
論文参考訳（メタデータ） (2025-03-24T17:09:36Z)
MOVIS: Enhancing Multi-Object Novel View Synthesis for Indoor Scenes [35.16430027877207]
MOVISは、多目的NVSのためのビュー条件拡散モデルの構造的認識を高めることを目的としている。本稿では,新しいビューオブジェクトマスクを同時に予測するためにモデルを必要とする補助タスクを提案する。提案手法は強力な一般化能力を示し,一貫した新規なビュー合成を生成する。
論文参考訳（メタデータ） (2024-12-16T05:23:45Z)
DeBaRA: Denoising-Based 3D Room Arrangement Generation [22.96293773013579]
有界環境における正確で制御可能で柔軟なアレンジメント生成に適したスコアベースモデルであるDeBaRAを紹介する。本研究では,オブジェクトの空間特性に着目して,シーン合成や完了,再配置など,複数のダウンストリームアプリケーションを実行するために,単一トレーニングされたDeBaRAモデルをテスト時に活用できることを実証する。
論文参考訳（メタデータ） (2024-09-26T23:18:25Z)
Automatic Scene Generation: State-of-the-Art Techniques, Models, Datasets, Challenges, and Future Prospects [0.94371657253557]
本調査は、機械学習、ディープラーニング、組み込みシステム、自然言語処理(NLP)を活用する技術に焦点を当てる。モデルを,変分オートエンコーダ(VAE),GAN(Generative Adrial Networks),トランスフォーマー(Transformer),拡散モデル(Diffusion Models)の4つのタイプに分類する。また、COCO-Stuff、Visual Genome、MS-COCOといった、これらのモデルのトレーニングと評価に欠かせない最も一般的なデータセットについてもレビューする。
論文参考訳（メタデータ） (2024-09-14T19:09:10Z)
Real-Time Indoor Object Detection based on hybrid CNN-Transformer Approach [0.0]
屋内環境でのリアルタイム物体検出はコンピュータビジョンの難しい領域であり、可変照明や複雑な背景といった独特な障害に直面している。この研究は、既存のデータセットと計算モデルの評価を精査し、洗練されたデータセットの作成につながった。本稿では,CNN検出モデルを適応させ,室内の散らばったシーンにおける重要な特徴を識別・優先順位付けするモデルの能力を高めるためのアテンション機構を組み込んだ。
論文参考訳（メタデータ） (2024-09-03T13:14:08Z)
Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。 8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文参考訳（メタデータ） (2024-08-17T10:37:07Z)
BEHAVIOR Vision Suite: Customizable Dataset Generation via Simulation [57.40024206484446]
我々は、コンピュータビジョンモデルの体系的評価のために、完全にカスタマイズされた合成データを生成するためのツールと資産のセットであるBEHAVIOR Vision Suite(BVS)を紹介する。 BVSはシーンレベルで多数の調整可能なパラメータをサポートする。アプリケーションシナリオを3つ紹介する。
論文参考訳（メタデータ） (2024-05-15T17:57:56Z)
Mitigating Object Dependencies: Improving Point Cloud Self-Supervised Learning through Object Exchange [50.45953583802282]
我々は,ポイントクラウドシーン理解のための新たな自己教師型学習(SSL)戦略を導入する。このアプローチでは、オブジェクトパターンとコンテキストキューの両方を活用して、堅牢な機能を生成します。提案手法は既存のSSL技術よりも優れていることを示す。
論文参考訳（メタデータ） (2024-04-11T06:39:53Z)
UniQuadric: A SLAM Backend for Unknown Rigid Object 3D Tracking and Light-Weight Modeling [7.626461564400769]
本稿では,エゴモーショントラッキング,剛体オブジェクトモーショントラッキング,モデリングを統一するSLAMバックエンドを提案する。本システムは,複雑な動的シーンにおける物体知覚の潜在的な応用を実証する。
論文参考訳（メタデータ） (2023-09-29T07:50:09Z)
CPPF++: Uncertainty-Aware Sim2Real Object Pose Estimation by Vote Aggregation [67.12857074801731]
そこで本研究では,シミュレートからリアルなポーズ推定のための新しい手法であるCPPF++を提案する。投票衝突による課題に対処するため,投票の不確実性をモデル化する新たなアプローチを提案する。ノイズの多いペアフィルタリング、オンラインアライメント最適化、機能アンサンブルなど、いくつかの革新的なモジュールを組み込んでいます。
論文参考訳（メタデータ） (2022-11-24T03:27:00Z)
Temporal Predictive Coding For Model-Based Planning In Latent Space [80.99554006174093]
時間的に予測可能な環境要素を符号化するために,時間的予測符号化を用いた情報理論的手法を提案する。本稿では,DMControl タスクの背景を複雑な情報を含む自然なビデオに置き換える,標準的な DMControl タスクの挑戦的な修正について評価する。
論文参考訳（メタデータ） (2021-06-14T04:31:15Z)
SceneGen: Generative Contextual Scene Augmentation using Scene Graph Priors [3.1969855247377827]
SceneGenは、既存のシーン内の仮想オブジェクトの位置と方向を予測する、生成的コンテキスト拡張フレームワークである。 SceneGenはセグメンテーションされたシーンを入力として、仮想コンテンツを置くための位置と向きの確率マップを出力する。オブジェクト, オブジェクト群, 部屋間の明確な位相特性をカプセル化した空間的シーングラフ表現を定式化する。そこで本研究では,オブジェクトをリアルタイムに拡張可能な拡張現実アプリケーションを開発した。
論文参考訳（メタデータ） (2020-09-25T18:36:27Z)
Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文参考訳（メタデータ） (2020-03-16T21:40:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。