論文の概要: Learning Object Placement Programs for Indoor Scene Synthesis with Iterative Self Training
- arxiv url: http://arxiv.org/abs/2503.04496v1
- Date: Thu, 06 Mar 2025 14:44:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 16:00:34.752892
- Title: Learning Object Placement Programs for Indoor Scene Synthesis with Iterative Self Training
- Title(参考訳): 反復的自己学習による屋内シーン合成のための物体配置学習プログラム
- Authors: Adrian Chang, Kai Wang, Yuanbo Li, Manolis Savva, Angel X. Chang, Daniel Ritchie,
- Abstract要約: データ駆動および自己回帰型屋内シーンシステムは、オブジェクトを1つずつ提案し、配置することで、自動的にシーンを生成する。
機能制約を規定するドメイン固有言語を設計する。
我々は、新しいプログラムブートストラップアルゴリズムを導入するために、教師なしプログラム誘導における以前の作業を構築した。
また,従来のシステムと同等の品質の屋内シーンも生成し,トレーニングデータが少ないと性能が低下するのに対して,システムは同じ程度に劣化しない。
- 参考スコア(独自算出の注目度): 27.788560122097792
- License:
- Abstract: Data driven and autoregressive indoor scene synthesis systems generate indoor scenes automatically by suggesting and then placing objects one at a time. Empirical observations show that current systems tend to produce incomplete next object location distributions. We introduce a system which addresses this problem. We design a Domain Specific Language (DSL) that specifies functional constraints. Programs from our language take as input a partial scene and object to place. Upon execution they predict possible object placements. We design a generative model which writes these programs automatically. Available 3D scene datasets do not contain programs to train on, so we build upon previous work in unsupervised program induction to introduce a new program bootstrapping algorithm. In order to quantify our empirical observations we introduce a new evaluation procedure which captures how well a system models per-object location distributions. We ask human annotators to label all the possible places an object can go in a scene and show that our system produces per-object location distributions more consistent with human annotators. Our system also generates indoor scenes of comparable quality to previous systems and while previous systems degrade in performance when training data is sparse, our system does not degrade to the same degree.
- Abstract(参考訳): データ駆動・自己回帰型屋内シーン合成システムは、オブジェクトを1つずつ提案し、配置することで屋内シーンを自動的に生成する。
経験的観測により、現在の系は不完全な次の物体の位置分布を生成する傾向があることが示されている。
この問題に対処するシステムを導入する。
機能的制約を指定するドメイン特化言語(DSL)を設計します。
私たちの言語からのプログラムは、部分的なシーンとオブジェクトを入力として取ります。
実行時にオブジェクトの配置を予測する。
これらのプログラムを自動作成する生成モデルを設計する。
利用可能な3Dシーンデータセットはトレーニング対象のプログラムを含まないため、教師なしプログラム誘導における以前の作業に基づいて、新しいプログラムブートストラップアルゴリズムを導入する。
経験的観測を定量化するために,システムがどのように位置分布をモデル化するかを計測する新たな評価手法を提案する。
我々は,人間のアノテータに対して,オブジェクトがシーン内を移動可能なすべての場所をラベル付けして,オブジェクトごとの位置分布が人間のアノテータとより整合していることを示す。
また,従来のシステムと同等の品質の屋内シーンも生成し,トレーニングデータが少ないと性能が低下するのに対して,システムは同じ程度に劣化しない。
関連論文リスト
- ROOT: VLM based System for Indoor Scene Understanding and Beyond [83.71252153660078]
ROOTは、室内シーンの分析を強化するために設計されたVLMベースのシステムである。
rootnameは、屋内シーンの理解を促進し、3Dシーン生成や組み込みAIなど、さまざまな下流アプリケーションに有効であることを証明します。
論文 参考訳(メタデータ) (2024-11-24T04:51:24Z) - Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
VLM(Vision-Language Models)は、様々な視覚タスクにまたがる顕著な能力を示す。
現在のVLMには基本的な認知能力がなく、コンテキストを考慮し、シーン内のオブジェクトをローカライズすることを学ぶ。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - Automatic Scene Generation: State-of-the-Art Techniques, Models, Datasets, Challenges, and Future Prospects [0.94371657253557]
本調査は、機械学習、ディープラーニング、組み込みシステム、自然言語処理(NLP)を活用する技術に焦点を当てる。
モデルを,変分オートエンコーダ(VAE),GAN(Generative Adrial Networks),トランスフォーマー(Transformer),拡散モデル(Diffusion Models)の4つのタイプに分類する。
また、COCO-Stuff、Visual Genome、MS-COCOといった、これらのモデルのトレーニングと評価に欠かせない最も一般的なデータセットについてもレビューする。
論文 参考訳(メタデータ) (2024-09-14T19:09:10Z) - Open-Universe Indoor Scene Generation using LLM Program Synthesis and Uncurated Object Databases [13.126239167800652]
テキストのプロンプトに応じて屋内シーンを生成するシステムを提案する。
プロンプトはシーン記述の固定語彙に限らない。
生成されたシーンのオブジェクトは、固定されたオブジェクトカテゴリに制限されない。
論文 参考訳(メタデータ) (2024-02-05T01:59:31Z) - Variational Inference for Scalable 3D Object-centric Learning [19.445804699433353]
我々は3Dシーンにおける拡張性のないオブジェクト中心表現学習の課題に取り組む。
オブジェクト中心表現学習への既存のアプローチは、より大きなシーンに一般化する際の限界を示している。
局所オブジェクト座標系におけるビュー不変3次元オブジェクト表現の学習を提案する。
論文 参考訳(メタデータ) (2023-09-25T10:23:40Z) - Stereo Neural Vernier Caliper [57.187088191829886]
学習に基づくステレオ3Dオブジェクト検出のための新しいオブジェクト中心フレームワークを提案する。
初期3次元立方体推定値から改良された更新を予測する方法の問題に対処する。
提案手法は,KITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-21T14:36:07Z) - RandomRooms: Unsupervised Pre-training from Synthetic Shapes and
Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。
最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。
本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:56:12Z) - Self-Supervision by Prediction for Object Discovery in Videos [62.87145010885044]
本稿では,この予測タスクを自己監督として利用し,画像シーケンス表現のための新しいオブジェクト中心モデルを構築する。
私たちのフレームワークは、手動アノテーションや事前トレーニングされたネットワークを使わずにトレーニングできます。
最初の実験では、提案されたパイプラインがオブジェクト中心のビデオ予測への有望なステップであることを確認した。
論文 参考訳(メタデータ) (2021-03-09T19:14:33Z) - Rearrangement: A Challenge for Embodied AI [229.8891614821016]
Embodied AIの研究と評価のためのフレームワークについて述べる。
我々の提案は正統的な課題である再配置に基づいている。
4つの異なるシミュレーション環境における再配置シナリオの実験的なテストベッドについて述べる。
論文 参考訳(メタデータ) (2020-11-03T19:42:32Z) - Scenic: A Language for Scenario Specification and Data Generation [17.07493567658614]
本稿では,サイバー物理システムの設計と解析のための新しい確率型プログラミング言語を提案する。
本稿では,どの時点でも環境が「舞台」である自律走行車やロボットなどのシステムに焦点をあてる。
我々は、シーン上の分布とエージェントの振る舞いを時間とともに記述するドメイン固有言語、Scenicを設計する。
論文 参考訳(メタデータ) (2020-10-13T17:58:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。