論文の概要: LUMINOUS: Indoor Scene Generation for Embodied AI Challenges
- arxiv url: http://arxiv.org/abs/2111.05527v1
- Date: Wed, 10 Nov 2021 04:43:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-11 15:06:18.976962
- Title: LUMINOUS: Indoor Scene Generation for Embodied AI Challenges
- Title(参考訳): LUMINOUS: 身近なAIチャレンジのための屋内シーン生成
- Authors: Yizhou Zhao, Kaixiang Lin, Zhiwei Jia, Qiaozi Gao, Govind Thattai,
Jesse Thomason, Gaurav S.Sukhatme
- Abstract要約: 本稿では,現在最先端の屋内シーン合成アルゴリズムを用いた初の研究フレームワークであるLuminousについて述べる。
Luminousは、Embodied AIの課題に対して、大規模なシミュレーションシーンを生成する。
- 参考スコア(独自算出の注目度): 24.873196174564164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning-based methods for training embodied agents typically require a large
number of high-quality scenes that contain realistic layouts and support
meaningful interactions. However, current simulators for Embodied AI (EAI)
challenges only provide simulated indoor scenes with a limited number of
layouts. This paper presents Luminous, the first research framework that
employs state-of-the-art indoor scene synthesis algorithms to generate
large-scale simulated scenes for Embodied AI challenges. Further, we
automatically and quantitatively evaluate the quality of generated indoor
scenes via their ability to support complex household tasks. Luminous
incorporates a novel scene generation algorithm (Constrained Stochastic Scene
Generation (CSSG)), which achieves competitive performance with human-designed
scenes. Within Luminous, the EAI task executor, task instruction generation
module, and video rendering toolkit can collectively generate a massive
multimodal dataset of new scenes for the training and evaluation of Embodied AI
agents. Extensive experimental results demonstrate the effectiveness of the
data generated by Luminous, enabling the comprehensive assessment of embodied
agents on generalization and robustness.
- Abstract(参考訳): エンボディエージェントを訓練するための学習ベースの手法は通常、現実的なレイアウトを含む多くの高品質なシーンを必要とし、意味のある相互作用をサポートする。
しかしながら、現在のEmbodied AI(EAI)の課題は、限られたレイアウトでシミュレーションされた屋内シーンのみを提供する。
本稿では,最先端の室内シーン合成アルゴリズムを用いて,具体化されたai課題に対する大規模シミュレーションシーンを生成する,初の研究フレームワークであるluminousを提案する。
さらに, 複雑な家庭作業を支援する機能により, 室内シーンの質を自動的かつ定量的に評価する。
Luminousには新しいシーン生成アルゴリズム (Constrained Stochastic Scene Generation (CSSG)) が組み込まれている。
Luminousでは、EAIタスクエグゼキュータ、タスク命令生成モジュール、ビデオレンダリングツールキットが、Embodied AIエージェントのトレーニングと評価のために、新しいシーンの巨大なマルチモーダルデータセットを集合的に生成することができる。
広範囲な実験結果から、Luminousが生成したデータの有効性が示され、一般化と堅牢性に対するエンボディエージェントの包括的評価が可能となった。
関連論文リスト
- BEHAVIOR Vision Suite: Customizable Dataset Generation via Simulation [57.40024206484446]
我々は、コンピュータビジョンモデルの体系的評価のために、完全にカスタマイズされた合成データを生成するためのツールと資産のセットであるBEHAVIOR Vision Suite(BVS)を紹介する。
BVSはシーンレベルで多数の調整可能なパラメータをサポートする。
アプリケーションシナリオを3つ紹介する。
論文 参考訳(メタデータ) (2024-05-15T17:57:56Z) - Language-guided Robot Grasping: CLIP-based Referring Grasp Synthesis in
Clutter [14.489086924126253]
本研究は, 乱雑な場面において, 自然言語で参照される物体のつかみポーズを予測する, つかみ合成を参照する作業に焦点をあてる。
既存のアプローチでは、参照対象をまずセグメント化し、適切な把握を提案し、自然屋内シーンの複雑さを捉えないプライベートデータセットやシミュレータで評価される。
本稿では,CLIPの視覚的接地機能を利用して,画像とテキストのペアから直接合成を学習する新しいエンド・ツー・エンド・モデル(CROG)を提案する。
論文 参考訳(メタデータ) (2023-11-09T22:55:10Z) - ProcTHOR: Large-Scale Embodied AI Using Procedural Generation [55.485985317538194]
ProcTHORは、Embodied AI環境の手続き的生成のためのフレームワークである。
ナビゲーション、アレンジメント、アーム操作のための6つの具体化されたAIベンチマークに対して、最先端の結果を実証する。
論文 参考訳(メタデータ) (2022-06-14T17:09:35Z) - Toward Fast, Flexible, and Robust Low-Light Image Enhancement [87.27326390675155]
我々は、現実の低照度シナリオにおいて、高速でフレキシブルで頑健な鮮明化のための新しい自己校正イルミネーション(SCI)学習フレームワークを開発した。
カスケードパターンの計算負担を考慮すると、各ステージの結果の収束を実現する自己校正モジュールを構築する。
我々は,SCI固有の特性について,操作不感適応性やモデル非関係の一般性を含む包括的探索を行う。
論文 参考訳(メタデータ) (2022-04-21T14:40:32Z) - On Efficient Transformer and Image Pre-training for Low-level Vision [74.22436001426517]
プレトレーニングは、ハイレベルコンピュータビジョンにおける多くの最先端の芸術である。
画像事前学習の詳細な研究について述べる。
低レベルのタスクでは,事前トレーニングが極めて異なる役割を担っています。
論文 参考訳(メタデータ) (2021-12-19T15:50:48Z) - Evaluating Continual Learning Algorithms by Generating 3D Virtual
Environments [66.83839051693695]
連続学習とは、人間や動物が特定の環境で徐々に学習する能力である。
本稿では3次元仮想環境の最近の進歩を活用して,フォトリアリスティックな外観を持つ潜在的に長寿命な動的シーンの自動生成にアプローチすることを提案する。
本論文の新たな要素は、シーンがパラメトリックな方法で記述され、エージェントが知覚する入力ストリームの視覚的複雑さを完全に制御できることである。
論文 参考訳(メタデータ) (2021-09-16T10:37:21Z) - Active Visual Localization in Partially Calibrated Environments [35.48595012305253]
人間は、目立った視覚的な手がかりやランドマークに追われて地図を使わずに、自分自身をしっかりとローカライズすることができる。
この研究では、自律エージェントを同じ能力でエンドウイングすることを目指している。
このような能力はロボットアプリケーションにおいて重要であるが、エージェントが部分的に調整された環境に晒される場合、非常に困難である。
合成データと実データの両方で構成された屋内シーンデータセットACR-6を提案し、アクティブビジュアルローカリゼーションのための困難なシナリオをシミュレートします。
論文 参考訳(メタデータ) (2020-12-08T08:00:55Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z) - Stillleben: Realistic Scene Synthesis for Deep Learning in Robotics [33.30312206728974]
本稿では,シーン認識タスクの学習データを生成するための合成パイプラインについて述べる。
本手法は,物理シミュレーションを用いて,物体メッシュを物理的に現実的で密集したシーンに配置する。
私たちのパイプラインは、ディープニューラルネットワークのトレーニング中にオンラインで実行できます。
論文 参考訳(メタデータ) (2020-05-12T10:11:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。