論文の概要: Embodied Navigation at the Art Gallery
- arxiv url: http://arxiv.org/abs/2204.09069v1
- Date: Tue, 19 Apr 2022 18:00:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-21 15:12:16.852124
- Title: Embodied Navigation at the Art Gallery
- Title(参考訳): アートギャラリーにおける身体的ナビゲーション
- Authors: Roberto Bigazzi, Federico Landi, Silvia Cascianelli, Marcella Cornia,
Lorenzo Baraldi and Rita Cucchiara
- Abstract要約: 私たちは、ユニークな特徴を持つ新しい3D空間を構築、リリースしています。
既存の3Dシーンと比較すると、収集された空間は増幅され、視覚的特徴に富み、非常に少ない占有情報を提供する。
この新しいスペース内で、PointGoalナビゲーションのための新しいベンチマークを提供します。
- 参考スコア(独自算出の注目度): 43.52107532692226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodied agents, trained to explore and navigate indoor photorealistic
environments, have achieved impressive results on standard datasets and
benchmarks. So far, experiments and evaluations have involved domestic and
working scenes like offices, flats, and houses. In this paper, we build and
release a new 3D space with unique characteristics: the one of a complete art
museum. We name this environment ArtGallery3D (AG3D). Compared with existing 3D
scenes, the collected space is ampler, richer in visual features, and provides
very sparse occupancy information. This feature is challenging for
occupancy-based agents which are usually trained in crowded domestic
environments with plenty of occupancy information. Additionally, we annotate
the coordinates of the main points of interest inside the museum, such as
paintings, statues, and other items. Thanks to this manual process, we deliver
a new benchmark for PointGoal navigation inside this new space. Trajectories in
this dataset are far more complex and lengthy than existing ground-truth paths
for navigation in Gibson and Matterport3D. We carry on extensive experimental
evaluation using our new space for evaluation and prove that existing methods
hardly adapt to this scenario. As such, we believe that the availability of
this 3D model will foster future research and help improve existing solutions.
- Abstract(参考訳): 屋内のフォトリアリスティック環境を探索し、ナビゲートする訓練を受けたエージェントは、標準データセットとベンチマークで印象的な結果を得た。
これまでのところ、実験や評価はオフィスやアパート、家など、国内や職場の場面で行われている。
本稿では,ユニークな特徴を持つ新しい3d空間,すなわち美術館の1つを構築して公開する。
この環境をArtGallery3D(AG3D)と呼ぶ。
既存の3Dシーンと比較すると、収集された空間は増幅され、視覚的特徴に富み、非常に少ない占有情報を提供する。
この機能は、多くの占有情報を持つ密集した家庭環境で訓練される、占有者ベースのエージェントにとって困難である。
また,美術館内の絵画や彫像など,主要な関心点の座標について注釈を付ける。
この手動のプロセスのおかげで、新しいスペース内でPointGoalナビゲーションの新しいベンチマークを提供します。
このデータセットの軌道は、ギブソンとマターポート3Dの既存の航法路よりもはるかに複雑で長い。
我々は,新しい空間を用いた広範囲な実験評価を行い,このシナリオに既存手法が適用できないことを証明する。
したがって、この3Dモデルが利用可能になることにより、将来の研究が促進され、既存のソリューションの改善に役立つと信じている。
関連論文リスト
- NeurOCS: Neural NOCS Supervision for Monocular 3D Object Localization [80.3424839706698]
入力として3Dボックスをインスタンスマスクとして使用するNeurOCSを提案する。
われわれのアプローチは、実際の運転シーンから直接カテゴリレベルの形状を学習する際の洞察に依存している。
我々は、オブジェクト中心の視点からオブジェクト座標をより効果的に学習するための重要な設計選択を行う。
論文 参考訳(メタデータ) (2023-05-28T16:18:41Z) - Generating Visual Spatial Description via Holistic 3D Scene
Understanding [88.99773815159345]
視覚空間記述(VSD)は、画像内の対象物の空間的関係を記述するテキストを生成することを目的としている。
外部の3Dシーン抽出器を用いて,入力画像の3Dオブジェクトとシーン特徴を抽出する。
対象物の中心となる3次元空間シーングラフ(Go3D-S2G)を構築し,対象物の空間意味を総合的な3次元シーン内にモデル化する。
論文 参考訳(メタデータ) (2023-05-19T15:53:56Z) - Visual Localization using Imperfect 3D Models from the Internet [54.731309449883284]
本稿では,3次元モデルにおける欠陥が局所化精度に与える影響について検討する。
インターネットから得られる3Dモデルは、容易に表現できるシーン表現として有望であることを示す。
論文 参考訳(メタデータ) (2023-04-12T16:15:05Z) - WildRefer: 3D Object Localization in Large-scale Dynamic Scenes with Multi-modal Visual Data and Natural Language [31.691159120136064]
本稿では,自然言語記述とオンラインキャプチャによるマルチモーダル視覚データに基づく大規模動的シーンにおける3次元視覚接地作業について紹介する。
本研究では,画像中のリッチな外観情報,位置,および点雲中の幾何学的手がかりをフル活用して,WildReferという新しい手法を提案する。
われわれのデータセットは、野生の3Dビジュアルグラウンドの研究にとって重要なものであり、自動運転とサービスロボットの開発を促進する大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-04-12T06:48:26Z) - SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving [98.74706005223685]
3Dシーン理解は、視覚に基づく自動運転において重要な役割を果たす。
マルチカメラ画像を用いたSurroundOcc法を提案する。
論文 参考訳(メタデータ) (2023-03-16T17:59:08Z) - A Comparison of Spatiotemporal Visualizations for 3D Urban Analytics [7.157706457130007]
本稿では,建物表面の時間的解析を支援するために,3次元都市視覚分析がいかに有効かを検討する。
本研究では,3次元都市データの可視化に使用される4つの代表的な視覚的デザイン,空間的並置,時間的並置,連結ビュー,組込みビューを比較した。
その結果、参加者はプロットベースでより精度が高いが、カラーコードでより高速に可視化できることがわかった。
論文 参考訳(メタデータ) (2022-08-10T14:38:13Z) - Roominoes: Generating Novel 3D Floor Plans From Existing 3D Rooms [22.188206636953794]
既存の3D部屋から新しい3Dフロアプランを作成するタスクを提案する。
1つは利用可能な2Dフロアプランを使用して、3Dルームの選択と変形をガイドし、もう1つは互換性のある3Dルームのセットを取得し、それらを新しいレイアウトに組み合わせることを学ぶ。
論文 参考訳(メタデータ) (2021-12-10T16:17:01Z) - Walk2Map: Extracting Floor Plans from Indoor Walk Trajectories [23.314557741879664]
室内を歩く人の軌跡からフロアプランを生成するデータ駆動型アプローチであるWalk2Mapを紹介します。
データ駆動慣性オドメトリーの進歩により、そのような最小限の入力データは、コンシューマレベルのスマートフォンのIMU読み取りから得ることができる。
スキャンした3d屋内モデルを用いてネットワークをトレーニングし、屋内歩行軌跡にカスケードな方法で適用する。
論文 参考訳(メタデータ) (2021-02-27T16:29:09Z) - Occupancy Anticipation for Efficient Exploration and Navigation [97.17517060585875]
そこで我々は,エージェントが自我中心のRGB-D観測を用いて,その占有状態を可視領域を超えて推定する,占有予測を提案する。
エゴセントリックなビューとトップダウンマップの両方でコンテキストを活用することで、私たちのモデルは環境のより広いマップを予測できます。
われわれのアプローチは、2020 Habitat PointNav Challengeの優勝だ。
論文 参考訳(メタデータ) (2020-08-21T03:16:51Z) - SAILenv: Learning in Virtual Visual Environments Made Simple [16.979621213790015]
仮想3Dシーンで視覚認識を実験できる新しいプラットフォームを提案する。
すべてのアルゴリズムを仮想世界とインターフェースするためには数行のコードが必要であり、非3Dグラフィックの専門家は容易に3D環境自体をカスタマイズできる。
我々のフレームワークはピクセルレベルのセマンティクスとインスタンスのラベル付け、深さ、そして私たちの知る限り、それは3Dエンジンから直接受け継がれるモーション関連情報を提供する唯一のものである。
論文 参考訳(メタデータ) (2020-07-16T09:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。