論文の概要: SPARE3D: A Dataset for SPAtial REasoning on Three-View Line Drawings
- arxiv url: http://arxiv.org/abs/2003.14034v2
- Date: Wed, 2 Sep 2020 14:18:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 00:50:06.053181
- Title: SPARE3D: A Dataset for SPAtial REasoning on Three-View Line Drawings
- Title(参考訳): SPARE3D: 3次元線描画におけるSPAtial Reasoningのデータセット
- Authors: Wenyu Han, Siyuan Xiang, Chenhui Liu, Ruoyu Wang, Chen Feng
- Abstract要約: SPARE3Dは、認知科学と心理計測に基づいて、ビュー一貫性、カメラポーズ、形状生成に関する3種類の2D-3D推論タスクを含む。
次に,課題ごとの真理回答を基礎として,多数の課題を自動生成する手法を設計する。
実験によると、畳み込みネットワークは多くの視覚学習タスクにおいて超人的性能を達成したが、SPARE3Dタスクにおける空間推論性能は平均人的性能よりも低いか、あるいはランダムな推測に近いかのどちらかである。
- 参考スコア(独自算出の注目度): 9.651400924429336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatial reasoning is an important component of human intelligence. We can
imagine the shapes of 3D objects and reason about their spatial relations by
merely looking at their three-view line drawings in 2D, with different levels
of competence. Can deep networks be trained to perform spatial reasoning tasks?
How can we measure their "spatial intelligence"? To answer these questions, we
present the SPARE3D dataset. Based on cognitive science and psychometrics,
SPARE3D contains three types of 2D-3D reasoning tasks on view consistency,
camera pose, and shape generation, with increasing difficulty. We then design a
method to automatically generate a large number of challenging questions with
ground truth answers for each task. They are used to provide supervision for
training our baseline models using state-of-the-art architectures like ResNet.
Our experiments show that although convolutional networks have achieved
superhuman performance in many visual learning tasks, their spatial reasoning
performance on SPARE3D tasks is either lower than average human performance or
even close to random guesses. We hope SPARE3D can stimulate new problem
formulations and network designs for spatial reasoning to empower intelligent
robots to operate effectively in the 3D world via 2D sensors. The dataset and
code are available at https://ai4ce.github.io/SPARE3D.
- Abstract(参考訳): 空間的推論は人間の知能の重要な要素である。
3次元物体の形状を想像し、その空間的関係を2次元の3次元線図で見るだけで説明できる。
深層ネットワークは空間推論タスクを実行するために訓練できるのか?
どのようにして彼らの「空間知性」を計測できるのか?
これらの質問に答えるために、SPARE3Dデータセットを示す。
認知科学と心理測定に基づいて、SPARE3Dは視野の整合性、カメラポーズ、形状生成の3種類の2D-3D推論タスクを含む。
次に,課題ごとの真理回答を基礎として,多数の課題を自動生成する手法を設計する。
ResNetのような最先端アーキテクチャを使ってベースラインモデルをトレーニングするための監視を提供するために使用される。
実験の結果,多くの視覚学習タスクにおいて畳み込みネットワークは超人的性能を達成したが,SPARE3Dタスクにおける空間推論性能は平均人的性能よりも低いか,あるいはランダムな推測に近いかのどちらかであった。
SPARE3Dは、空間推論のための新しい問題定式化やネットワーク設計を刺激し、インテリジェントロボットが2Dセンサーを介して3D世界で効果的に動作できるようにすることを願っている。
データセットとコードはhttps://ai4ce.github.io/spare3dで入手できる。
関連論文リスト
- LLMI3D: Empowering LLM with 3D Perception from a Single 2D Image [72.14973729674995]
現在の3D認識手法、特に小さなモデルでは、論理的推論、質問応答、オープンシナリオカテゴリの処理に苦労している。
空間的特徴抽出のための空間的局所特徴抽出法,精密な幾何回帰のための3次元問合せ情報復号法,カメラ焦点長変動に対する幾何学投影に基づく3次元推論を提案する。
論文 参考訳(メタデータ) (2024-08-14T10:00:16Z) - The 3D-PC: a benchmark for visual perspective taking in humans and machines [11.965236208112753]
ディープニューラルネットワーク(DNN)は、大規模な画像データセットのトレーニング後に3Dシーンを分析できるようになる、という報告が増えている。
DNNにおけるこの創発的3次元解析能力は、3次元知覚課題(3D-PC)を伴う視覚的視点撮影(VPT)に十分か検討した。
3D-PCは3つの3次元解析タスクからなる。
論文 参考訳(メタデータ) (2024-06-06T14:59:39Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - On the Efficacy of 3D Point Cloud Reinforcement Learning [20.4424883945357]
私たちは、最も一般的な3D表現形式の一つである3Dポイントクラウドに注目しています。
我々は3DポイントクラウドRLの設計選択を体系的に検討し、様々なロボット操作と制御タスクのための堅牢なアルゴリズムの開発に繋がる。
エージェント・オブジェクト/オブジェクト・オブジェクトの関係エンコーディングが重要な要素である場合、3DポイントクラウドRLは2Dよりも大幅に優れることがわかった。
論文 参考訳(メタデータ) (2023-06-11T22:52:08Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - Deep Generative Models on 3D Representations: A Survey [81.73385191402419]
生成モデルは、新しいインスタンスを生成することによって観測データの分布を学習することを目的としている。
最近、研究者は焦点を2Dから3Dにシフトし始めた。
3Dデータの表現は、非常に大きな課題をもたらします。
論文 参考訳(メタデータ) (2022-10-27T17:59:50Z) - Decanus to Legatus: Synthetic training for 2D-3D human pose lifting [26.108023246654646]
10個の手作り3Dポーズ(Decanus)に基づく3Dポーズ分布から無限個の合成人間のポーズ(Legatus)を生成するアルゴリズムを提案する。
この結果から,特定データセットの実際のデータを用いた手法に匹敵する3次元ポーズ推定性能を,ゼロショット設定で実現し,フレームワークの可能性を示した。
論文 参考訳(メタデータ) (2022-10-05T13:10:19Z) - Super Images -- A New 2D Perspective on 3D Medical Imaging Analysis [0.0]
トレーニング中に3次元知識を効率的に埋め込んで3次元データを扱うための,シンプルで効果的な2次元手法を提案する。
本手法は3次元画像にスライスを並べて超高分解能画像を生成する。
2次元ネットワークのみを利用した3次元ネットワークを実現する一方で、モデルの複雑さはおよそ3倍に減少する。
論文 参考訳(メタデータ) (2022-05-05T09:59:03Z) - Interactive Annotation of 3D Object Geometry using 2D Scribbles [84.51514043814066]
本稿では,ポイントクラウドデータとRGB画像から3次元オブジェクト形状をアノテートする対話型フレームワークを提案する。
当社のフレームワークは,芸術的,グラフィック的専門知識のないナイーブユーザを対象としている。
論文 参考訳(メタデータ) (2020-08-24T21:51:29Z) - 3D Self-Supervised Methods for Medical Imaging [7.65168530693281]
本稿では,プロキシタスクの形式で,5種類の自己教師型手法の3次元バージョンを提案する。
提案手法は,未ラベルの3次元画像からニューラルネットワークの特徴学習を容易にし,専門家のアノテーションに必要なコストを削減することを目的としている。
開発したアルゴリズムは、3D Contrastive Predictive Coding, 3D Rotation Prediction, 3D Jigsaw puzzles, Relative 3D patch location, 3D Exemplar Networkである。
論文 参考訳(メタデータ) (2020-06-06T09:56:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。