論文の概要: Rel3D: A Minimally Contrastive Benchmark for Grounding Spatial Relations
in 3D
- arxiv url: http://arxiv.org/abs/2012.01634v1
- Date: Thu, 3 Dec 2020 01:51:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-23 14:59:28.000262
- Title: Rel3D: A Minimally Contrastive Benchmark for Grounding Spatial Relations
in 3D
- Title(参考訳): Rel3D:3次元における接地空間関係の最小コントラストベンチマーク
- Authors: Ankit Goyal, Kaiyu Yang, Dawei Yang, Jia Deng
- Abstract要約: 既存のデータセットには、大規模で高品質な3D地上真実情報がない。
Rel3Dは、空間関係を3Dでグラウンド化するための、最初の大規模で人間による注釈付きデータセットである。
我々は、データセットバイアスを減らすための新しいクラウドソーシング手法である、最小限のコントラストデータ収集を提案する。
- 参考スコア(独自算出の注目度): 71.11034329713058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding spatial relations (e.g., "laptop on table") in visual input is
important for both humans and robots. Existing datasets are insufficient as
they lack large-scale, high-quality 3D ground truth information, which is
critical for learning spatial relations. In this paper, we fill this gap by
constructing Rel3D: the first large-scale, human-annotated dataset for
grounding spatial relations in 3D. Rel3D enables quantifying the effectiveness
of 3D information in predicting spatial relations on large-scale human data.
Moreover, we propose minimally contrastive data collection -- a novel
crowdsourcing method for reducing dataset bias. The 3D scenes in our dataset
come in minimally contrastive pairs: two scenes in a pair are almost identical,
but a spatial relation holds in one and fails in the other. We empirically
validate that minimally contrastive examples can diagnose issues with current
relation detection models as well as lead to sample-efficient training. Code
and data are available at https://github.com/princeton-vl/Rel3D.
- Abstract(参考訳): 視覚入力における空間関係(例えば「テーブル上のラップトップ」)の理解は人間とロボットの両方にとって重要である。
既存のデータセットは、空間関係の学習に欠かせない大規模で高品質な3D基底真理情報を欠いているため、不十分である。
本稿では,空間関係を3dで接地する最初の大規模・人間注釈データセットrel3dを構築し,そのギャップを埋める。
rel3dは、大規模ヒトデータにおける空間関係の予測における3次元情報の有効性を定量化する。
さらに,データセットバイアスを低減する新たなクラウドソーシング手法として,最小限のコントラストデータ収集を提案する。
データセットの3Dシーンは、最小限の対照的なペアで構成されている。ペア内の2つのシーンはほぼ同じだが、空間的関係は1つに留まり、もう1つに失敗する。
我々は、最小限の対照的な例が、現在の関係検出モデルにおける問題を診断し、サンプル効率のトレーニングにつながることを実証的に検証する。
コードとデータはhttps://github.com/princeton-vl/rel3dで入手できる。
関連論文リスト
- StackFLOW: Monocular Human-Object Reconstruction by Stacked Normalizing Flow with Offset [56.71580976007712]
本研究では,人間のメッシュと物体メッシュの表面から密にサンプリングされたアンカー間の人物体オフセットを用いて,人物体空間関係を表現することを提案する。
この表現に基づいて、画像から人・物間の空間関係の後方分布を推定するスタック正規化フロー(StackFLOW)を提案する。
最適化段階では、サンプルの可能性を最大化することにより、人体ポーズと物体6Dポーズを微調整する。
論文 参考訳(メタデータ) (2024-07-30T04:57:21Z) - STUPD: A Synthetic Dataset for Spatial and Temporal Relation Reasoning [4.676784872259775]
本稿では,英語の前置詞から得られる空間的関係を理解するための大規模ビデオデータセットを提案する。
データセットには150Kの視覚的描写(ビデオと画像)が含まれており、30の異なる空間的前置詞感覚で構成されている。
また,空間的関係に加えて,事象・時間的相互作用を描写したビデオからなる10の時間的関係にまたがる50Kの視覚的描写も提案する。
論文 参考訳(メタデータ) (2023-09-13T02:35:59Z) - A Unified BEV Model for Joint Learning of 3D Local Features and Overlap
Estimation [12.499361832561634]
本稿では,3次元局所特徴の同時学習と重なり推定のための統合鳥眼ビュー(BEV)モデルを提案する。
提案手法は,特に重複の少ないシーンにおいて,重複予測における既存手法よりも優れていた。
論文 参考訳(メタデータ) (2023-02-28T12:01:16Z) - Learning 3D Human Pose Estimation from Dozens of Datasets using a
Geometry-Aware Autoencoder to Bridge Between Skeleton Formats [80.12253291709673]
本稿では,アフィン結合型オートエンコーダ(ACAE)法を提案する。
このアプローチは、28人の人間のポーズデータセットを使って1つのモデルを監督する、極端なマルチデータセット体制にスケールします。
論文 参考訳(メタデータ) (2022-12-29T22:22:49Z) - Language Conditioned Spatial Relation Reasoning for 3D Object Grounding [87.03299519917019]
自然言語に基づく3Dシーンにおけるオブジェクトのローカライズには,空間的関係の理解と推論が必要である。
本稿では,3次元オブジェクトとその空間関係をグラウンド化するための言語条件付きトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2022-11-17T16:42:39Z) - Self-supervised Human Mesh Recovery with Cross-Representation Alignment [20.69546341109787]
自己教師付きヒューマンメッシュリカバリ手法は、3Dアノテーション付きベンチマークデータセットの可用性と多様性が制限されているため、一般化性が低い。
頑健だがスパースな表現(2Dキーポイント)からの相補的情報を利用した相互表現アライメントを提案する。
この適応的相互表現アライメントは、偏差から明示的に学習し、相補的な情報(疎表現からの豊かさと密表現からの堅牢さ)をキャプチャする。
論文 参考訳(メタデータ) (2022-09-10T04:47:20Z) - PolarMOT: How Far Can Geometric Relations Take Us in 3D Multi-Object
Tracking? [62.997667081978825]
グラフのノードとして3D検出を符号化し、グラフエッジ上の局所極座標を用いてオブジェクト間の空間的および時間的対関係を符号化する。
これにより、グラフニューラルネットワークは、時間的および空間的相互作用を効果的に符号化することができる。
我々はnuScenesデータセット上に新しい最先端のデータセットを構築し、さらに重要なことに、私たちの手法であるPolarMOTが、異なる場所にわたって驚くほどよく一般化されていることを示す。
論文 参考訳(メタデータ) (2022-08-03T10:06:56Z) - RandomRooms: Unsupervised Pre-training from Synthetic Shapes and
Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。
最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。
本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:56:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。