論文の概要: 3D Concept Learning and Reasoning from Multi-View Images
- arxiv url: http://arxiv.org/abs/2303.11327v1
- Date: Mon, 20 Mar 2023 17:59:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 14:04:18.124406
- Title: 3D Concept Learning and Reasoning from Multi-View Images
- Title(参考訳): マルチビュー画像からの3次元概念学習と推論
- Authors: Yining Hong, Chunru Lin, Yilun Du, Zhenfang Chen, Joshua B. Tenenbaum,
Chuang Gan
- Abstract要約: 3次元多視点視覚質問応答のための大規模ベンチマーク(3DMV-VQA)を提案する。
このデータセットは、約5kのシーンと600kのイメージで構成され、50kの質問と組み合わせられている。
本稿では,ニューラルネットワーク,2次元事前学習型視覚言語モデル,ニューラル推論演算子をシームレスに組み合わせた新しい3次元概念学習・推論フレームワークを提案する。
- 参考スコア(独自算出の注目度): 96.3088005719963
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Humans are able to accurately reason in 3D by gathering multi-view
observations of the surrounding world. Inspired by this insight, we introduce a
new large-scale benchmark for 3D multi-view visual question answering
(3DMV-VQA). This dataset is collected by an embodied agent actively moving and
capturing RGB images in an environment using the Habitat simulator. In total,
it consists of approximately 5k scenes, 600k images, paired with 50k questions.
We evaluate various state-of-the-art models for visual reasoning on our
benchmark and find that they all perform poorly. We suggest that a principled
approach for 3D reasoning from multi-view images should be to infer a compact
3D representation of the world from the multi-view images, which is further
grounded on open-vocabulary semantic concepts, and then to execute reasoning on
these 3D representations. As the first step towards this approach, we propose a
novel 3D concept learning and reasoning (3D-CLR) framework that seamlessly
combines these components via neural fields, 2D pre-trained vision-language
models, and neural reasoning operators. Experimental results suggest that our
framework outperforms baseline models by a large margin, but the challenge
remains largely unsolved. We further perform an in-depth analysis of the
challenges and highlight potential future directions.
- Abstract(参考訳): 人間は、周囲の世界を多視点で観察することで、正確に3Dで推論することができる。
この知見に触発されて、3次元多視点視覚質問応答(3DMV-VQA)のための大規模ベンチマークを導入する。
このデータセットは、Habitatシミュレータを使用して環境中でRGB画像を積極的に移動、キャプチャする実施エージェントによって収集される。
合計で約5kのシーン、6kのイメージと5kの質問からなる。
我々は、ベンチマークで視覚的推論のための様々な最先端モデルを評価し、それらすべてが性能が悪いことを発見した。
多視点画像からの3D推論の原則的アプローチは、よりオープンな語彙のセマンティック概念に基づく多視点画像から世界のコンパクトな3D表現を推論し、これらの3D表現に基づいて推論を実行することである。
このアプローチへの第一歩として,ニューラルフィールド,2次元事前学習された視覚言語モデル,ニューラル推論演算子をシームレスに組み合わせた,新たな3次元概念学習と推論(3d-clr)フレームワークを提案する。
実験結果から,本フレームワークはベースラインモデルよりも大きなマージンで優れていることが示されたが,課題は未解決のままである。
さらに,課題の詳細な分析を行い,今後の方向性を明らかにする。
関連論文リスト
- VisionGPT-3D: A Generalized Multimodal Agent for Enhanced 3D Vision Understanding [47.58359136198136]
VisionGPT-3Dはマルチモーダル基盤モデルの強みを基盤として多目的なマルチモーダルフレームワークを提供する。
様々なSOTAビジョンモデルをシームレスに統合し、SOTAビジョンモデルの選択に自動化をもたらす。
2次元深度マップ解析に対応する適切な3次元メッシュ生成アルゴリズムを特定し、多様なマルチモーダル入力に基づいて最適な結果を生成する。
論文 参考訳(メタデータ) (2024-03-14T16:13:00Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Multi-CLIP: Contrastive Vision-Language Pre-training for Question
Answering tasks in 3D Scenes [68.61199623705096]
一般的な言語知識と視覚概念を2次元画像から3次元シーン理解に適用するためのトレーニングモデルは、研究者が最近探求を始めたばかりの有望な方向である。
そこで本研究では,モデルによる3次元シーンポイントクラウド表現の学習を可能にする,新しい3次元事前学習手法であるMulti-CLIPを提案する。
論文 参考訳(メタデータ) (2023-06-04T11:08:53Z) - RoSI: Recovering 3D Shape Interiors from Few Articulation Images [20.430308190444737]
既存の3次元モデルの内部形状を,マルチビューおよびマルチアレイ画像からのみ外形に復元する学習フレームワークを提案する。
我々のニューラルアーキテクチャはカテゴリーに依存しない方法で訓練されており、モーションアウェアなマルチビュー分析フェーズで構成されています。
さらに,本手法では, 対象の3次元物体に対して, 被写体の動きを予測し, 外挿することも可能である。
論文 参考訳(メタデータ) (2023-04-13T08:45:26Z) - 3D Concept Grounding on Neural Fields [99.33215488324238]
既存の視覚的推論手法は、典型的には、2Dセグメンテーションマスクを抽出するために教師付き手法を用いる。
人間は、画像の3D表現の基盤となる概念を基盤にすることができる。
我々は,ニューラルネットワークの連続的,微分可能な性質を利用して概念をセグメント化し,学習することを提案する。
論文 参考訳(メタデータ) (2022-07-13T17:59:33Z) - Learning Ego 3D Representation as Ray Tracing [42.400505280851114]
我々は、制約のないカメラビューからエゴ3D表現学習のための新しいエンドツーエンドアーキテクチャを提案する。
レイトレーシングの原理にインスパイアされた我々は、学習可能なエゴ3D表現として「虚視」の偏極格子を設計する。
我々のモデルはすべての最先端の代替品を著しく上回ります。
論文 参考訳(メタデータ) (2022-06-08T17:55:50Z) - DRaCoN -- Differentiable Rasterization Conditioned Neural Radiance
Fields for Articulated Avatars [92.37436369781692]
フルボディの体積アバターを学習するためのフレームワークであるDRaCoNを提案する。
2Dと3Dのニューラルレンダリング技術の利点を利用する。
挑戦的なZJU-MoCapとHuman3.6Mデータセットの実験は、DRaCoNが最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2022-03-29T17:59:15Z) - Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文 参考訳(メタデータ) (2020-10-08T14:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。