論文の概要: Learning Internal Representations of 3D Transformations from 2D
Projected Inputs
- arxiv url: http://arxiv.org/abs/2303.17776v1
- Date: Fri, 31 Mar 2023 02:43:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-03 15:28:18.582014
- Title: Learning Internal Representations of 3D Transformations from 2D
Projected Inputs
- Title(参考訳): 2次元投影入力による3次元変換の内部表現の学習
- Authors: Marissa Connor, Bruno Olshausen, Christopher Rozell
- Abstract要約: 本研究では, モデルが2次元投影点から深度を推定し, 2次元トレーニング刺激から3次元回転変換を学習し, 精神物理学的構造に基づく運動実験における人間のパフォーマンスと比較する。
- 参考スコア(独自算出の注目度): 13.029330360766595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When interacting in a three dimensional world, humans must estimate 3D
structure from visual inputs projected down to two dimensional retinal images.
It has been shown that humans use the persistence of object shape over
motion-induced transformations as a cue to resolve depth ambiguity when solving
this underconstrained problem. With the aim of understanding how biological
vision systems may internally represent 3D transformations, we propose a
computational model, based on a generative manifold model, which can be used to
infer 3D structure from the motion of 2D points. Our model can also learn
representations of the transformations with minimal supervision, providing a
proof of concept for how humans may develop internal representations on a
developmental or evolutionary time scale. Focused on rotational motion, we show
how our model infers depth from moving 2D projected points, learns 3D
rotational transformations from 2D training stimuli, and compares to human
performance on psychophysical structure-from-motion experiments.
- Abstract(参考訳): 3次元の世界で相互作用する場合、ヒトは2次元網膜画像に投影された視覚入力から3次元構造を推定しなければならない。
運動誘起変換を手がかりとして物体形状の持続性を用いることにより、この弱拘束された問題を解く際に、深さの曖昧さを解消できることが示されている。
生体視覚系が内部的に3次元変換をどう表現するかを理解することを目的として, 2次元点の運動から3次元構造を推定できる生成多様体モデルに基づく計算モデルを提案する。
我々のモデルは、最小限の監督で変換の表現を学習することができ、人間が発達的または進化的な時間スケールで内部表現を開発する方法の実証を提供する。
回転運動に着目し, 2次元投影点からの深さを推定し, 2次元学習刺激から3次元回転変換を学習し, 心理物理学的構造から運動実験における人間のパフォーマンスと比較した。
関連論文リスト
- 2D or not 2D: How Does the Dimensionality of Gesture Representation Affect 3D Co-Speech Gesture Generation? [5.408549711581793]
本研究では,2次元もしくは3次元の関節座標を訓練データとして用いることが,音声から身近な深層生成モデルの性能に及ぼす影響について検討した。
生成した2Dポーズシーケンスを3Dに変換するためのリフトモデルを用いて,2Dで生成したジェスチャと3Dで生成したジェスチャを直接3Dスタックで生成し,次に3Dに変換する方法を評価する。
論文 参考訳(メタデータ) (2024-09-16T15:06:12Z) - Dynamic Scene Understanding through Object-Centric Voxelization and Neural Rendering [57.895846642868904]
オブジェクト中心学習が可能な動的シーンのための3次元生成モデルDynaVol-Sを提案する。
ボキセル化は、個々の空間的位置において、物体ごとの占有確率を推定する。
提案手法は2次元セマンティックな特徴を統合して3次元セマンティック・グリッドを作成し,複数の不整合ボクセル・グリッドを通してシーンを表現する。
論文 参考訳(メタデータ) (2024-07-30T15:33:58Z) - Investigating the impact of 2D gesture representation on co-speech gesture generation [5.408549711581793]
訓練データ(2次元または3次元の関節座標)の寸法がマルチモーダル音声合成モデルの性能に及ぼす影響を評価する。
論文 参考訳(メタデータ) (2024-06-21T12:59:20Z) - CHORUS: Learning Canonicalized 3D Human-Object Spatial Relations from
Unbounded Synthesized Images [10.4286198282079]
本研究では,3次元における多種多様な物体間相互作用の空間的共通感覚を理解し,モデル化する手法を提案する。
我々は、人間が同じ種類の物体と対話するとき、異なる視点から撮影した複数の2D画像を示す。
実画像よりも画質が不完全であるにもかかわらず、合成画像は3次元的対象空間関係を学習するのに十分であることを示す。
論文 参考訳(メタデータ) (2023-08-23T17:59:11Z) - Unsupervised 3D Pose Estimation with Non-Rigid Structure-from-Motion
Modeling [83.76377808476039]
本研究では,人間のポーズの変形をモデル化し,それに伴う拡散に基づく動きを事前に設計する手法を提案する。
動作中の3次元人間の骨格を復元する作業は3次元基準骨格の推定に分割する。
混合時空間NASfMformerを用いて、各フレームの3次元基準骨格と骨格変形を2次元観測シーケンスから同時に推定する。
論文 参考訳(メタデータ) (2023-08-18T16:41:57Z) - Deep Generative Models on 3D Representations: A Survey [81.73385191402419]
生成モデルは、新しいインスタンスを生成することによって観測データの分布を学習することを目的としている。
最近、研究者は焦点を2Dから3Dにシフトし始めた。
3Dデータの表現は、非常に大きな課題をもたらします。
論文 参考訳(メタデータ) (2022-10-27T17:59:50Z) - Learning Ego 3D Representation as Ray Tracing [42.400505280851114]
我々は、制約のないカメラビューからエゴ3D表現学習のための新しいエンドツーエンドアーキテクチャを提案する。
レイトレーシングの原理にインスパイアされた我々は、学習可能なエゴ3D表現として「虚視」の偏極格子を設計する。
我々のモデルはすべての最先端の代替品を著しく上回ります。
論文 参考訳(メタデータ) (2022-06-08T17:55:50Z) - RiCS: A 2D Self-Occlusion Map for Harmonizing Volumetric Objects [68.85305626324694]
カメラ空間における光マーチング (RiCS) は、3次元における前景物体の自己閉塞を2次元の自己閉塞マップに表現する新しい手法である。
表現マップは画像の質を高めるだけでなく,時間的コヒーレントな複雑な影効果をモデル化できることを示す。
論文 参考訳(メタデータ) (2022-05-14T05:35:35Z) - MoCaNet: Motion Retargeting in-the-wild via Canonicalization Networks [77.56526918859345]
そこで本研究では,制御された環境から3次元動作タスクを実現する新しいフレームワークを提案する。
モーションキャプチャシステムや3D再構成手順を使わずに、2Dモノクロ映像のキャラクタから3Dキャラクタへの体動を可能にする。
論文 参考訳(メタデータ) (2021-12-19T07:52:05Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。