論文の概要: Beyond Flatland: Pre-training with a Strong 3D Inductive Bias
- arxiv url: http://arxiv.org/abs/2112.00113v1
- Date: Tue, 30 Nov 2021 21:30:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-02 13:28:14.025128
- Title: Beyond Flatland: Pre-training with a Strong 3D Inductive Bias
- Title(参考訳): Beyond Flatland: 強力な3Dインダクティブバイアスによる事前トレーニング
- Authors: Shubhaankar Gupta, Thomas P. O'Connell, Bernhard Egger
- Abstract要約: 片岡らは2020年、教師付きディープラーニングにおける自然画像の必要性を解消する手法を導入した。
私たちは彼らの仕事からインスピレーションを得て、3Dプロシージャオブジェクトレンダリングを使ってこのアイデアを構築します。
これまでの研究と同様に、私たちのトレーニングコーパスは完全に合成され、簡単な手続き戦略から派生します。
- 参考スコア(独自算出の注目度): 5.577231009305908
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-training on large-scale databases consisting of natural images and then
fine-tuning them to fit the application at hand, or transfer-learning, is a
popular strategy in computer vision. However, Kataoka et al., 2020 introduced a
technique to eliminate the need for natural images in supervised deep learning
by proposing a novel synthetic, formula-based method to generate 2D fractals as
training corpus. Using one synthetically generated fractal for each class, they
achieved transfer learning results comparable to models pre-trained on natural
images. In this project, we take inspiration from their work and build on this
idea -- using 3D procedural object renders. Since the image formation process
in the natural world is based on its 3D structure, we expect pre-training with
3D mesh renders to provide an implicit bias leading to better generalization
capabilities in a transfer learning setting and that invariances to 3D rotation
and illumination are easier to be learned based on 3D data. Similar to the
previous work, our training corpus will be fully synthetic and derived from
simple procedural strategies; we will go beyond classic data augmentation and
also vary illumination and pose which are controllable in our setting and study
their effect on transfer learning capabilities in context to prior work. In
addition, we will compare the 2D fractal and 3D procedural object networks to
human and non-human primate brain data to learn more about the 2D vs. 3D nature
of biological vision.
- Abstract(参考訳): 自然画像からなる大規模データベース上で事前トレーニングを行い、それらを微調整してアプリケーションに適合させる、あるいはトランスファーラーニングは、コンピュータビジョンにおいて一般的な戦略である。
しかし、2020年に片岡らは、2次元フラクタルをトレーニングコーパスとして生成する新しい合成式に基づく手法を提案し、教師付き深層学習における自然画像の必要性を解消する手法を導入した。
各クラスに1つの合成生成フラクタルを使用して、自然画像で事前学習されたモデルに匹敵する転送学習結果を達成した。
このプロジェクトでは、彼らの仕事からインスピレーションを得て、3d procedural object rendersを使ってこのアイデアを構築します。
自然界における画像形成プロセスはその3次元構造に基づいているため,3次元メッシュレンダリングによる事前学習は,転送学習環境における一般化能力の向上につながる暗黙のバイアスとなり,3次元回転や照明に対する不変性が3次元データに基づいて容易に学習できることを期待する。
従来の作業と同様に、トレーニングコーパスは完全に合成され、単純な手続き戦略から派生します。私たちは、古典的なデータ拡張を超えて、設定で制御可能な照明とポーズを変え、事前作業への文脈での学習能力の移行にその影響について研究します。
さらに、2Dフラクタルと3Dプロシージャオブジェクトネットワークをヒトおよび非ヒト霊長類脳のデータと比較し、生物学的視覚の2Dと3Dの性質についてより深く学ぶ。
関連論文リスト
- 3D-VirtFusion: Synthetic 3D Data Augmentation through Generative Diffusion Models and Controllable Editing [52.68314936128752]
本研究では,事前学習された大規模基盤モデルのパワーを活用して,3次元ラベル付きトレーニングデータを自動的に生成する新しいパラダイムを提案する。
各ターゲットセマンティッククラスに対して、まず、拡散モデルとチャットGPT生成したテキストプロンプトを介して、様々な構造と外観の1つのオブジェクトの2D画像を生成する。
我々は、これらの拡張画像を3Dオブジェクトに変換し、ランダムな合成によって仮想シーンを構築する。
論文 参考訳(メタデータ) (2024-08-25T09:31:22Z) - The More You See in 2D, the More You Perceive in 3D [32.578628729549145]
SAP3Dは、任意の数の未提示画像から3D再構成と新しいビュー合成を行うシステムである。
入力画像の数が増えるにつれて,提案手法の性能が向上することを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:40Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - AG3D: Learning to Generate 3D Avatars from 2D Image Collections [96.28021214088746]
本稿では,2次元画像から現実的な3次元人物の新たな逆生成モデルを提案する。
本手法は, 全身型3Dジェネレータを用いて, 体の形状と変形を捉える。
提案手法は, 従来の3次元・調音認識手法よりも幾何的, 外観的に優れていた。
論文 参考訳(メタデータ) (2023-05-03T17:56:24Z) - Farm3D: Learning Articulated 3D Animals by Distilling 2D Diffusion [67.71624118802411]
本稿では,カテゴリー固有の3D再構成器の学習方法であるFarm3Dについて述べる。
本稿では,Stable Diffusion などの画像生成装置を用いて,合成学習データを生成するフレームワークを提案する。
我々のネットワークは、単分子再構成や合成などの分析に利用でき、ビデオゲームのようなリアルタイムアプリケーションのための音響資産を生成することができる。
論文 参考訳(メタデータ) (2023-04-20T17:59:34Z) - Unsupervised Learning of Efficient Geometry-Aware Neural Articulated
Representations [89.1388369229542]
本稿では,3次元幾何認識による音声オブジェクトの表現学習のための教師なし手法を提案する。
私たちは、GANトレーニングで表現を学ぶことで、このニーズを回避します。
実験は,本手法の有効性を実証し,GANに基づくトレーニングにより,制御可能な3次元表現を,監督なしで学習できることを示す。
論文 参考訳(メタデータ) (2022-04-19T12:10:18Z) - Learning from 2D: Pixel-to-Point Knowledge Transfer for 3D Pretraining [21.878815180924832]
豊富な2Dデータセットから学んだ2Dネットワークを活用した新しい3Dプリトレーニング手法を提案する。
実験により,2次元知識を事前学習した3次元モデルにより,実世界の様々な3次元ダウンストリームタスクのパフォーマンスが向上することを示した。
論文 参考訳(メタデータ) (2021-04-10T05:40:42Z) - Learning Neural Light Transport [28.9247002210861]
ニューラルネットワークを用いた静的・動的3次元シーンにおける光輸送の学習手法を提案する。
我々のモデルは静的および動的シーンのフォトリアリスティックなレンダリングを生成することができる。
論文 参考訳(メタデータ) (2020-06-05T13:26:05Z) - Leveraging 2D Data to Learn Textured 3D Mesh Generation [33.32377849866736]
テクスチャ化された3Dメッシュの最初の生成モデルを示す。
我々は、各画像を3Dフォアグラウンドオブジェクトとしてモデル化することで、画像の分布を説明するためにモデルを訓練する。
レンダリングされたメッシュを生成して、トレーニングセットと同じようなイメージを生成する。
論文 参考訳(メタデータ) (2020-04-08T18:00:37Z) - Chained Representation Cycling: Learning to Estimate 3D Human Pose and
Shape by Cycling Between Representations [73.11883464562895]
本稿では,教師なし,あるいは教師なしの学習を容易にする新しいアーキテクチャを提案する。
本研究では,非ペア画像と無注釈画像から3次元人物のポーズと形状を学習することにより,その手法を実証する。
人間をモデル化するための結果を示す一方で、私たちの定式化は一般的であり、他の視覚問題にも適用できる。
論文 参考訳(メタデータ) (2020-01-06T14:54:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。