論文の概要: Self-supervised Learning by View Synthesis
- arxiv url: http://arxiv.org/abs/2304.11330v1
- Date: Sat, 22 Apr 2023 06:12:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 19:06:45.575311
- Title: Self-supervised Learning by View Synthesis
- Title(参考訳): ビュー合成による自己指導型学習
- Authors: Shaoteng Liu, Xiangyu Zhang, Tao Hu, Jiaya Jia
- Abstract要約: 本稿では,視覚変換のための自己教師型学習フレームワークであるビュー合成オートエンコーダ(VSA)について述べる。
各イテレーションにおいて、VSAへの入力は3Dオブジェクトの1つのビュー(または複数のビュー)であり、出力は別のターゲットポーズで合成された画像である。
- 参考スコア(独自算出の注目度): 62.27092994474443
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present view-synthesis autoencoders (VSA) in this paper, which is a
self-supervised learning framework designed for vision transformers. Different
from traditional 2D pretraining methods, VSA can be pre-trained with multi-view
data. In each iteration, the input to VSA is one view (or multiple views) of a
3D object and the output is a synthesized image in another target pose. The
decoder of VSA has several cross-attention blocks, which use the source view as
value, source pose as key, and target pose as query. They achieve
cross-attention to synthesize the target view. This simple approach realizes
large-angle view synthesis and learns spatial invariant representation, where
the latter is decent initialization for transformers on downstream tasks, such
as 3D classification on ModelNet40, ShapeNet Core55, and ScanObjectNN. VSA
outperforms existing methods significantly for linear probing and is
competitive for fine-tuning. The code will be made publicly available.
- Abstract(参考訳): 本稿では,視覚変換のための自己教師型学習フレームワークであるビュー合成オートエンコーダ(VSA)について述べる。
従来の2D事前学習法とは異なり、VSAはマルチビューデータで事前訓練することができる。
各イテレーションにおいて、VSAへの入力は3Dオブジェクトの1つのビュー(または複数のビュー)であり、出力は別のターゲットポーズで合成画像である。
VSAのデコーダには、ソースビューを値として、ソースポーズをキーとして、ターゲットポーズをクエリとして使用する、いくつかのクロスアテンションブロックがある。
彼らは目標のビューを合成するためにクロスアテンションを達成します。
この単純なアプローチは、大角ビュー合成を実現し、後者は、ModelNet40の3D分類、ShapeNet Core55、ScanObjectNNなどの下流タスクにおけるトランスフォーマーの適切な初期化である空間不変表現を学習する。
VSAは線形探索のために既存のメソッドを著しく上回り、微調整には競争力がある。
コードは公開される予定だ。
関連論文リスト
- CVSformer: Cross-View Synthesis Transformer for Semantic Scene
Completion [0.0]
クロスビューオブジェクト関係を学習するための多視点特徴合成とクロスビュー変換からなるクロスビュー合成変換器(CVSformer)を提案する。
拡張された特徴を用いて、全てのボクセルの幾何学的占有度と意味ラベルを予測する。
我々はCVSformerを公開データセット上で評価し、CVSformerは最先端の結果を得る。
論文 参考訳(メタデータ) (2023-07-16T04:08:03Z) - Partial-View Object View Synthesis via Filtered Inversion [77.282967562509]
FINVは3D生成モデルのトレーニングによって形状を学習する。
FINVは実世界のオブジェクトの新たなビューをうまく合成する。
論文 参考訳(メタデータ) (2023-04-03T00:59:31Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - Novel View Synthesis from a Single Image via Unsupervised learning [27.639536023956122]
本研究では,そのような画素変換を単一ソース視点から学習するための教師なしネットワークを提案する。
学習した変換により、未知のポーズの単一のソース視点画像から新しいビューを合成することができる。
論文 参考訳(メタデータ) (2021-10-29T06:32:49Z) - Geometry-Free View Synthesis: Transformers and no 3D Priors [16.86600007830682]
トランスフォーマーモデルでは,手作業による3次元バイアスを伴わずに全く新しいビューを合成できることを示す。
i)ソースビューとターゲットビューの長距離3D対応を暗黙的に学習するグローバルアテンションメカニズムによって実現される。
論文 参考訳(メタデータ) (2021-04-15T17:58:05Z) - Self-Supervised Multi-View Learning via Auto-Encoding 3D Transformations [61.870882736758624]
MV-TER (Multi-View Transformation Equivariant Representations) を学習するための新しい自己監督型パラダイムを提案する。
具体的には、3Dオブジェクト上で3D変換を行い、投影による変換前後の複数のビューを取得する。
次に、変換前後の複数のビューの融合特徴表現から3d変換パラメータをデコードすることにより、内在的な3dオブジェクト表現をキャプチャする表現を自己学習する。
論文 参考訳(メタデータ) (2021-03-01T06:24:17Z) - Stable View Synthesis [100.86844680362196]
安定ビュー合成(SVS)について紹介する。
SVSは、自由に分散された視点からシーンを描写するソースイメージのセットを与えられた場合、シーンの新たなビューを合成する。
SVSは3つの異なる実世界のデータセットに対して定量的かつ質的に、最先端のビュー合成手法より優れている。
論文 参考訳(メタデータ) (2020-11-14T07:24:43Z) - Continuous Object Representation Networks: Novel View Synthesis without
Target View Supervision [26.885846254261626]
連続オブジェクト表現ネットワーク(Continuous Object Representation Networks、CORN)は、入力画像の幾何学と外観を3D一貫したシーン表現にマッピングする条件付きアーキテクチャである。
CORNは、新しいビューの合成やシングルビューの3D再構成、そして直接監督を使用する最先端のアプローチに匹敵するパフォーマンスといった挑戦的なタスクでうまく機能する。
論文 参考訳(メタデータ) (2020-07-30T17:49:44Z) - Single-View View Synthesis with Multiplane Images [64.46556656209769]
深層学習を応用して、既知の視点で2つ以上の入力画像が与えられた多面体画像を生成する。
本手法は,単一画像入力から直接多面体画像を予測することを学習する。
さらに、適切な深度マップを生成し、背景層の前景オブジェクトのエッジの背後にあるコンテンツを埋める。
論文 参考訳(メタデータ) (2020-04-23T17:59:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。