論文の概要: Learning multiplane images from single views with self-supervision
- arxiv url: http://arxiv.org/abs/2110.09380v2
- Date: Tue, 19 Oct 2021 07:42:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-20 11:34:05.438223
- Title: Learning multiplane images from single views with self-supervision
- Title(参考訳): 自己スーパービジョンによる単一視点からの多面体画像の学習
- Authors: Gustavo Sutter P. Carvalho, Diogo C. Luvizon, Antonio Joia Neto, Andre
G. C. Pacheco, Otavio A. B. Penatti
- Abstract要約: CycleMPIは、自己スーパービジョンのための循環訓練戦略を通じて、単一の画像から多面体画像表現を学習することができる。
我々のフレームワークは、トレーニングのためにステレオデータを必要としないので、インターネットから大量のビジュアルデータをトレーニングすることができる。
- 参考スコア(独自算出の注目度): 1.0499611180329804
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating static novel views from an already captured image is a hard task
in computer vision and graphics, in particular when the single input image has
dynamic parts such as persons or moving objects. In this paper, we tackle this
problem by proposing a new framework, called CycleMPI, that is capable of
learning a multiplane image representation from single images through a cyclic
training strategy for self-supervision. Our framework does not require stereo
data for training, therefore it can be trained with massive visual data from
the Internet, resulting in a better generalization capability even for very
challenging cases. Although our method does not require stereo data for
supervision, it reaches results on stereo datasets comparable to the state of
the art in a zero-shot scenario. We evaluated our method on RealEstate10K and
Mannequin Challenge datasets for view synthesis and presented qualitative
results on Places II dataset.
- Abstract(参考訳): すでにキャプチャされた画像から静的にノベルなビューを生成することは、コンピュータビジョンやグラフィックス、特に1つの入力画像が人や動くオブジェクトのような動的な部分を持っている場合、難しい作業である。
本稿では,自己スーパービジョンのための巡回学習戦略を通じて,単一画像から多面画像表現を学習できる新しいフレームワークであるcyclempiを提案することで,この問題に取り組む。
我々のフレームワークは、トレーニングのためにステレオデータを必要としないため、インターネットから大量のビジュアルデータでトレーニングすることが可能であり、非常に困難な場合であっても、より良い一般化能力が得られる。
本手法は, 監視のためにステレオデータを必要としないが, ゼロショットシナリオにおいて, 技術状況に匹敵するステレオデータセットの結果が得られる。
本手法をrealestate10kおよびmannequin challengeデータセットで評価し,places iiデータセットの質的評価を行った。
関連論文リスト
- Enhancing Large Vision Language Models with Self-Training on Image Comprehension [99.9389737339175]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - Learning Transferable Pedestrian Representation from Multimodal
Information Supervision [174.5150760804929]
VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。
まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。
次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
論文 参考訳(メタデータ) (2023-04-12T01:20:58Z) - Self-supervised Learning for Sonar Image Classification [6.1947705963945845]
自己教師付き学習は、大きなラベル付きデータセットを必要とせずに画像表現を学習するための強力なアプローチであることが証明された。
実生活ソナー画像データセットの事前学習および転送学習結果について述べる。
論文 参考訳(メタデータ) (2022-04-20T08:58:35Z) - The Devil is in the Frequency: Geminated Gestalt Autoencoder for
Self-Supervised Visual Pre-Training [13.087987450384036]
視覚前訓練のための新しいMasked Image Modeling (MIM) をGeminated Autoencoder (Ge$2-AE) と呼ぶ。
具体的には、画素と周波数空間の両方から画像内容を再構成するgeminated decoderをモデルに装備する。
論文 参考訳(メタデータ) (2022-04-18T09:22:55Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - AugNet: End-to-End Unsupervised Visual Representation Learning with
Image Augmentation [3.6790362352712873]
我々は、未ラベル画像の集合から画像特徴を学習するための新しいディープラーニングトレーニングパラダイムであるAugNetを提案する。
実験により,低次元空間における画像の表現が可能であることを実証した。
多くのディープラーニングベースの画像検索アルゴリズムとは異なり、我々のアプローチは外部アノテーション付きデータセットへのアクセスを必要としない。
論文 参考訳(メタデータ) (2021-06-11T09:02:30Z) - Curious Representation Learning for Embodied Intelligence [81.21764276106924]
近年,自己指導型表現学習は顕著な成功を収めている。
しかし、真にインテリジェントなエージェントを構築するためには、環境から学習できる表現学習アルゴリズムを構築する必要がある。
本稿では,強化学習方針と視覚的表現モデルを同時に学習する,好奇心をそそる表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-03T17:59:20Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z) - Two-shot Spatially-varying BRDF and Shape Estimation [89.29020624201708]
形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。
ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。
合成データセットと実世界のデータセットの両方の実験により、合成データセットでトレーニングされたネットワークが、実世界の画像に対してうまく一般化できることが示されている。
論文 参考訳(メタデータ) (2020-04-01T12:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。