論文の概要: Omni-Directional Image Generation from Single Snapshot Image
- arxiv url: http://arxiv.org/abs/2010.05600v1
- Date: Mon, 12 Oct 2020 11:12:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 07:15:37.446889
- Title: Omni-Directional Image Generation from Single Snapshot Image
- Title(参考訳): 単一スナップショット画像からのOmni方向画像生成
- Authors: Keisuke Okubo and Takao Yamanaka
- Abstract要約: ODI(Omni-directional image)は、カメラの周囲の球体全体を覆う視野を持つ画像である。
本稿では,単一スナップショット画像からODIを生成する新しいコンピュータビジョンタスクを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An omni-directional image (ODI) is the image that has a field of view
covering the entire sphere around the camera. The ODIs have begun to be used in
a wide range of fields such as virtual reality (VR), robotics, and social
network services. Although the contents using ODI have increased, the available
images and videos are still limited, compared with widespread snapshot images.
A large number of ODIs are desired not only for the VR contents, but also for
training deep learning models for ODI. For these purposes, a novel computer
vision task to generate ODI from a single snapshot image is proposed in this
paper. To tackle this problem, the conditional generative adversarial network
was applied in combination with class-conditioned convolution layers. With this
novel task, VR images and videos will be easily created even with a smartphone
camera.
- Abstract(参考訳): ODI(Omni-directional image)は、カメラの周囲の球体全体を覆う視野を持つ画像である。
ODIは、仮想現実(VR)、ロボット工学、ソーシャルネットワークサービスなど、幅広い分野で使われ始めている。
ODIを使用したコンテンツは増えているが、利用可能な画像やビデオは、広く使われているスナップショット画像と比較しても、まだ限られている。
多数のODIがVRコンテンツだけでなく、ODIのためのディープラーニングモデルのトレーニングにも望まれている。
これらの目的のために,単一スナップショット画像からODIを生成する新しいコンピュータビジョンタスクを提案する。
この問題に対処するために,条件付き生成逆ネットワークをクラス条件付き畳み込み層と組み合わせて適用した。
この新しいタスクでは、スマートフォンのカメラでもVR画像やビデオを簡単に作成できる。
関連論文リスト
- SPAD : Spatially Aware Multiview Diffusers [86.18607017877657]
テキストプロンプトや単一画像から一貫したマルチビュー画像を作成するための新しいアプローチであるSPADを提案する。
固定方位と高度でしかビューを生成できない最近の作品とは対照的に、SPADはフルカメラコントロールを提供し、最先端の結果を達成する。
論文 参考訳(メタデータ) (2024-02-07T20:16:09Z) - UniVG: Towards UNIfied-modal Video Generation [27.07637246141562]
テキストと画像のモダリティをまたいだ複数のビデオ生成タスクを処理できる統一モーダルビデオ生成システムを提案する。
MSR-VTT上ではFr'echet Video Distance (FVD) が最も低く、人間の評価において現在のオープンソース手法を上回り、現在のオープンソース手法であるGen2と同等である。
論文 参考訳(メタデータ) (2024-01-17T09:46:13Z) - Novel View Synthesis from a Single RGBD Image for Indoor Scenes [4.292698270662031]
単一RGBD(Red Green Blue-Depth)入力から新しいビューイメージを合成する手法を提案する。
本手法では,RGBD画像を点雲に変換し,異なる視点からレンダリングし,NVSタスクを画像翻訳問題に変換する。
論文 参考訳(メタデータ) (2023-11-02T08:34:07Z) - ConsistNet: Enforcing 3D Consistency for Multi-view Images Diffusion [61.37481051263816]
本稿では,1つの3Dオブジェクトのイメージが与えられた場合,同じオブジェクトの複数の画像を生成できる手法(ConsistNet)を提案する。
凍結したZero123のバックボーン上での3次元の一貫性を効果的に学習し、1つのA100 GPU上で40秒以内でオブジェクトの周囲のビューを生成する。
論文 参考訳(メタデータ) (2023-10-16T12:29:29Z) - GHuNeRF: Generalizable Human NeRF from a Monocular Video [63.741714198481354]
GHuNeRFはモノクロビデオから一般化可能なヒトNeRFモデルを学習する。
広範に使われているZJU-MoCapデータセットに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-08-31T09:19:06Z) - Towards a Pipeline for Real-Time Visualization of Faces for VR-based
Telepresence and Live Broadcasting Utilizing Neural Rendering [58.720142291102135]
バーチャルリアリティー用のヘッドマウントディスプレイ(HMD)は、VRにおける現実的な対面会話にかなりの障害をもたらす。
本稿では,低コストなハードウェアに焦点をあて,単一のGPUを用いたコモディティゲームコンピュータで使用できるアプローチを提案する。
論文 参考訳(メタデータ) (2023-01-04T08:49:51Z) - Dual Adversarial Adaptation for Cross-Device Real-World Image
Super-Resolution [114.26933742226115]
異なるデバイスからの画像に基づいて訓練された超高解像度(SR)モデルは、異なる画像パターンを示す可能性がある。
本稿では、DADA(Dual Adversarial Adaptation)という、実世界のSRのための教師なしドメイン適応機構を提案する。
3台のカメラで6台のリアル・トゥ・リアル・アダプティブ・セッティングで実験を行い、既存の最先端のアプローチと比較して優れた性能を実現した。
論文 参考訳(メタデータ) (2022-05-07T02:55:39Z) - EdiBERT, a generative model for image editing [12.605607949417033]
EdiBERTは、ベクトル量子化オートエンコーダによって構築された離散潜在空間で訓練された双方向変換器である。
結果のモデルが,多種多様なタスクにおける最先端のパフォーマンスと一致することを示す。
論文 参考訳(メタデータ) (2021-11-30T10:23:06Z) - Video Content Swapping Using GAN [1.2300363114433952]
この作業では、ビデオの任意のフレームをコンテンツとポーズに分解します。
まず、事前訓練された人間のポーズ検出を用いて映像からポーズ情報を抽出し、生成モデルを用いてコンテンツコードに基づいて映像を合成し、コードを合成する。
論文 参考訳(メタデータ) (2021-11-21T23:01:58Z) - pixelNeRF: Neural Radiance Fields from One or Few Images [20.607712035278315]
pixelNeRFは、1つまたは少数の入力画像に条件付された連続的なニューラルシーン表現を予測する学習フレームワークである。
本研究では,単一画像の新規ビュー合成タスクのためのShapeNetベンチマーク実験を行った。
いずれの場合も、ピクセルNeRFは、新しいビュー合成とシングルイメージ3D再構成のための最先端のベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-12-03T18:59:54Z) - D-NeRF: Neural Radiance Fields for Dynamic Scenes [72.75686949608624]
そこで我々は,D-NeRF(D-NeRF)を動的領域に拡張する手法を提案する。
D-NeRFは、周囲を動き回るカメラから、剛体で非剛体な動きの下で物体のイメージを再構成する。
我々は,剛体・調音・非剛体動作下での物体のシーンに対するアプローチの有効性を実証した。
論文 参考訳(メタデータ) (2020-11-27T19:06:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。