Fugu-MT 論文翻訳(概要): Omni-Directional Image Generation from Single Snapshot Image

論文の概要: Omni-Directional Image Generation from Single Snapshot Image

arxiv url: http://arxiv.org/abs/2010.05600v1
Date: Mon, 12 Oct 2020 11:12:04 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-08 07:15:37.446889
Title: Omni-Directional Image Generation from Single Snapshot Image
Title（参考訳）: 単一スナップショット画像からのOmni方向画像生成
Authors: Keisuke Okubo and Takao Yamanaka
Abstract要約: ODI(Omni-directional image)は、カメラの周囲の球体全体を覆う視野を持つ画像である。本稿では,単一スナップショット画像からODIを生成する新しいコンピュータビジョンタスクを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: An omni-directional image (ODI) is the image that has a field of view covering the entire sphere around the camera. The ODIs have begun to be used in a wide range of fields such as virtual reality (VR), robotics, and social network services. Although the contents using ODI have increased, the available images and videos are still limited, compared with widespread snapshot images. A large number of ODIs are desired not only for the VR contents, but also for training deep learning models for ODI. For these purposes, a novel computer vision task to generate ODI from a single snapshot image is proposed in this paper. To tackle this problem, the conditional generative adversarial network was applied in combination with class-conditioned convolution layers. With this novel task, VR images and videos will be easily created even with a smartphone camera.
Abstract（参考訳）: ODI(Omni-directional image)は、カメラの周囲の球体全体を覆う視野を持つ画像である。 ODIは、仮想現実(VR)、ロボット工学、ソーシャルネットワークサービスなど、幅広い分野で使われ始めている。 ODIを使用したコンテンツは増えているが、利用可能な画像やビデオは、広く使われているスナップショット画像と比較しても、まだ限られている。多数のODIがVRコンテンツだけでなく、ODIのためのディープラーニングモデルのトレーニングにも望まれている。これらの目的のために,単一スナップショット画像からODIを生成する新しいコンピュータビジョンタスクを提案する。この問題に対処するために,条件付き生成逆ネットワークをクラス条件付き畳み込み層と組み合わせて適用した。この新しいタスクでは、スマートフォンのカメラでもVR画像やビデオを簡単に作成できる。

関連論文リスト

OG-VLA: 3D-Aware Vision Language Action Model via Orthographic Image Generation [68.11862866566817]
3D対応のポリシーは、精密なロボット操作タスクにおいて最先端のパフォーマンスを実現するが、見えない指示、シーン、オブジェクトへの一般化に苦慮している。我々は,視覚言語行動モデル(VLA)の一般化強度と3D対応ポリシーの堅牢性を組み合わせた,新しいアーキテクチャと学習フレームワークであるOG-VLAを紹介する。
論文参考訳（メタデータ） (2025-06-01T22:15:45Z)
Omni$^2$: Unifying Omnidirectional Image Generation and Editing in an Omni Model [68.22694334531224]
約360ドルで全方位画像(ODI)が注目されており、様々なバーチャルリアリティ(VR)や拡張現実(AR)アプリケーションで広く利用されている。我々は,テキストバウンサーラインOmniの方向性画像生成と編集のためのテキストバウンサーラインOmniモデルを提案する。
論文参考訳（メタデータ） (2025-04-15T16:53:11Z)
Generating 3D-Consistent Videos from Unposed Internet Photos [68.944029293283]
カメラパラメータなどの3Dアノテーションを使わずに,スケーラブルな3D対応ビデオモデルをトレーニングする。その結果,映像やマルチビューインターネット写真などの2次元データのみを用いて,シーンレベルの3D学習をスケールアップできることが示唆された。
論文参考訳（メタデータ） (2024-11-20T18:58:31Z)
Vision-based Manipulation from Single Human Video with Open-World Object Graphs [58.23098483464538]
我々は、人間のビデオから視覚に基づく操作スキルを学ぶために、ロボットに力を与えるオブジェクト中心のアプローチを提案する。 ORIONは,単一のRGB-Dビデオからオブジェクト中心の操作計画を抽出することで,この問題に対処するアルゴリズムである。
論文参考訳（メタデータ） (2024-05-30T17:56:54Z)
Simple Image Signal Processing using Global Context Guidance [56.41827271721955]
ディープラーニングベースのISPは、深層ニューラルネットワークを使用してRAW画像をDSLRライクなRGBイメージに変換することを目指している。我々は,全RAW画像からグローバルなコンテキスト情報をキャプチャするために,任意のニューラルISPに統合可能な新しいモジュールを提案する。本モデルでは,多種多様な実スマートフォン画像を用いて,様々なベンチマークで最新の結果が得られる。
論文参考訳（メタデータ） (2024-04-17T17:11:47Z)
SPAD : Spatially Aware Multiview Diffusers [86.18607017877657]
テキストプロンプトや単一画像から一貫したマルチビュー画像を作成するための新しいアプローチであるSPADを提案する。固定方位と高度でしかビューを生成できない最近の作品とは対照的に、SPADはフルカメラコントロールを提供し、最先端の結果を達成する。
論文参考訳（メタデータ） (2024-02-07T20:16:09Z)
Novel View Synthesis from a Single RGBD Image for Indoor Scenes [4.292698270662031]
単一RGBD(Red Green Blue-Depth)入力から新しいビューイメージを合成する手法を提案する。本手法では,RGBD画像を点雲に変換し,異なる視点からレンダリングし,NVSタスクを画像翻訳問題に変換する。
論文参考訳（メタデータ） (2023-11-02T08:34:07Z)
GHuNeRF: Generalizable Human NeRF from a Monocular Video [63.741714198481354]
GHuNeRFはモノクロビデオから一般化可能なヒトNeRFモデルを学習する。広範に使われているZJU-MoCapデータセットに対するアプローチを検証する。
論文参考訳（メタデータ） (2023-08-31T09:19:06Z)
Transformer-Based Model for Monocular Visual Odometry: A Video Understanding Approach [0.0]
カメラのポーズを1台のカメラから撮影した画像から推定することは、モバイルロボットの伝統的なタスクである。深層学習法は、適切なトレーニングと大量のデータを用いて、一般的なものであることが示されている。本稿では、時間的自己認識機構に基づくTSformer-VOモデルについて、クリップから特徴を抽出し、その動作をエンドツーエンドに推定する。
論文参考訳（メタデータ） (2023-05-10T13:11:23Z)
EdiBERT, a generative model for image editing [12.605607949417033]
EdiBERTは、ベクトル量子化オートエンコーダによって構築された離散潜在空間で訓練された双方向変換器である。結果のモデルが,多種多様なタスクにおける最先端のパフォーマンスと一致することを示す。
論文参考訳（メタデータ） (2021-11-30T10:23:06Z)
Video Content Swapping Using GAN [1.2300363114433952]
この作業では、ビデオの任意のフレームをコンテンツとポーズに分解します。まず、事前訓練された人間のポーズ検出を用いて映像からポーズ情報を抽出し、生成モデルを用いてコンテンツコードに基づいて映像を合成し、コードを合成する。
論文参考訳（メタデータ） (2021-11-21T23:01:58Z)
pixelNeRF: Neural Radiance Fields from One or Few Images [20.607712035278315]
pixelNeRFは、1つまたは少数の入力画像に条件付された連続的なニューラルシーン表現を予測する学習フレームワークである。本研究では,単一画像の新規ビュー合成タスクのためのShapeNetベンチマーク実験を行った。いずれの場合も、ピクセルNeRFは、新しいビュー合成とシングルイメージ3D再構成のための最先端のベースラインよりも優れています。
論文参考訳（メタデータ） (2020-12-03T18:59:54Z)
D-NeRF: Neural Radiance Fields for Dynamic Scenes [72.75686949608624]
そこで我々は,D-NeRF(D-NeRF)を動的領域に拡張する手法を提案する。 D-NeRFは、周囲を動き回るカメラから、剛体で非剛体な動きの下で物体のイメージを再構成する。我々は,剛体・調音・非剛体動作下での物体のシーンに対するアプローチの有効性を実証した。
論文参考訳（メタデータ） (2020-11-27T19:06:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。