Fugu-MT 論文翻訳(概要): Efficient View Synthesis and 3D-based Multi-Frame Denoising with Multiplane Feature Representations

論文の概要: Efficient View Synthesis and 3D-based Multi-Frame Denoising with Multiplane Feature Representations

arxiv url: http://arxiv.org/abs/2303.18139v2
Date: Wed, 5 Apr 2023 11:08:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-06 14:51:27.179489
Title: Efficient View Synthesis and 3D-based Multi-Frame Denoising with Multiplane Feature Representations
Title（参考訳）: マルチプレーン特徴表現を用いた高能率なビュー合成と3次元マルチフレームデノイジング
Authors: Thomas Tanay and Ale\v{s} Leonardis and Matteo Maggioni
Abstract要約: 本稿では,3Dベースのマルチフレームデノベーション手法を初めて導入し,より少ない計算量で2Dベースのデノベーションを著しく上回った。特徴空間に多面体を操作する学習可能なエンコーダ-レンダペアを導入することにより,新しいビュー合成のための多面体画像(MPI)フレームワークを拡張した。
参考スコア（独自算出の注目度）: 1.18885605647513
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While current multi-frame restoration methods combine information from multiple input images using 2D alignment techniques, recent advances in novel view synthesis are paving the way for a new paradigm relying on volumetric scene representations. In this work, we introduce the first 3D-based multi-frame denoising method that significantly outperforms its 2D-based counterparts with lower computational requirements. Our method extends the multiplane image (MPI) framework for novel view synthesis by introducing a learnable encoder-renderer pair manipulating multiplane representations in feature space. The encoder fuses information across views and operates in a depth-wise manner while the renderer fuses information across depths and operates in a view-wise manner. The two modules are trained end-to-end and learn to separate depths in an unsupervised way, giving rise to Multiplane Feature (MPF) representations. Experiments on the Spaces and Real Forward-Facing datasets as well as on raw burst data validate our approach for view synthesis, multi-frame denoising, and view synthesis under noisy conditions.
Abstract（参考訳）: 現在のマルチフレーム復元法は2次元アライメント技術を用いて複数の入力画像からの情報を合成するが、新しいビュー合成の最近の進歩はボリューム的なシーン表現に依存する新しいパラダイムへの道を開く。そこで本研究では,より少ない計算量で2Dベースの性能を著しく上回る3Dベースのマルチフレームデノベーション手法を提案する。本手法は,多面表現を特徴空間で操作する学習可能なエンコーダ・レンダラペアを導入することで,新たなビュー合成のための多面画像(mpi)フレームワークを拡張する。エンコーダは、ビューにまたがって情報を融合し、深度的に操作する一方、レンダラは深度にわたって情報を融合し、視野的に操作する。 2つのモジュールはエンドツーエンドで訓練され、教師なしの方法で深度を分離することを学び、MPF(Multiplane Feature)表現を生み出した。空間と実際の前方データセット、および生のバーストデータに関する実験は、ノイズ条件下でのビュー合成、マルチフレーム・デノイジング、ビュー合成のアプローチを検証する。

関連論文リスト

One-Shot Refiner: Boosting Feed-forward Novel View Synthesis via One-Step Diffusion [57.824020826432815]
スパース画像から高忠実性ノベルビュー合成(NVS)を実現するための新しいフレームワークを提案する。 ViTバックボーンによって制限されることなく高解像度画像を処理できるデュアルドメイン詳細知覚モジュールを設計する。我々は,修復過程において高周波の詳細を保存できる特徴誘導拡散ネットワークを開発した。
論文参考訳（メタデータ） (2026-01-20T17:11:55Z)
C3G: Learning Compact 3D Representations with 2K Gaussians [55.04010158339562]
近年の手法では3次元ガウススプラッティングを再構成に用い, シーン理解のための2D-to-3D機能昇降ステージが提案されている。提案するC3Gは,空間的にのみコンパクトな3次元ガウスを推定する新しいフィードフォワードフレームワークである。
論文参考訳（メタデータ） (2025-12-03T17:59:05Z)
DualDiff: Dual-branch Diffusion Model for Autonomous Driving with Semantic Fusion [9.225796678303487]
マルチビュー駆動シーン生成のための2分岐条件拡散モデルであるDualDiffを提案する。 Occupancy Ray Sampling (ORS) という意味豊かな3次元表現を数値駆動シーン表現とともに導入する。モーダル間の情報統合を改善するために,モーダル間の特徴の整合・融合を行うセマンティック・フュージョン・アテンション(SFA)機構を提案する。
論文参考訳（メタデータ） (2025-05-03T16:20:01Z)
DualDiff+: Dual-Branch Diffusion for High-Fidelity Video Generation with Reward Guidance [5.113012982922924]
本稿では,複数のビューやビデオシーケンスをまたいだ運転シーン生成を支援する条件拡散モデルであるDualDiffを提案する。微粒な前景オブジェクトの合成を改善するために,FGM (Foreground-Aware Mask) denoising loss関数を提案する。また,関連する情報を動的に優先順位付けし,ノイズを抑えるために,意味融合注意(Semantic Fusion Attention,SFA)機構を開発した。
論文参考訳（メタデータ） (2025-03-05T17:31:45Z)
Zero-Shot Novel View and Depth Synthesis with Multi-View Geometric Diffusion [27.836518920611557]
本稿では,新しい視点から画像や深度マップを直接生成できる拡散型アーキテクチャMVGDを紹介する。このモデルは、公開データセットから6000万以上のマルチビューサンプルを収集した上でトレーニングします。複数の新しいビュー合成ベンチマーク、マルチビューステレオおよびビデオ深度推定における最先端結果について報告する。
論文参考訳（メタデータ） (2025-01-30T23:43:06Z)
LinPrim: Linear Primitives for Differentiable Volumetric Rendering [53.780682194322225]
線形プリミティブに基づく2つの新しいシーン表現を導入する。我々はGPU上で効率的に動作する異なるオクタライザを提案する。我々は最先端の手法に匹敵する性能を示す。
論文参考訳（メタデータ） (2025-01-27T18:49:38Z)
LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving [52.83707400688378]
LargeADは多用途でスケーラブルなフレームワークで、さまざまな現実世界の運転データセットにわたる大規模3D事前トレーニング用に設計されている。我々のフレームワークは、VFMを利用して2次元画像から意味的にリッチなスーパーピクセルを抽出し、LiDAR点雲に整列して高品質なコントラストサンプルを生成する。提案手法は,LDARに基づくセグメント化とオブジェクト検出の両面において,線形探索と微調整の両作業において,最先端の手法よりも大幅な性能向上を実現している。
論文参考訳（メタデータ） (2025-01-07T18:59:59Z)
LVSM: A Large View Synthesis Model with Minimal 3D Inductive Bias [50.13457154615262]
スパースビュー入力からのスケーラブルで一般化可能な新規ビュー合成のためのトランスフォーマーに基づくアプローチを提案する。本稿では,(1)入力画像トークンを1次元遅延トークンにエンコードするエンコーダデコーダLVSM,(2)入力画像を直接新規ビュー出力にマッピングするデコーダのみLVSMの2つのアーキテクチャを紹介する。
論文参考訳（メタデータ） (2024-10-22T17:58:28Z)
A Two-Stage Progressive Pre-training using Multi-Modal Contrastive Masked Autoencoders [5.069884983892437]
本稿では,RGB-Dデータセットを利用した画像理解タスクのプログレッシブ事前学習手法を提案する。第一段階では、コントラスト学習を用いてモデルを事前学習し、クロスモーダル表現を学習する。第2段階では、マスク付きオートエンコーディングと雑音予測を用いてモデルをさらに事前訓練する。我々のアプローチはスケーラブルで堅牢で、RGB-Dデータセットを事前学習するのに適しています。
論文参考訳（メタデータ） (2024-08-05T05:33:59Z)
MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation [54.27399121779011]
本稿では,多視点RGB-D画像の生成モデルを用いて,単視点3次元推論を行うMVD-Fusionを提案する。提案手法は,蒸留に基づく3D推論や先行多視点生成手法など,最近の最先端技術と比較して,より正確な合成を実現することができることを示す。
論文参考訳（メタデータ） (2024-04-04T17:59:57Z)
Learning to Render Novel Views from Wide-Baseline Stereo Pairs [26.528667940013598]
本稿では,単一の広線ステレオ画像ペアのみを付与した新しいビュー合成手法を提案する。スパース観測による新しいビュー合成への既存のアプローチは、誤った3次元形状の復元によって失敗する。対象光線に対する画像特徴を組み立てるための,効率的な画像空間のエピポーラ線サンプリング手法を提案する。
論文参考訳（メタデータ） (2023-04-17T17:40:52Z)
Multi-Plane Neural Radiance Fields for Novel View Synthesis [5.478764356647437]
新しいビュー合成は、新しいカメラの視点からシーンのフレームを描画する、長年にわたる問題である。本研究では, 単面多面体ニューラル放射場の性能, 一般化, 効率について検討する。合成結果の改善と視聴範囲の拡大のために,複数のビューを受理する新しい多面体NeRFアーキテクチャを提案する。
論文参考訳（メタデータ） (2023-03-03T06:32:55Z)
Self-Supervised Generative-Contrastive Learning of Multi-Modal Euclidean Input for 3D Shape Latent Representations: A Dynamic Switching Approach [53.376029341079054]
本稿では,3次元形状の潜在表現を学習するための,生成型とコントラスト型を組み合わせたニューラルアーキテクチャを提案する。このアーキテクチャでは、2つのエンコーダブランチをボクセルグリッドと、同じ形状のマルチビューイメージに使用している。
論文参考訳（メタデータ） (2023-01-11T18:14:24Z)
Panoptic Lifting for 3D Scene Understanding with Neural Fields [32.59498558663363]
そこで本研究では,撮影シーンの画像からパノプティカル3D表現を学習するための新しい手法を提案する。本手法では,事前学習ネットワークから推定される2次元空間分割マスクのみを必要とする。実験結果は、Hypersim、Replica、ScanNetデータセットに挑戦するアプローチを検証する。
論文参考訳（メタデータ） (2022-12-19T19:15:36Z)
Vision Transformer for NeRF-Based View Synthesis from a Single Input Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文参考訳（メタデータ） (2022-07-12T17:52:04Z)
Extracting Triangular 3D Models, Materials, and Lighting From Images [59.33666140713829]
多視点画像観測による材料と照明の協調最適化手法を提案する。従来のグラフィックスエンジンにデプロイ可能な,空間的に変化する材料と環境を備えたメッシュを活用します。
論文参考訳（メタデータ） (2021-11-24T13:58:20Z)
Deep Multi Depth Panoramas for View Synthesis [70.9125433400375]
本稿では,複数のRGBD$alpha$panoramasからなる新しいシーン表現であるMultiple Depth Panorama(MDP)を提案する。 MDPは従来の3Dシーン表現よりもコンパクトであり、高品質で効率的な新しいビューレンダリングを可能にする。
論文参考訳（メタデータ） (2020-08-04T20:29:15Z)
Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文参考訳（メタデータ） (2020-04-05T12:52:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。