論文の概要: Enhancing Close-up Novel View Synthesis via Pseudo-labeling
- arxiv url: http://arxiv.org/abs/2503.15908v1
- Date: Thu, 20 Mar 2025 07:27:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:35:39.147985
- Title: Enhancing Close-up Novel View Synthesis via Pseudo-labeling
- Title(参考訳): Pseudo-labelingによるクローズアップな新しいビュー合成の実現
- Authors: Jiatong Xia, Libo Sun, Lingqiao Liu,
- Abstract要約: ニューラルレージアン場(NeRF)や3次元ガウススプラッティング(3DGS)のような手法は、新規なビュー合成において顕著な機能を示した。
トレーニング中に見られるような視点で高品質な画像を作成することに成功したにもかかわらず、トレーニングセットから著しく逸脱した視点から詳細な画像を生成するのに苦労している。
- 参考スコア(独自算出の注目度): 21.49779994295144
- License:
- Abstract: Recent methods, such as Neural Radiance Fields (NeRF) and 3D Gaussian Splatting (3DGS), have demonstrated remarkable capabilities in novel view synthesis. However, despite their success in producing high-quality images for viewpoints similar to those seen during training, they struggle when generating detailed images from viewpoints that significantly deviate from the training set, particularly in close-up views. The primary challenge stems from the lack of specific training data for close-up views, leading to the inability of current methods to render these views accurately. To address this issue, we introduce a novel pseudo-label-based learning strategy. This approach leverages pseudo-labels derived from existing training data to provide targeted supervision across a wide range of close-up viewpoints. Recognizing the absence of benchmarks for this specific challenge, we also present a new dataset designed to assess the effectiveness of both current and future methods in this area. Our extensive experiments demonstrate the efficacy of our approach.
- Abstract(参考訳): ニューラルレージアン場(NeRF)や3次元ガウススプラッティング(3DGS)といった最近の手法は、新規なビュー合成において顕著な機能を示した。
しかし、トレーニング中に見られるような視点で高品質な画像を作成することに成功したにもかかわらず、特にクローズアップ視点において、トレーニングセットから著しく逸脱した視点から詳細な画像を生成するのに苦労している。
主な課題は、クローズアップビューのための特定のトレーニングデータが欠如していることに起因している。
この問題に対処するために、我々は新しい擬似ラベルベースの学習戦略を導入する。
このアプローチは、既存のトレーニングデータから派生した擬似ラベルを活用して、広範囲のクローズアップ視点を対象とする監視を提供する。
この課題に対するベンチマークの欠如を認識し、この分野における現在および将来の手法の有効性を評価するために設計された新しいデータセットも提示する。
我々の大規模な実験は我々のアプローチの有効性を実証している。
関連論文リスト
- Binocular-Guided 3D Gaussian Splatting with View Consistency for Sparse View Synthesis [53.702118455883095]
本稿では,ガウススプラッティングを用いたスパースビューから新しいビューを合成する新しい手法を提案する。
私たちのキーとなるアイデアは、両眼画像間の両眼立体的一貫性に固有の自己超越を探索することにあります。
我々の手法は最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2024-10-24T15:10:27Z) - NeRF Director: Revisiting View Selection in Neural Volume Rendering [21.03892888687864]
我々は、ビュー選択方法の統合フレームワークを導入し、その影響を評価するためのベンチマークを考案する。
より少ないビューを使用することで、高品質なレンダリングを高速に実現できることを示す。
提案手法の有効性を実証するために,合成データセットと現実データの両方について広範な実験を行った。
論文 参考訳(メタデータ) (2024-06-13T06:04:19Z) - Single-image driven 3d viewpoint training data augmentation for effective wine label recognition [22.78001012725134]
本稿では,ワインラベル認識に適した新しい3次元視点拡張手法を提案する。
実世界のワインラベル画像から視覚的にリアルなトレーニングサンプルを生成し、テキストとロゴの複雑な組み合わせによって生じる課題を克服する。
実験の結果,従来の2次元データ拡張技術に比べて認識精度が有意に向上した。
論文 参考訳(メタデータ) (2024-04-12T21:30:09Z) - Few-Shot Learning on Graphs: from Meta-learning to Pre-training and
Prompting [56.25730255038747]
この調査は、最近の展開を合成し、比較洞察を提供し、将来の方向性を特定するための取り組みである。
我々は,既存の研究をメタラーニングアプローチ,事前学習アプローチ,ハイブリッドアプローチの3つの主要なファミリーに体系的に分類した。
これらの手法間の関係を解析し,その強みと限界を比較する。
論文 参考訳(メタデータ) (2024-02-02T14:32:42Z) - Cross-Age Contrastive Learning for Age-Invariant Face Recognition [29.243096587091575]
年齢差の顔画像は一般的に収集が困難で費用がかかる。
異なる年齢の同じ被験者の画像は通常入手が困難または不可能である。
クロスエイジコントラスト学習(CACon)という,新たな半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-18T13:41:21Z) - Leveraging Neural Radiance Fields for Uncertainty-Aware Visual
Localization [56.95046107046027]
我々は,Neural Radiance Fields (NeRF) を用いてシーン座標回帰のためのトレーニングサンプルを生成することを提案する。
レンダリングにおけるNeRFの効率にもかかわらず、レンダリングされたデータの多くはアーティファクトによって汚染されるか、最小限の情報ゲインしか含まない。
論文 参考訳(メタデータ) (2023-10-10T20:11:13Z) - Free-ATM: Exploring Unsupervised Learning on Diffusion-Generated Images
with Free Attention Masks [64.67735676127208]
テキストと画像の拡散モデルは、画像認識の恩恵を受ける大きな可能性を示している。
有望ではあるが、拡散生成画像の教師なし学習に特化した調査は不十分である。
上記フリーアテンションマスクをフル活用することで、カスタマイズされたソリューションを導入する。
論文 参考訳(メタデータ) (2023-08-13T10:07:46Z) - Learning-by-Novel-View-Synthesis for Full-Face Appearance-based 3D Gaze
Estimation [8.929311633814411]
本研究は,単眼の3次元顔再構成に基づく視線推定訓練データを合成するための新しいアプローチについて検討する。
マルチビュー再構成、フォトリアリスティックCGモデル、または生成ニューラルネットワークを用いた以前の研究とは異なり、我々のアプローチは既存のトレーニングデータの頭部ポーズ範囲を操作および拡張することができる。
論文 参考訳(メタデータ) (2022-01-20T00:29:45Z) - A Simple Long-Tailed Recognition Baseline via Vision-Language Model [92.2866546058082]
視覚の世界は自然にオープンクラスの長い尾の分布を示しており、現代の視覚システムには大きな課題をもたらしている。
視覚認識のための新しい経路におけるコントラスト言語事前学習の最近の進歩
我々は、長い尾の認識にコントラッシブな視覚言語モデルを活用するために、BALLADを提案する。
論文 参考訳(メタデータ) (2021-11-29T17:49:24Z) - Recognizing Actions in Videos from Unseen Viewpoints [80.6338404141284]
本研究では,現在の畳み込みニューラルネットワークモデルでは,トレーニングデータに存在しないカメラ視点からの動作を認識できないことを示す。
視認不能な認識のための新しいデータセットを導入し、視点不変表現を学習するアプローチ能力を示す。
論文 参考訳(メタデータ) (2021-03-30T17:17:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。