論文の概要: Scaling Transformer-Based Novel View Synthesis Models with Token Disentanglement and Synthetic Data
- arxiv url: http://arxiv.org/abs/2509.06950v1
- Date: Mon, 08 Sep 2025 17:58:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:04.305337
- Title: Scaling Transformer-Based Novel View Synthesis Models with Token Disentanglement and Synthetic Data
- Title(参考訳): トケインタングルメントと合成データを用いた変圧器を用いた新しいビュー合成モデルのスケーリング
- Authors: Nithin Gopalakrishnan Nair, Srinivas Kaza, Xuan Luo, Vishal M. Patel, Stephen Lombardi, Jungyeon Park,
- Abstract要約: 本稿では,トランスアーキテクチャ内でのトークンのアンタングル化プロセスを提案し,特徴分離を向上し,より効果的な学習を実現する。
提案手法は,データセット内およびデータセット間の評価において,既存のモデルよりも優れる。
- 参考スコア(独自算出の注目度): 53.040873127309766
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large transformer-based models have made significant progress in generalizable novel view synthesis (NVS) from sparse input views, generating novel viewpoints without the need for test-time optimization. However, these models are constrained by the limited diversity of publicly available scene datasets, making most real-world (in-the-wild) scenes out-of-distribution. To overcome this, we incorporate synthetic training data generated from diffusion models, which improves generalization across unseen domains. While synthetic data offers scalability, we identify artifacts introduced during data generation as a key bottleneck affecting reconstruction quality. To address this, we propose a token disentanglement process within the transformer architecture, enhancing feature separation and ensuring more effective learning. This refinement not only improves reconstruction quality over standard transformers but also enables scalable training with synthetic data. As a result, our method outperforms existing models on both in-dataset and cross-dataset evaluations, achieving state-of-the-art results across multiple benchmarks while significantly reducing computational costs. Project page: https://scaling3dnvs.github.io/
- Abstract(参考訳): 大規模なトランスフォーマーベースモデルは、スパース入力ビューからの一般化可能な新規ビュー合成(NVS)において、テスト時間最適化を必要とせず、新しい視点を生成する。
しかしながら、これらのモデルは、公開可能なシーンデータセットの限られた多様性に制約されており、ほとんどの実世界(ワイルド)のシーンは配布外である。
これを解決するために、拡散モデルから生成された合成トレーニングデータを組み込んで、目に見えない領域をまたいだ一般化を改善する。
合成データはスケーラビリティを提供するが、データ生成時に導入されたアーティファクトを、再構築品質に影響を与える重要なボトルネックとして識別する。
そこで本研究では,トランスアーキテクチャ内でのトークンの切り離し処理を提案し,特徴分離を向上し,より効果的な学習を確実にする。
この改良により、標準変圧器よりも復元品質が向上するだけでなく、合成データによるスケーラブルなトレーニングが可能になる。
その結果、本手法は、複数のベンチマークで最新結果が得られるとともに、計算コストを大幅に削減し、既存のモデルよりも優れていることがわかった。
プロジェクトページ: https://scaling3dnvs.github.io/
関連論文リスト
- Contrastive Learning-Enhanced Trajectory Matching for Small-Scale Dataset Distillation [0.7560883489000576]
画像合成におけるコントラスト学習を統合した新しいデータセット蒸留法を提案する。
提案手法は,データセットのサイズが著しく制約された場合でも,より情報的かつ多様な合成サンプルを生成する。
論文 参考訳(メタデータ) (2025-05-21T08:46:29Z) - Dataset Distillation with Probabilistic Latent Features [9.318549327568695]
合成データのコンパクトなセットは、下流の分類タスクにおける元のデータセットを効果的に置き換えることができる。
本稿では,潜在特徴の共分散をモデル化する新しい手法を提案する。
提案手法は,バックボーンアーキテクチャにまたがる最先端のクロスアーキテクチャ性能を実現する。
論文 参考訳(メタデータ) (2025-05-10T13:53:49Z) - Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - Distribution-Aware Data Expansion with Diffusion Models [55.979857976023695]
本研究では,分散型拡散モデルに基づくトレーニングフリーなデータ拡張フレームワークであるDistDiffを提案する。
DistDiffは、オリジナルデータのみにトレーニングされたモデルと比較して、さまざまなデータセットの精度を一貫して向上させる。
論文 参考訳(メタデータ) (2024-03-11T14:07:53Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。