論文の概要: Fully Procedural Synthetic Data from Simple Rules for Multi-View Stereo
- arxiv url: http://arxiv.org/abs/2604.04925v1
- Date: Mon, 06 Apr 2026 17:59:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.33445
- Title: Fully Procedural Synthetic Data from Simple Rules for Multi-View Stereo
- Title(参考訳): マルチビューステレオのための簡単なルールからの完全な手続き的合成データ
- Authors: Zeyu Ma, Alexander Raistrick, Jia Deng,
- Abstract要約: 非常に小さなルールセットによって駆動される、完全に手続き的な新しいジェネレータであるSimpleProcを使って、効果的なトレーニングデータを生成することができることを示す。
そこで本研究では,ゲームや実世界のオブジェクトから手作業でキュレートした画像と比較して,8000枚程度の画像で優れた結果が得られることを示す。
352,000の画像にスケールすると、いくつかのベンチマークで、692,000以上の手作業で訓練された画像に匹敵するパフォーマンスが得られる。
- 参考スコア(独自算出の注目度): 59.11389699606293
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we explore the design space of procedural rules for multi-view stereo (MVS). We demonstrate that we can generate effective training data using SimpleProc: a new, fully procedural generator driven by a very small set of rules using Non-Uniform Rational Basis Splines (NURBS), as well as basic displacement and texture patterns. At a modest scale of 8,000 images, our approach achieves superior results compared to manually curated images (at the same scale) sourced from games and real-world objects. When scaled to 352,000 images, our method yields performance comparable to--and in several benchmarks, exceeding--models trained on over 692,000 manually curated images. The source code and the data are available at https://github.com/princeton-vl/SimpleProc.
- Abstract(参考訳): 本稿では,マルチビューステレオ(MVS)における手続き規則の設計空間について検討する。
In this shown that we can generate effective training data using SimpleProc: a new, fully procedural generator driven by a very small set of rules using non-uniform Rational Basis Splines (NURBS) and as basic shift and texture pattern。
そこで本研究では,ゲームや実世界のオブジェクトから得られる手作業によるキュレート画像(同じスケール)と比較して,8000枚の画像の質素なスケールで優れた結果を得る。
352,000の画像にスケールすると、いくつかのベンチマークで、692,000以上の手作業で訓練された画像に匹敵するパフォーマンスが得られる。
ソースコードとデータはhttps://github.com/princeton-vl/SimpleProcで入手できる。
関連論文リスト
- SAGI: Semantically Aligned and Uncertainty Guided AI Image Inpainting [11.216906046169683]
SAGI-DはAIが生成する塗り絵の最大かつ最も多様なデータセットである。
実験の結果,セマンティックアライメントは画像の品質と美学を著しく改善することがわかった。
SAGI-Dを使っていくつかの画像法医学的アプローチを訓練すると、ドメイン内の検出性能は平均37.4%向上する。
論文 参考訳(メタデータ) (2025-02-10T15:56:28Z) - Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models [79.59567114769513]
複数の画像に対して自由かつ正確なグラウンド化を行うことができる最初のマルチイメージグラウンドモデルであるMigicianを紹介する。
我々のモデルは、より優れたマルチイメージグラウンド機能を実現し、最高のMLLMを24.94%上回り、さらに大きな70Bモデルを超えた。
論文 参考訳(メタデータ) (2025-01-10T07:56:23Z) - Adventurer: Optimizing Vision Mamba Architecture Designs for Efficiency [41.87857129429512]
本稿では,イメージをパッチトークンのシーケンスとして扱うアドベンチャーシリーズモデルを紹介し,一方向言語モデルを用いて視覚表現を学習する。
このモデリングパラダイムにより、列長に対して線形な複雑度を持つ繰り返し定式化による画像の処理が可能となる。
本稿では,画像入力を因果推論フレームワークにシームレスに統合する2つの簡単な設計を提案する。
論文 参考訳(メタデータ) (2024-10-10T04:14:52Z) - Procedural Image Programs for Representation Learning [62.557911005179946]
我々は,2万プログラムからなる大規模なデータセットを用いて,多様な合成画像を生成する訓練を提案する。
これらのプログラムは短いコードスニペットであり、変更が容易で、高速に実行することができる。
提案したデータセットは、教師付きおよび教師なしの表現学習の両方に使用することができ、実際の画像と手続き的に生成された画像との事前学習のギャップを38%削減する。
論文 参考訳(メタデータ) (2022-11-29T17:34:22Z) - A simple, efficient and scalable contrastive masked autoencoder for
learning visual representations [21.440853288058452]
視覚表現の自己教師型学習のための,シンプルで効率的かつスケーラブルな手法であるCANを紹介する。
我々のフレームワークは、(C)コントラスト学習、(A)マスク付きオートエンコーダ、(N)拡散モデルで使用されるノイズ予測アプローチの最小かつ概念的にクリーンな合成である。
論文 参考訳(メタデータ) (2022-10-30T16:21:22Z) - A Unified View of Masked Image Modeling [117.79456335844439]
マスク付き画像モデリングは、大規模な視覚変換器を訓練する際のラベル・ハングリーの問題を取り除く大きな可能性を示している。
マスク位置の教師モデルから正規化された意味的特徴を再構成する,MaskDistillと呼ばれるシンプルで効果的な手法を提案する。
画像分類とセマンティックセグメンテーションの実験結果から、MaskDistillは最先端の手法よりも同等または優れた性能を達成していることがわかった。
論文 参考訳(メタデータ) (2022-10-19T14:59:18Z) - $\mu$NCA: Texture Generation with Ultra-Compact Neural Cellular Automata [79.00163348781422]
高コンパクトモデルを用いた実例に基づく手続き的テクスチャ合成の問題点について検討する。
我々は,NCA(Neural Cellular Automata)ルールによってパラメータ付けされた生成過程の学習に,微分可能プログラミングを用いる。
論文 参考訳(メタデータ) (2021-11-26T15:26:37Z) - SimMIM: A Simple Framework for Masked Image Modeling [29.015777125540613]
本稿では,マスク画像モデリングのためのシンプルなフレームワークであるSimについて述べる。
フレームワークの主要なコンポーネントについて検討し、各コンポーネントのシンプルな設計が、非常に強力な表現学習性能を示した。
また、このアプローチを利用して3Bモデルのトレーニングをしやすくし、従来の4つの代表的なビジョンベンチマークよりも40ドル安いデータで、最先端の4つのビジョンベンチマークを実現しています。
論文 参考訳(メタデータ) (2021-11-18T18:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。