論文の概要: A Hybrid Approach for Closing the Sim2real Appearance Gap in Game Engine Synthetic Datasets
- arxiv url: http://arxiv.org/abs/2605.02291v1
- Date: Mon, 04 May 2026 07:28:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.177731
- Title: A Hybrid Approach for Closing the Sim2real Appearance Gap in Game Engine Synthetic Datasets
- Title(参考訳): ゲームエンジン合成データセットにおけるSim2real外見ギャップのハイブリッド化
- Authors: Stefanos Pasios,
- Abstract要約: ビデオゲームエンジンは、大量のビジュアル合成データセットを生成するための重要な情報源である。
合成画像と実世界の画像の間には、注目すべきsim2realの外観ギャップが残っている。
合成データセットのフォトリアリズムを高めるために,最先端の画像生成と編集拡散モデルの有用性について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video game engines have been an important source for generating large volumes of visual synthetic datasets for training and evaluating computer vision algorithms that are to be deployed in the real world. While the visual fidelity of modern game engines has been significantly improved with technologies such as ray-tracing, a notable sim2real appearance gap between the synthetic and the real-world images still remains, which limits the utilization of synthetic datasets in real-world applications. In this letter, we investigate the ability of a state-of-the-art image generation and editing diffusion model (FLUX.2-4B Klein) to enhance the photorealism of synthetic datasets and compare its performance against a traditional image-to-image translation model (REGEN). Furthermore, we propose a hybrid approach that combines the strong geometry and material transformations of diffusion-based methods with the distribution-matching capabilities of image-to-image translation techniques. Through experiments, it is demonstrated that REGEN outperforms FLUX.2-4B Klein and that by combining both FLUX.2-4B Klein and REGEN models, better visual realism can be achieved compared to using each model individually, while maintaining semantic consistency. The code is available at: https://github.com/stefanos50/Hybrid-Sim2Real
- Abstract(参考訳): ビデオゲームエンジンは、現実世界にデプロイされるコンピュータビジョンアルゴリズムのトレーニングと評価のために、大量のビジュアル合成データセットを生成するための重要な情報源である。
現代のゲームエンジンの視覚的忠実さは、レイトレーシングのような技術によって著しく改善されているが、合成画像と実世界の画像の間に顕著なsim2realな外観ギャップが残っており、現実のアプリケーションにおける合成データセットの利用を制限している。
本稿では,最新の画像生成・編集拡散モデル (FLUX.2-4B Klein) を用いて,合成データセットのフォトリアリズムを向上し,その性能を従来の画像から画像への変換モデル (REGEN) と比較する。
さらに,拡散型手法の強い幾何と物質変換と,画像から画像への変換手法の分布マッチング機能を組み合わせたハイブリッド手法を提案する。
実験により、REGENはFLUX.2-4B Kleinよりも優れており、FLUX.2-4B KleinモデルとREGENモデルを組み合わせることで、セマンティック一貫性を維持しつつ、個々のモデルよりも優れた視覚的リアリズムを実現することができることを示した。
コードは以下の通り。 https://github.com/stefanos50/Hybrid-Sim2Real
関連論文リスト
- HyPER-GAN: Hybrid Patch-Based Image-to-Image Translation for Real-Time Photorealism Enhancement [2.478819644330144]
リアルタイム推論のために設計されたU-Netスタイルのジェネレータをベースとした,軽量な画像から画像への変換手法を提案する。
HyPER-GANは、推論レイテンシ、ビジュアルリアリズム、セマンティックロバストネスの観点から、最先端の軽量な画像対画像変換法より優れている。
論文 参考訳(メタデータ) (2026-03-11T10:05:32Z) - Computer vision training dataset generation for robotic environments using Gaussian splatting [0.0]
本稿では,ロボット環境におけるコンピュータビジョンタスクのための大規模かつ現実的で,自動的にラベル付けされたデータセットを生成するための新しいパイプラインを提案する。
我々は3Dガウススプラッティング(3DGS)を利用して、運用環境とオブジェクトの光リアル表現を作成する。
新たな2パスレンダリング技術は、スプレートのリアリズムと、プロキシメッシュから生成されたシャドウマップを組み合わせる。
画素完全セグメンテーションマスクは自動的に生成され、YOLOのようなオブジェクト検出モデルで直接使用するためにフォーマットされる。
論文 参考訳(メタデータ) (2025-12-15T15:00:17Z) - RealGen: Photorealistic Text-to-Image Generation via Detector-Guided Rewards [53.25632969696776]
フォトリアリスティック画像生成のためのテキスト・ツー・イメージ・フレームワークであるRealGenを提案する。
敵対的生成にインスパイアされたRealGenは、アーティファクトを定量化し、リアリズムを評価する"Detector Reward"メカニズムを導入した。
実験によると、RealGenはGPT-Image-1やQwen-Imageといった一般的なモデルやFLUX-Kreaのような特殊なフォトリアリスティックモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2025-11-29T12:52:26Z) - CARLA2Real: a tool for reducing the sim2real appearance gap in CARLA simulator [2.478819644330144]
我々は、シミュレーションデータのフォトリアリズムを高めるために最先端のアプローチを採用し、それらを実世界のデータセットの視覚的特徴と整合させる。
そこで我々はCARLA2Realを開発した。CARLA2Realは、広く使われているオープンソースのCARLAシミュレーターである。
このツールは、CARLAをほぼリアルタイムで出力し、13FPSのフレームレートを実現し、実世界のデータセットの視覚的スタイルとリアリズムに変換する。
論文 参考訳(メタデータ) (2024-10-23T19:33:30Z) - FashionR2R: Texture-preserving Rendered-to-Real Image Translation with Diffusion Models [14.596090302381647]
本稿では,レンダリングの制御に基づく拡散モデルから生成するパワーを利用して,レンダリング画像のフォトリアリズム向上について検討する。
ドメイン知識注入(Domain Knowledge Injection, DKI)と現実画像生成(Realistic Image Generation, RIG)という2つの段階から構成される。
論文 参考訳(メタデータ) (2024-10-18T12:48:22Z) - Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - Is synthetic data from generative models ready for image recognition? [69.42645602062024]
本研究では,最新のテキスト・画像生成モデルから生成した合成画像が,画像認識タスクにどのように利用できるかを検討した。
本稿では,既存の生成モデルからの合成データの強大さと欠点を示し,認識タスクに合成データを適用するための戦略を提案する。
論文 参考訳(メタデータ) (2022-10-14T06:54:24Z) - DiVAE: Photorealistic Images Synthesis with Denoising Diffusion Decoder [73.1010640692609]
本稿では,拡散デコーダ(DiVAE)を用いたVQ-VAEアーキテクチャモデルを提案する。
我々のモデルは最先端の成果を達成し、さらに多くのフォトリアリスティックな画像を生成する。
論文 参考訳(メタデータ) (2022-06-01T10:39:12Z) - Two-shot Spatially-varying BRDF and Shape Estimation [89.29020624201708]
形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。
ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。
合成データセットと実世界のデータセットの両方の実験により、合成データセットでトレーニングされたネットワークが、実世界の画像に対してうまく一般化できることが示されている。
論文 参考訳(メタデータ) (2020-04-01T12:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。