論文の概要: Ontology-Guided Diffusion for Zero-Shot Visual Sim2Real Transfer
- arxiv url: http://arxiv.org/abs/2603.18719v1
- Date: Thu, 19 Mar 2026 10:16:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:06.083991
- Title: Ontology-Guided Diffusion for Zero-Shot Visual Sim2Real Transfer
- Title(参考訳): ゼロショット視覚型Sim2Real転送のためのオントロジー誘導拡散法
- Authors: Mohamed Youssef, Mayar Elfares, Anna-Maria Meer, Matteo Bortoletto, Andreas Bulling,
- Abstract要約: ニューロシンボリックなゼロショット画像変換フレームワークであるOntology- Guided Diffusion (OGD)を紹介した。
OGDはリアリズムを解釈可能な特性のオントロジーに分解し、それらの関係を知識グラフにエンコードする。
我々は、OGDが解釈可能、データ効率、一般化可能なゼロショットsim2real転送を可能にすることを示す。
- 参考スコア(独自算出の注目度): 14.375124601922678
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Bridging the simulation-to-reality (sim2real) gap remains challenging as labelled real-world data is scarce. Existing diffusion-based approaches rely on unstructured prompts or statistical alignment, which do not capture the structured factors that make images look real. We introduce Ontology- Guided Diffusion (OGD), a neuro-symbolic zero-shot sim2real image translation framework that represents realism as structured knowledge. OGD decomposes realism into an ontology of interpretable traits -- such as lighting and material properties -- and encodes their relationships in a knowledge graph. From a synthetic image, OGD infers trait activations and uses a graph neural network to produce a global embedding. In parallel, a symbolic planner uses the ontology traits to compute a consistent sequence of visual edits needed to narrow the realism gap. The graph embedding conditions a pretrained instruction-guided diffusion model via cross-attention, while the planned edits are converted into a structured instruction prompt. Across benchmarks, our graph-based embeddings better distinguish real from synthetic imagery than baselines, and OGD outperforms state-of-the-art diffusion methods in sim2real image translations. Overall, OGD shows that explicitly encoding realism structure enables interpretable, data-efficient, and generalisable zero-shot sim2real transfer.
- Abstract(参考訳): 実世界データのラベル付けが不十分なため、シミュレーションと現実(sim2real)のギャップを埋めることは依然として困難である。
既存の拡散に基づくアプローチは、非構造的プロンプトや統計的アライメントに依存しており、イメージをリアルに見せる構造的要因を捉えない。
本稿では, 現実主義を構造化知識として表現する, ニューロシンボリックなゼロショット画像翻訳フレームワークであるOntology- Guided Diffusion (OGD)を紹介する。
OGDはリアリズムを、照明や材料特性などの解釈可能な特性のオントロジーに分解し、それらの関係を知識グラフにエンコードする。
合成画像から、OGDは特性活性化を推論し、グラフニューラルネットワークを使用してグローバルな埋め込みを生成する。
平行して、シンボリックプランナーは、オントロジー特性を使用して、リアリズムギャップを狭めるために必要な一貫した視覚的編集のシーケンスを計算する。
グラフ埋め込み条件は、事前訓練された命令誘導拡散モデルに対して、クロスアテンションを介し、計画された編集を構造化された命令プロンプトに変換する。
ベンチマーク全体を通して、グラフベースの埋め込みはベースラインよりも合成画像と実際の区別が良く、OGDはsim2real画像翻訳における最先端拡散法より優れています。
全体として、OGDは、明示的に写実構造を符号化することで、解釈可能、データ効率、一般化可能なゼロショットシミュリアル転送を可能にする。
関連論文リスト
- Text2Graph VPR: A Text-to-Graph Expert System for Explainable Place Recognition in Changing Environments [0.0]
Text2Graph VPRは、画像シーケンスをテキストシーン記述に変換する。
シーングラフはオブジェクト、属性、ペア関係をキャプチャする。
厳格な外見変化下での頑健な検索を実証した。
論文 参考訳(メタデータ) (2025-12-21T06:16:20Z) - Style Transfer with Diffusion Models for Synthetic-to-Real Domain Adaptation [3.7051961231919393]
拡散モデルを用いた意味論的一貫したスタイル伝達のための2つの新しい手法を提案する。
GTA5をソースとして,Cityscapes/ACDCをターゲットドメインとして実験したところ,FIDスコアが低く,コンテンツ保存性が向上した高品質な画像が得られた。
論文 参考訳(メタデータ) (2025-05-22T08:11:10Z) - Explaining Vision GNNs: A Semantic and Visual Analysis of Graph-based Image Classification [4.714421854862438]
グラフニューラルネットワーク(GNN)は、視覚タスクの畳み込みアプローチの効率的な代替手段として登場した。
効率性にもかかわらず、GNNベースの視覚モデルの説明可能性はまだ未定である。
論文 参考訳(メタデータ) (2025-04-28T11:13:40Z) - Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - Learned representation-guided diffusion models for large-image generation [58.192263311786824]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。
我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。
実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文 参考訳(メタデータ) (2023-12-12T14:45:45Z) - Diversity and Diffusion: Observations on Synthetic Image Distributions
with Stable Diffusion [6.491645162078057]
Text-to-image (TTI)システムにより、単純なテキストプロンプトでリアルな画像を作成することができる。
これまでに行われたすべての実験において、合成画像のみで訓練された分類器は推論時に性能が良くない。
この課題に対するTTIシステムの有用性を制限する4つの問題:曖昧さ、プロンプトへの順守、多様性の欠如、基礎となる概念を表現できないこと。
論文 参考訳(メタデータ) (2023-10-31T18:05:15Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - Deep CG2Real: Synthetic-to-Real Translation via Image Disentanglement [78.58603635621591]
画像空間における未ペアの合成-現実翻訳ネットワークの訓練は、厳しい制約下にある。
画像の非交叉シェーディング層とアルベド層に作用する半教師付きアプローチを提案する。
私たちの2段階のパイプラインはまず、物理ベースのレンダリングをターゲットとして、教師付き方法で正確なシェーディングを予測することを学習します。
論文 参考訳(メタデータ) (2020-03-27T21:45:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。