論文の概要: Syn3DTxt: Embedding 3D Cues for Scene Text Generation
- arxiv url: http://arxiv.org/abs/2505.18479v1
- Date: Sat, 24 May 2025 02:53:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.450563
- Title: Syn3DTxt: Embedding 3D Cues for Scene Text Generation
- Title(参考訳): Syn3DTxt: シーンテキスト生成に3Dキューを埋め込む
- Authors: Li-Syun Hsiung, Jun-Kai Tu, Kuan-Wu Chu, Yu-Hsuan Chiu, Yan-Tsung Peng, Sheng-Luen Chung, Gee-Sern Jison Hsu,
- Abstract要約: シーンテキストレンダリングのための合成データセットにおける3次元コンテキスト不足の課題について検討する。
従来の2Dデータセットは、テキストをさまざまな背景に正確に埋め込むために必要な幾何学的手がかりを提供していない。
本研究では,3次元シーン特性を豊かにするために,表面正規を組み込んだ合成データセット構築のための新しい標準を提案する。
- 参考スコア(独自算出の注目度): 5.3618336695132625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study aims to investigate the challenge of insufficient three-dimensional context in synthetic datasets for scene text rendering. Although recent advances in diffusion models and related techniques have improved certain aspects of scene text generation, most existing approaches continue to rely on 2D data, sourcing authentic training examples from movie posters and book covers, which limits their ability to capture the complex interactions among spatial layout and visual effects in real-world scenes. In particular, traditional 2D datasets do not provide the necessary geometric cues for accurately embedding text into diverse backgrounds. To address this limitation, we propose a novel standard for constructing synthetic datasets that incorporates surface normals to enrich three-dimensional scene characteristic. By adding surface normals to conventional 2D data, our approach aims to enhance the representation of spatial relationships and provide a more robust foundation for future scene text rendering methods. Extensive experiments demonstrate that datasets built under this new standard offer improved geometric context, facilitating further advancements in text rendering under complex 3D-spatial conditions.
- Abstract(参考訳): 本研究では,シーンテキストレンダリングのための合成データセットにおける3次元コンテキスト不足の課題について検討する。
近年の拡散モデルや関連技術は、シーンテキスト生成の特定の側面を改善しているが、既存のアプローチの多くは、2Dデータに依存し、映画のポスターや本の表紙から本物のトレーニング例を抽出し、現実世界のシーンにおける空間的レイアウトと視覚的効果の間の複雑な相互作用を捉える能力を制限している。
特に、従来の2Dデータセットは、テキストをさまざまな背景に正確に埋め込むために必要な幾何学的手がかりを提供していない。
この制限に対処するために,3次元シーン特性を豊かにするために,表面正規を組み込んだ合成データセットを構築するための新しい標準を提案する。
従来の2次元データに表面正規化を加えることで,空間的関係の表現を向上し,将来のシーンテキストレンダリング手法のより堅牢な基盤を提供することを目的としている。
大規模な実験により、この新しい標準の下で構築されたデータセットは幾何学的文脈を改善し、複雑な3次元空間条件下でのテキストレンダリングのさらなる進歩を促進することが示されている。
関連論文リスト
- Text To 3D Object Generation For Scalable Room Assembly [9.275648239993703]
本稿では,スケーラブルで高品質でカスタマイズ可能な室内3Dシーンのための,合成データ生成のためのエンドツーエンドシステムを提案する。
本システムはテキストプロンプトから高忠実度3Dオブジェクトアセットを生成し,レンダリングツールを用いて事前に定義されたフロアプランに組み込む。
論文 参考訳(メタデータ) (2025-04-12T20:13:07Z) - Textured Mesh Saliency: Bridging Geometry and Texture for Human Perception in 3D Graphics [50.23625950905638]
6自由度(6-DOF)VR環境下での革新的な視線追跡実験により構築したテクスチャメッシュ・サリエンシのための新しいデータセットを提案する。
本モデルでは,各三角形の面を個々の単位として扱い,各局所表面領域の重要性を反映した塩分濃度値を割り当てることで,テクスチャメッシュ表面の塩分濃度マップを推定する。
論文 参考訳(メタデータ) (2024-12-11T08:27:33Z) - Semantic Score Distillation Sampling for Compositional Text-to-3D Generation [28.88237230872795]
テキスト記述から高品質な3Dアセットを生成することは、コンピュータグラフィックスと視覚研究において重要な課題である。
本稿では,合成テキストから3D生成までの表現性と精度の向上を目的とした新しいSDS手法を提案する。
我々のアプローチは、異なるレンダリングビュー間の一貫性を維持する新しいセマンティック埋め込みを統合する。
明示的な意味指導を活用することで,既存の事前学習拡散モデルの構成能力を解き放つ。
論文 参考訳(メタデータ) (2024-10-11T17:26:00Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - InterFusion: Text-Driven Generation of 3D Human-Object Interaction [38.380079482331745]
ゼロショットテキスト・ツー・3D方式でテキスト記述から3次元オブジェクト間相互作用(HOI)を生成する複雑な課題に取り組む。
本稿では,HOI生成に特化して設計された2段階フレームワークであるInterFusionを紹介する。
実験の結果,InterFusionは3次元HOI生成において既存の最先端手法よりも優れていたことが確認された。
論文 参考訳(メタデータ) (2024-03-22T20:49:26Z) - SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。
テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文 参考訳(メタデータ) (2023-12-13T18:59:30Z) - CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z) - Compositional 3D Scene Generation using Locally Conditioned Diffusion [49.5784841881488]
合成シーン拡散へのアプローチとして,テクスブフォローカライズ条件付き拡散を導入する。
本研究では, スコア蒸留によるテキスト・ツー・3D合成パイプラインを試作し, 関連するベースラインよりも高忠実度で合成3Dシーンを生成できることを示した。
論文 参考訳(メタデータ) (2023-03-21T22:37:16Z) - A Scene-Text Synthesis Engine Achieved Through Learning from Decomposed
Real-World Data [4.096453902709292]
シーンテキスト画像合成技術は,背景画像上のテキストインスタンスを自然に構成することを目的としている。
本稿では,テキスト位置提案ネットワーク(TLPNet)とテキスト出現適応ネットワーク(TAANet)を含む学習ベーステキスト合成エンジン(LBTS)を提案する。
トレーニング後、これらのネットワークを統合して、シーンテキスト分析タスクのための合成データセットを生成することができる。
論文 参考訳(メタデータ) (2022-09-06T11:15:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。