論文の概要: STRinGS: Selective Text Refinement in Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2512.07230v1
- Date: Mon, 08 Dec 2025 07:20:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.755084
- Title: STRinGS: Selective Text Refinement in Gaussian Splatting
- Title(参考訳): strinGS: ガウススティングにおける選択的テキストリファインメント
- Authors: Abhinav Raundhal, Gaurav Behera, P J Narayanan, Ravi Kiran Sarvadevabhatla, Makarand Tapaswi,
- Abstract要約: 3次元ガウス・スプティングのような3次元表現は、高い視覚的忠実さを達成しつつ、微細なテキストの詳細を保存するのに苦労する。
本稿では,3DGS再構築のためのテキスト認識・選択的改良フレームワークであるSTRinGSを提案する。
本手法はテキスト領域と非テキスト領域を別々に扱い,まずテキスト領域を精製し,その後に非テキスト領域とマージしてフルシーン最適化を行う。
- 参考スコア(独自算出の注目度): 25.210268885595983
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Text as signs, labels, or instructions is a critical element of real-world scenes as they can convey important contextual information. 3D representations such as 3D Gaussian Splatting (3DGS) struggle to preserve fine-grained text details, while achieving high visual fidelity. Small errors in textual element reconstruction can lead to significant semantic loss. We propose STRinGS, a text-aware, selective refinement framework to address this issue for 3DGS reconstruction. Our method treats text and non-text regions separately, refining text regions first and merging them with non-text regions later for full-scene optimization. STRinGS produces sharp, readable text even in challenging configurations. We introduce a text readability measure OCR Character Error Rate (CER) to evaluate the efficacy on text regions. STRinGS results in a 63.6% relative improvement over 3DGS at just 7K iterations. We also introduce a curated dataset STRinGS-360 with diverse text scenarios to evaluate text readability in 3D reconstruction. Our method and dataset together push the boundaries of 3D scene understanding in text-rich environments, paving the way for more robust text-aware reconstruction methods.
- Abstract(参考訳): 記号、ラベル、指示としてのテキストは、重要な文脈情報を伝達できる現実世界のシーンの重要な要素である。
3D Gaussian Splatting(3DGS)のような3D表現は、高精細なテキストの保存に苦慮し、高い視覚的忠実性を実現している。
テキスト要素再構成における小さなエラーは、意味的損失を著しく引き起こす可能性がある。
本稿では,3DGS再構築のためのテキスト認識・選択的改良フレームワークであるSTRinGSを提案する。
本手法はテキスト領域と非テキスト領域を別々に扱い,まずテキスト領域を精製し,その後に非テキスト領域とマージしてフルシーン最適化を行う。
STRinGSは、困難な構成であっても、シャープで読みやすいテキストを生成する。
テキスト領域における有効性を評価するために,テキスト可読性測定OCR文字誤り率(CER)を導入する。
STRinGSはわずか7Kイテレーションで3DGSよりも63.6%改善した。
また,3次元再構成におけるテキストの可読性を評価するために,テキストシナリオの多種多様なデータセット STRINGS-360 も導入した。
我々の手法とデータセットは、テキストに富んだ環境における3Dシーン理解の境界を押し付け、より堅牢なテキスト認識再構築手法の道を開く。
関連論文リスト
- Inverse Scene Text Removal [5.892066196730197]
Scene text removal (STR) は、画像からテキスト要素を消去することを目的としている。
STRは通常テキスト領域を検出し、theninpaintします。
Inverse STR (ISTR) を検証し,2値分類におけるSTR処理画像と焦点を解析する。
論文 参考訳(メタデータ) (2025-06-26T04:32:35Z) - TextSSR: Diffusion-based Data Synthesis for Scene Text Recognition [19.566553192778525]
シーンテキスト認識(STR)は、現実的でない合成トレーニングデータや、十分な実世界のデータを集めることの難しさに悩まされている。
テキスト認識訓練データを合成するための新しいパイプラインであるTextSSRを紹介する。
位置グリフ強調による領域中心のテキスト生成により精度を向上する。
周囲のテキストや背景からの文脈的ヒントを用いて、スタイルや外観生成を導くことでリアリズムを維持する。
論文 参考訳(メタデータ) (2024-12-02T05:26:25Z) - EAFormer: Scene Text Segmentation with Edge-Aware Transformers [56.15069996649572]
シーンテキストセグメンテーションは、通常、生成モデルがテキストの編集や削除を支援するために使用されるシーンイメージからテキストを抽出することを目的としている。
本稿では,特にテキストのエッジにおいて,テキストをより正確にセグメント化するためのエッジ対応変換器EAFormerを提案する。
論文 参考訳(メタデータ) (2024-07-24T06:00:33Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - Directional Texture Editing for 3D Models [51.31499400557996]
ITEM3D は textbf3D オブジェクトの自動編集のために設計されている。
拡散モデルと微分可能レンダリングを活用して、ITEM3Dはレンダリングされた画像をテキストと3D表現のブリッジとして取り込む。
論文 参考訳(メタデータ) (2023-09-26T12:01:13Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - CORE-Text: Improving Scene Text Detection with Contrastive Relational
Reasoning [65.57338873921168]
自然界におけるテキストインスタンスのローカライズは、コンピュータビジョンにおける根本的な課題であると考えられている。
本研究では,サブテキスト問題を定量的に解析し,シンプルで効果的な設計であるContrastive Relation(CORE)モジュールを提案する。
我々は、COREモジュールをMask R-CNNの2段階テキスト検出器に統合し、テキスト検出器CORE-Textを考案する。
論文 参考訳(メタデータ) (2021-12-14T16:22:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。