論文の概要: TextSplat: Text-Guided Semantic Fusion for Generalizable Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2504.09588v1
- Date: Sun, 13 Apr 2025 14:14:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:54:54.969840
- Title: TextSplat: Text-Guided Semantic Fusion for Generalizable Gaussian Splatting
- Title(参考訳): TextSplat: 一般化可能なガウス分割のためのテキストガイドセマンティックフュージョン
- Authors: Zhicong Wu, Hongbin Xu, Gang Xu, Ping Nie, Zhixin Yan, Jinkai Zheng, Liangqiong Qu, Ming Li, Liqiang Nie,
- Abstract要約: 一般化可能なガウススプラッティングは、スパース入力ビューから頑健な3次元再構成を可能にした。
テキスト駆動型ジェネリックライザブルガウシアンスティングフレームワークであるTextSplatを提案する。
- 参考スコア(独自算出の注目度): 46.753153357441505
- License:
- Abstract: Recent advancements in Generalizable Gaussian Splatting have enabled robust 3D reconstruction from sparse input views by utilizing feed-forward Gaussian Splatting models, achieving superior cross-scene generalization. However, while many methods focus on geometric consistency, they often neglect the potential of text-driven guidance to enhance semantic understanding, which is crucial for accurately reconstructing fine-grained details in complex scenes. To address this limitation, we propose TextSplat--the first text-driven Generalizable Gaussian Splatting framework. By employing a text-guided fusion of diverse semantic cues, our framework learns robust cross-modal feature representations that improve the alignment of geometric and semantic information, producing high-fidelity 3D reconstructions. Specifically, our framework employs three parallel modules to obtain complementary representations: the Diffusion Prior Depth Estimator for accurate depth information, the Semantic Aware Segmentation Network for detailed semantic information, and the Multi-View Interaction Network for refined cross-view features. Then, in the Text-Guided Semantic Fusion Module, these representations are integrated via the text-guided and attention-based feature aggregation mechanism, resulting in enhanced 3D Gaussian parameters enriched with detailed semantic cues. Experimental results on various benchmark datasets demonstrate improved performance compared to existing methods across multiple evaluation metrics, validating the effectiveness of our framework. The code will be publicly available.
- Abstract(参考訳): 一般化可能なガウススプラッティングの最近の進歩は、フィードフォワードガウススプラッティングモデルを利用して、スパース入力ビューからの堅牢な3次元再構成を可能にし、より優れたクロスシーン一般化を実現している。
しかし、多くの手法は幾何整合性に重点を置いているが、複雑な場面で微細な細部を正確に再構築するために重要な意味理解を強化するために、テキスト駆動による指導の可能性を無視していることが多い。
この制限に対処するため,テキスト駆動型ジェネリックライザブルガウススティングフレームワークであるTextSplatを提案する。
本フレームワークでは,テキスト誘導による多様な意味的手がかりの融合を利用して,幾何学的・意味的情報の整合性を向上し,高忠実度な3D再構成を実現する,頑健なクロスモーダル特徴表現を学習する。
具体的には,高精度な深度情報のための拡散事前深度推定器,詳細な意味情報のためのセマンティック・アウェア・セグメンテーション・ネットワーク,洗練されたクロスビュー機能のためのマルチビューインタラクション・ネットワークの3つの並列モジュールを用いた。
そして、テキストガイドセマンティックフュージョンモジュールにおいて、これらの表現は、テキストガイドと注意に基づく特徴集約機構を介して統合され、3Dガウスパラメータが強化され、詳細なセマンティックキューが強化される。
各種ベンチマークデータセットによる実験結果から, 既存の手法と比較して, 複数の評価指標による性能向上が示され, フレームワークの有効性が検証された。
コードは公開されます。
関連論文リスト
- Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - Focus on Neighbors and Know the Whole: Towards Consistent Dense Multiview Text-to-Image Generator for 3D Creation [64.07560335451723]
CoSERは、テキストから3Dへの一貫した高密度テキスト・ツー・イメージ・ジェネレータである。
隣人のビューコヒーレンスを巧みに学習することで効率と品質を両立させる。
物理原理によって明確に定義された運動経路に沿って情報を集約し、詳細を洗練させる。
論文 参考訳(メタデータ) (2024-08-23T15:16:01Z) - Neural Sequence-to-Sequence Modeling with Attention by Leveraging Deep Learning Architectures for Enhanced Contextual Understanding in Abstractive Text Summarization [0.0]
本稿では,単一文書の抽象TSのための新しいフレームワークを提案する。
構造、セマンティック、およびニューラルベースアプローチの3つの主要な側面を統合している。
その結果, 希少語, OOV語処理の大幅な改善が示唆された。
論文 参考訳(メタデータ) (2024-04-08T18:33:59Z) - SeCG: Semantic-Enhanced 3D Visual Grounding via Cross-modal Graph
Attention [19.23636231942245]
設計したメモリグラフアテンション層を用いたグラフネットワークに基づくセマンティック・エンハンスド・リレーショナル学習モデルを提案する。
本手法は,従来の言語に依存しないエンコーディングを,視覚解析におけるクロスモーダルエンコーディングに置き換える。
ReferIt3D と ScanRefer のベンチマーク実験の結果,提案手法は既存の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-03-13T02:11:04Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Similarity-Aware Fusion Network for 3D Semantic Segmentation [87.51314162700315]
本研究では,3次元セマンティックセグメンテーションのための2次元画像と3次元点雲を適応的に融合する類似性認識融合ネットワーク(SAFNet)を提案する。
我々は、入力とバックプロジェクションされた(2Dピクセルから)点雲の間の幾何学的および文脈的類似性を初めて学習する、後期融合戦略を採用している。
SAFNetは、様々なデータ完全性にまたがって、既存の最先端の核融合ベースのアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2021-07-04T09:28:18Z) - DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。
また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。
現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文 参考訳(メタデータ) (2020-08-13T12:51:17Z) - Text Segmentation by Cross Segment Attention [2.525236250247906]
文書と談話のセグメンテーションは、テキストを構成要素に分割する2つの基本的なNLPタスクである。
我々は新しい最先端技術を確立し、特にすべてのケースにおいてエラー率を大きなマージンで削減する。
論文 参考訳(メタデータ) (2020-04-30T01:36:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。