論文の概要: TextSLAM: Visual SLAM with Semantic Planar Text Features
- arxiv url: http://arxiv.org/abs/2305.10029v1
- Date: Wed, 17 May 2023 08:16:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-18 16:55:13.221553
- Title: TextSLAM: Visual SLAM with Semantic Planar Text Features
- Title(参考訳): TextSLAM: セマンティックな平面テキスト機能を備えたビジュアルSLAM
- Authors: Boying Li, Danping Zou, Yuan Huang, Xinghan Niu, Ling Pei, Wenxian Yu
- Abstract要約: 本稿では,テキストオブジェクトをセマンティックな特徴として扱うことによって,テキストオブジェクトを密に統合する新しいビジュアルSLAM法を提案する。
地上の真理データを用いて様々な場面で本手法を検証した。
その結果、テクスチャ機能の統合により、日夜の画像にマッチするSLAMシステムがより優れていることがわかった。
- 参考スコア(独自算出の注目度): 8.8100408194584
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel visual SLAM method that integrates text objects tightly by
treating them as semantic features via fully exploring their geometric and
semantic prior. The text object is modeled as a texture-rich planar patch whose
semantic meaning is extracted and updated on the fly for better data
association. With the full exploration of locally planar characteristics and
semantic meaning of text objects, the SLAM system becomes more accurate and
robust even under challenging conditions such as image blurring, large
viewpoint changes, and significant illumination variations (day and night). We
tested our method in various scenes with the ground truth data. The results
show that integrating texture features leads to a more superior SLAM system
that can match images across day and night. The reconstructed semantic 3D text
map could be useful for navigation and scene understanding in robotic and mixed
reality applications. Our project page: https://github.com/SJTU-ViSYS/TextSLAM .
- Abstract(参考訳): 本稿では,テキストオブジェクトを意味的特徴として扱うことによって,テキストオブジェクトを密に統合する新しい視覚SLAM手法を提案する。
テキストオブジェクトはテクスチャリッチな平面パッチとしてモデル化され、セマンティックな意味が抽出され、リアルタイムで更新され、データアソシエーションが向上する。
テキストオブジェクトの局所的な平面的特徴と意味的意味の完全な探索により、SLAMシステムは、画像のぼやけ、大きな視点の変化、重要な照明変化(昼夜)といった困難な条件下でも、より正確で堅牢になる。
地上真理データを用いて様々な場面で実験を行った。
その結果,テクスチャ機能を統合することで,日夜の画像にマッチするSLAMシステムを実現することができた。
再構成されたセマンティック3dテキストマップは、ロボットと混合現実アプリケーションにおけるナビゲーションとシーン理解に有用である。
プロジェクトページ:https://github.com/SJTU-ViSYS/TextSLAM。
関連論文リスト
- Hi-SLAM: Scaling-up Semantics in SLAM with a Hierarchically Categorical Gaussian Splatting [28.821276113559346]
Hi-SLAMは、新しい階層的分類表現を特徴とするセマンティックな3次元ガウススプラッティングSLAM法である。
正確なグローバルな3Dセマンティックマッピング、スケールアップ機能、および3D世界での明示的なセマンティックラベル予測を可能にする。
論文 参考訳(メタデータ) (2024-09-19T07:18:41Z) - HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting [53.6394928681237]
RGB画像に基づく都市景観の全体的理解は、難しいが重要な問題である。
我々の主な考え方は、静的な3Dガウスと動的なガウスの組合せを用いた幾何学、外観、意味論、運動の合同最適化である。
提案手法は,2次元および3次元のセマンティック情報を高精度に生成し,新たな視点をリアルタイムに描画する機能を提供する。
論文 参考訳(メタデータ) (2024-03-19T13:39:05Z) - TextureDreamer: Image-guided Texture Synthesis through Geometry-aware
Diffusion [64.49276500129092]
TextureDreamerは画像誘導型テクスチャ合成法である。
少数の入力画像から任意のカテゴリでターゲットの3D形状に光沢のあるテクスチャを転送することができる。
論文 参考訳(メタデータ) (2024-01-17T18:55:49Z) - DNS SLAM: Dense Neural Semantic-Informed SLAM [92.39687553022605]
DNS SLAMは、ハイブリッド表現を備えた新しいRGB-DセマンティックSLAMアプローチである。
本手法は画像に基づく特徴抽出と多視点幾何制約を統合し,外観の細部を改良する。
実験により, 合成データと実世界のデータ追跡の両面において, 最先端の性能が得られた。
論文 参考訳(メタデータ) (2023-11-30T21:34:44Z) - Directional Texture Editing for 3D Models [51.31499400557996]
ITEM3D は textbf3D オブジェクトの自動編集のために設計されている。
拡散モデルと微分可能レンダリングを活用して、ITEM3Dはレンダリングされた画像をテキストと3D表現のブリッジとして取り込む。
論文 参考訳(メタデータ) (2023-09-26T12:01:13Z) - TANGO: Text-driven Photorealistic and Robust 3D Stylization via Lighting
Decomposition [39.312567993736025]
本稿では,テキストのプロンプトに従って,与えられた3次元形状の外観スタイルをフォトリアリスティックな方法で転送するタンゴを提案する。
TANGOは,低品質メッシュのスタイリングにおいて,フォトリアリスティックな品質,3次元幾何の整合性,ロバスト性の観点から,既存のテキスト駆動型3Dスタイル転送法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-20T13:52:18Z) - Semantic Visual Simultaneous Localization and Mapping: A Survey [18.372996585079235]
本稿ではまず, セマンティックvSLAMの開発について概観し, その強みと相違点に着目する。
次に、意味情報の抽出と関連付け、意味情報の応用、意味vSLAMの利点の3つについて検討する。
最後に,セマンティックvSLAMの今後の発展に向けた青写真を提供する今後の方向性について論じる。
論文 参考訳(メタデータ) (2022-09-14T05:45:26Z) - Zero-Shot Text-Guided Object Generation with Dream Fields [111.06026544180398]
ニューラルレンダリングとマルチモーダル画像とテキスト表現を組み合わせることで、多様な3Dオブジェクトを合成する。
提案手法であるドリームフィールドは,3次元の監督なしに広範囲の物体の形状と色を生成できる。
実験では、ドリーム・フィールズ(Dream Fields)は、様々な自然言語のキャプションから、現実的で多視点で一貫したオブジェクトの幾何学と色を作り出す。
論文 参考訳(メタデータ) (2021-12-02T17:53:55Z) - SSC: Semantic Scan Context for Large-Scale Place Recognition [13.228580954956342]
我々は、記述子の表現能力を向上させるために、高レベルの機能、すなわち意味論の利用について検討する。
本稿では,シーンをより効果的に表現するための意味情報を探る,新しいグローバルな記述子Semantic Scan Contextを提案する。
我々の手法は最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2021-07-01T11:51:19Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。