論文の概要: TextSLAM: Visual SLAM with Semantic Planar Text Features
- arxiv url: http://arxiv.org/abs/2305.10029v2
- Date: Mon, 3 Jul 2023 12:06:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-04 13:25:00.081845
- Title: TextSLAM: Visual SLAM with Semantic Planar Text Features
- Title(参考訳): TextSLAM: セマンティックな平面テキスト機能を備えたビジュアルSLAM
- Authors: Boying Li, Danping Zou, Yuan Huang, Xinghan Niu, Ling Pei, Wenxian Yu
- Abstract要約: 本稿では,テキストオブジェクトをセマンティックな特徴として扱うことによって,テキストオブジェクトを密に統合する新しいビジュアルSLAM法を提案する。
地上の真理データを用いて様々な場面で本手法を検証した。
その結果、テクスチャ機能の統合により、日夜の画像にマッチするSLAMシステムがより優れていることがわかった。
- 参考スコア(独自算出の注目度): 8.8100408194584
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel visual SLAM method that integrates text objects tightly by
treating them as semantic features via fully exploring their geometric and
semantic prior. The text object is modeled as a texture-rich planar patch whose
semantic meaning is extracted and updated on the fly for better data
association. With the full exploration of locally planar characteristics and
semantic meaning of text objects, the SLAM system becomes more accurate and
robust even under challenging conditions such as image blurring, large
viewpoint changes, and significant illumination variations (day and night). We
tested our method in various scenes with the ground truth data. The results
show that integrating texture features leads to a more superior SLAM system
that can match images across day and night. The reconstructed semantic 3D text
map could be useful for navigation and scene understanding in robotic and mixed
reality applications. Our project page: https://github.com/SJTU-ViSYS/TextSLAM .
- Abstract(参考訳): 本稿では,テキストオブジェクトを意味的特徴として扱うことによって,テキストオブジェクトを密に統合する新しい視覚SLAM手法を提案する。
テキストオブジェクトはテクスチャリッチな平面パッチとしてモデル化され、セマンティックな意味が抽出され、リアルタイムで更新され、データアソシエーションが向上する。
テキストオブジェクトの局所的な平面的特徴と意味的意味の完全な探索により、SLAMシステムは、画像のぼやけ、大きな視点の変化、重要な照明変化(昼夜)といった困難な条件下でも、より正確で堅牢になる。
地上真理データを用いて様々な場面で実験を行った。
その結果,テクスチャ機能を統合することで,日夜の画像にマッチするSLAMシステムを実現することができた。
再構成されたセマンティック3dテキストマップは、ロボットと混合現実アプリケーションにおけるナビゲーションとシーン理解に有用である。
プロジェクトページ:https://github.com/SJTU-ViSYS/TextSLAM。
関連論文リスト
- PanoSLAM: Panoptic 3D Scene Reconstruction via Gaussian SLAM [105.01907579424362]
PanoSLAMは、幾何学的再構成、3Dセマンティックセマンティックセマンティクス、3Dインスタンスセマンティクスを統合フレームワークに統合する最初のSLAMシステムである。
初めて、RGB-Dビデオから直接、オープンワールド環境のパノプティカル3D再構成を実現する。
論文 参考訳(メタデータ) (2024-12-31T08:58:10Z) - Textured Mesh Saliency: Bridging Geometry and Texture for Human Perception in 3D Graphics [50.23625950905638]
6自由度(6-DOF)VR環境下での革新的な視線追跡実験により構築したテクスチャメッシュ・サリエンシのための新しいデータセットを提案する。
本モデルでは,各三角形の面を個々の単位として扱い,各局所表面領域の重要性を反映した塩分濃度値を割り当てることで,テクスチャメッシュ表面の塩分濃度マップを推定する。
論文 参考訳(メタデータ) (2024-12-11T08:27:33Z) - Hier-SLAM: Scaling-up Semantics in SLAM with a Hierarchically Categorical Gaussian Splatting [28.821276113559346]
本稿では,新しい階層型分類表現を特徴とする意味論的3次元ガウス分割SLAM法を提案する。
我々のHier-SLAMは、マッピングと追跡の精度の両方で既存の高密度SLAM法より優れており、2倍の動作速度を実現しています。
複雑な現実世界のシーンを500以上のセマンティッククラスで扱う能力を示し、その価値あるスケールアップ機能を強調している。
論文 参考訳(メタデータ) (2024-09-19T07:18:41Z) - TextureDreamer: Image-guided Texture Synthesis through Geometry-aware
Diffusion [64.49276500129092]
TextureDreamerは画像誘導型テクスチャ合成法である。
少数の入力画像から任意のカテゴリでターゲットの3D形状に光沢のあるテクスチャを転送することができる。
論文 参考訳(メタデータ) (2024-01-17T18:55:49Z) - DNS SLAM: Dense Neural Semantic-Informed SLAM [92.39687553022605]
DNS SLAMは、ハイブリッド表現を備えた新しいRGB-DセマンティックSLAMアプローチである。
本手法は画像に基づく特徴抽出と多視点幾何制約を統合し,外観の細部を改良する。
実験により, 合成データと実世界のデータ追跡の両面において, 最先端の性能が得られた。
論文 参考訳(メタデータ) (2023-11-30T21:34:44Z) - Directional Texture Editing for 3D Models [51.31499400557996]
ITEM3D は textbf3D オブジェクトの自動編集のために設計されている。
拡散モデルと微分可能レンダリングを活用して、ITEM3Dはレンダリングされた画像をテキストと3D表現のブリッジとして取り込む。
論文 参考訳(メタデータ) (2023-09-26T12:01:13Z) - Semantic Visual Simultaneous Localization and Mapping: A Survey [18.372996585079235]
本稿ではまず, セマンティックvSLAMの開発について概観し, その強みと相違点に着目する。
次に、意味情報の抽出と関連付け、意味情報の応用、意味vSLAMの利点の3つについて検討する。
最後に,セマンティックvSLAMの今後の発展に向けた青写真を提供する今後の方向性について論じる。
論文 参考訳(メタデータ) (2022-09-14T05:45:26Z) - SSC: Semantic Scan Context for Large-Scale Place Recognition [13.228580954956342]
我々は、記述子の表現能力を向上させるために、高レベルの機能、すなわち意味論の利用について検討する。
本稿では,シーンをより効果的に表現するための意味情報を探る,新しいグローバルな記述子Semantic Scan Contextを提案する。
我々の手法は最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2021-07-01T11:51:19Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。