Fugu-MT 論文翻訳(概要): TextSLAM: Visual SLAM with Semantic Planar Text Features

論文の概要: TextSLAM: Visual SLAM with Semantic Planar Text Features

arxiv url: http://arxiv.org/abs/2305.10029v1
Date: Wed, 17 May 2023 08:16:26 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-18 16:55:13.221553
Title: TextSLAM: Visual SLAM with Semantic Planar Text Features
Title（参考訳）: TextSLAM: セマンティックな平面テキスト機能を備えたビジュアルSLAM
Authors: Boying Li, Danping Zou, Yuan Huang, Xinghan Niu, Ling Pei, Wenxian Yu
Abstract要約: 本稿では,テキストオブジェクトをセマンティックな特徴として扱うことによって,テキストオブジェクトを密に統合する新しいビジュアルSLAM法を提案する。地上の真理データを用いて様々な場面で本手法を検証した。その結果、テクスチャ機能の統合により、日夜の画像にマッチするSLAMシステムがより優れていることがわかった。
参考スコア（独自算出の注目度）: 8.8100408194584
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose a novel visual SLAM method that integrates text objects tightly by treating them as semantic features via fully exploring their geometric and semantic prior. The text object is modeled as a texture-rich planar patch whose semantic meaning is extracted and updated on the fly for better data association. With the full exploration of locally planar characteristics and semantic meaning of text objects, the SLAM system becomes more accurate and robust even under challenging conditions such as image blurring, large viewpoint changes, and significant illumination variations (day and night). We tested our method in various scenes with the ground truth data. The results show that integrating texture features leads to a more superior SLAM system that can match images across day and night. The reconstructed semantic 3D text map could be useful for navigation and scene understanding in robotic and mixed reality applications. Our project page: https://github.com/SJTU-ViSYS/TextSLAM .
Abstract（参考訳）: 本稿では,テキストオブジェクトを意味的特徴として扱うことによって,テキストオブジェクトを密に統合する新しい視覚SLAM手法を提案する。テキストオブジェクトはテクスチャリッチな平面パッチとしてモデル化され、セマンティックな意味が抽出され、リアルタイムで更新され、データアソシエーションが向上する。テキストオブジェクトの局所的な平面的特徴と意味的意味の完全な探索により、SLAMシステムは、画像のぼやけ、大きな視点の変化、重要な照明変化(昼夜)といった困難な条件下でも、より正確で堅牢になる。地上真理データを用いて様々な場面で実験を行った。その結果,テクスチャ機能を統合することで,日夜の画像にマッチするSLAMシステムを実現することができた。再構成されたセマンティック3dテキストマップは、ロボットと混合現実アプリケーションにおけるナビゲーションとシーン理解に有用である。プロジェクトページ:https://github.com/SJTU-ViSYS/TextSLAM。

関連論文リスト

LIGHT: Multi-Modal Text Linking on Historical Maps [1.8399976559754367]
光は、歴史的地図上のテキストをリンクするための言語的、画像的、幾何学的特徴を統合する、新しいマルチモーダルアプローチである。 ICDAR 2024/2025 MapTextコンペティションのデータでは、既存のメソッドよりも優れています。
論文参考訳（メタデータ） (2025-06-27T19:18:00Z)
LEG-SLAM: Real-Time Language-Enhanced Gaussian Splatting for SLAM [0.0]
LEG-SLAMは、最適化されたガウススプラッティング実装と視覚言語の特徴抽出を融合した新しいアプローチである。提案手法は,高品質なフォトリアリスティック画像とセマンティックラベル付きシーンマップを同時に生成する。自律型ロボティクス、拡張現実、その他の対話型ドメインへの潜在的な応用により、LEG-SLAMはリアルタイムなセマンティック3DガウスベースのSLAMにおける重要な一歩である。
論文参考訳（メタデータ） (2025-06-03T16:51:59Z)
TriTex: Learning Texture from a Single Mesh via Triplane Semantic Features [78.13246375582906]
本研究では,1つのテクスチャメッシュから体積テクスチャ場を学習し,セマンティックな特徴を対象色にマッピングする手法を提案する。本手法は,ゲーム開発などのアプリケーションにおいて,3次元モデル間で優れたテクスチャ品質を実現する。
論文参考訳（メタデータ） (2025-03-20T18:35:03Z)
vS-Graphs: Integrating Visual SLAM and Situational Graphs through Multi-level Scene Understanding [0.0]
本稿では,新しいリアルタイムVSLAMフレームワークであるビジュアルSグラフ(vS-Graphs)を紹介する。視覚に基づくシーン理解と地図再構成と理解可能なグラフベース表現を統合している。標準ベンチマークと実世界のデータセットの実験は、vS-Graphsが最先端のVSLAMメソッドより優れていることを示した。
論文参考訳（メタデータ） (2025-03-03T18:15:11Z)
PanoSLAM: Panoptic 3D Scene Reconstruction via Gaussian SLAM [105.01907579424362]
PanoSLAMは、幾何学的再構成、3Dセマンティックセマンティックセマンティクス、3Dインスタンスセマンティクスを統合フレームワークに統合する最初のSLAMシステムである。初めて、RGB-Dビデオから直接、オープンワールド環境のパノプティカル3D再構成を実現する。
論文参考訳（メタデータ） (2024-12-31T08:58:10Z)
Textured Mesh Saliency: Bridging Geometry and Texture for Human Perception in 3D Graphics [50.23625950905638]
6自由度(6-DOF)VR環境下での革新的な視線追跡実験により構築したテクスチャメッシュ・サリエンシのための新しいデータセットを提案する。本モデルでは,各三角形の面を個々の単位として扱い,各局所表面領域の重要性を反映した塩分濃度値を割り当てることで,テクスチャメッシュ表面の塩分濃度マップを推定する。
論文参考訳（メタデータ） (2024-12-11T08:27:33Z)
Hi-SLAM: Scaling-up Semantics in SLAM with a Hierarchically Categorical Gaussian Splatting [28.821276113559346]
Hi-SLAMは、新しい階層的分類表現を特徴とするセマンティックな3次元ガウススプラッティングSLAM法である。正確なグローバルな3Dセマンティックマッピング、スケールアップ機能、および3D世界での明示的なセマンティックラベル予測を可能にする。
論文参考訳（メタデータ） (2024-09-19T07:18:41Z)
HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting [53.6394928681237]
RGB画像に基づく都市景観の全体的理解は、難しいが重要な問題である。我々の主な考え方は、静的な3Dガウスと動的なガウスの組合せを用いた幾何学、外観、意味論、運動の合同最適化である。提案手法は,2次元および3次元のセマンティック情報を高精度に生成し,新たな視点をリアルタイムに描画する機能を提供する。
論文参考訳（メタデータ） (2024-03-19T13:39:05Z)
TextureDreamer: Image-guided Texture Synthesis through Geometry-aware Diffusion [64.49276500129092]
TextureDreamerは画像誘導型テクスチャ合成法である。少数の入力画像から任意のカテゴリでターゲットの3D形状に光沢のあるテクスチャを転送することができる。
論文参考訳（メタデータ） (2024-01-17T18:55:49Z)
DNS SLAM: Dense Neural Semantic-Informed SLAM [92.39687553022605]
DNS SLAMは、ハイブリッド表現を備えた新しいRGB-DセマンティックSLAMアプローチである。本手法は画像に基づく特徴抽出と多視点幾何制約を統合し,外観の細部を改良する。実験により, 合成データと実世界のデータ追跡の両面において, 最先端の性能が得られた。
論文参考訳（メタデータ） (2023-11-30T21:34:44Z)
Directional Texture Editing for 3D Models [51.31499400557996]
ITEM3D は textbf3D オブジェクトの自動編集のために設計されている。拡散モデルと微分可能レンダリングを活用して、ITEM3Dはレンダリングされた画像をテキストと3D表現のブリッジとして取り込む。
論文参考訳（メタデータ） (2023-09-26T12:01:13Z)
TANGO: Text-driven Photorealistic and Robust 3D Stylization via Lighting Decomposition [39.312567993736025]
本稿では,テキストのプロンプトに従って,与えられた3次元形状の外観スタイルをフォトリアリスティックな方法で転送するタンゴを提案する。 TANGOは,低品質メッシュのスタイリングにおいて,フォトリアリスティックな品質,3次元幾何の整合性,ロバスト性の観点から,既存のテキスト駆動型3Dスタイル転送法よりも優れていることを示す。
論文参考訳（メタデータ） (2022-10-20T13:52:18Z)
Semantic Visual Simultaneous Localization and Mapping: A Survey [18.372996585079235]
本稿ではまず, セマンティックvSLAMの開発について概観し, その強みと相違点に着目する。次に、意味情報の抽出と関連付け、意味情報の応用、意味vSLAMの利点の3つについて検討する。最後に,セマンティックvSLAMの今後の発展に向けた青写真を提供する今後の方向性について論じる。
論文参考訳（メタデータ） (2022-09-14T05:45:26Z)
Zero-Shot Text-Guided Object Generation with Dream Fields [111.06026544180398]
ニューラルレンダリングとマルチモーダル画像とテキスト表現を組み合わせることで、多様な3Dオブジェクトを合成する。提案手法であるドリームフィールドは,3次元の監督なしに広範囲の物体の形状と色を生成できる。実験では、ドリーム・フィールズ(Dream Fields)は、様々な自然言語のキャプションから、現実的で多視点で一貫したオブジェクトの幾何学と色を作り出す。
論文参考訳（メタデータ） (2021-12-02T17:53:55Z)
SSC: Semantic Scan Context for Large-Scale Place Recognition [13.228580954956342]
我々は、記述子の表現能力を向上させるために、高レベルの機能、すなわち意味論の利用について検討する。本稿では,シーンをより効果的に表現するための意味情報を探る,新しいグローバルな記述子Semantic Scan Contextを提案する。我々の手法は最先端の手法よりも大きなマージンで優れている。
論文参考訳（メタデータ） (2021-07-01T11:51:19Z)
TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。 StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文参考訳（メタデータ） (2020-12-06T16:20:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。