Fugu-MT 論文翻訳(概要): Text2Pos: Text-to-Point-Cloud Cross-Modal Localization

論文の概要: Text2Pos: Text-to-Point-Cloud Cross-Modal Localization

arxiv url: http://arxiv.org/abs/2203.15125v1
Date: Mon, 28 Mar 2022 22:06:00 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-30 12:22:36.381504
Title: Text2Pos: Text-to-Point-Cloud Cross-Modal Localization
Title（参考訳）: Text2Pos: Text-to-Point-Cloudクロスモーダルローカライゼーション
Authors: Manuel Kolmet, Qunjie Zhou, Aljosa Osep, Laura Leal-Taixe
Abstract要約: モーダルなテキスト・ツー・ポイント・クラウドのローカライゼーションにより、車両のピックアップや配送の場所を指定できます。本研究では,テキスト記述と局所化キューを粗い方法で整列する手法を学習するマルチモーダルなローカライゼーションモジュールであるText2Posを提案する。実験の結果,テキストクエリの65%を15m以内でローカライズできることがわかった。
参考スコア（独自算出の注目度）: 12.984256838490795
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Natural language-based communication with mobile devices and home appliances is becoming increasingly popular and has the potential to become natural for communicating with mobile robots in the future. Towards this goal, we investigate cross-modal text-to-point-cloud localization that will allow us to specify, for example, a vehicle pick-up or goods delivery location. In particular, we propose Text2Pos, a cross-modal localization module that learns to align textual descriptions with localization cues in a coarse- to-fine manner. Given a point cloud of the environment, Text2Pos locates a position that is specified via a natural language-based description of the immediate surroundings. To train Text2Pos and study its performance, we construct KITTI360Pose, the first dataset for this task based on the recently introduced KITTI360 dataset. Our experiments show that we can localize 65% of textual queries within 15m distance to query locations for top-10 retrieved locations. This is a starting point that we hope will spark future developments towards language-based navigation.
Abstract（参考訳）: モバイル機器や家電機器との自然言語によるコミュニケーションがますます普及し、将来モバイルロボットとのコミュニケーションが自然になる可能性がある。この目的に向けて,車両のピックアップや商品の配送場所などの指定が可能な,クロスモーダルなテキストからポイント・クラウドへのローカライズについて検討する。特に,テキスト記述と局所化キューとの整合性を粗い方法で学習するクロスモーダルなローカライゼーションモジュールであるText2Posを提案する。環境の点雲が与えられたとき、Text2Posは自然言語ベースの環境記述を通じて指定された位置を特定する。 Text2Posをトレーニングし、その性能を研究するために、最近導入されたKITTI360データセットに基づいて、このタスクのための最初のデータセットであるKITTI360Poseを構築した。実験の結果,テキストクエリの65%を15m距離でローカライズできることが分かった。これは言語ベースのナビゲーションに向けた今後の発展を期待する出発点です。

関連論文リスト

TextInPlace: Indoor Visual Place Recognition in Repetitive Structures with Scene Text Spotting and Verification [6.113831719528347]
TextInPlaceは、Scene Text Spotting(STS)を統合して、反復的な屋内環境における視覚的知覚のあいまいさを軽減するフレームワークである。現在のテキストベースの反復屋内シーンデータセットと、ロボットナビゲーションで遭遇する典型的なシナリオとのギャップを埋めるため、屋内ビジュアルプレイス認識ベンチマークデータセットを構築した。
論文参考訳（メタデータ） (2025-03-09T08:03:41Z)
Bridging Text and Vision: A Multi-View Text-Vision Registration Approach for Cross-Modal Place Recognition [4.562684361220731]
位置認識タスクのためのテキストビジョン登録手法であるText4VPRを提案する。 Text4VPRは、画像のデータベースにマッチするテキスト記述のみを利用する。私たちが作成したVPRデータセットをイメージする最初のテキストであるStreet360Locでは、Text4VPRが堅牢なベースラインを構築し、トップ1の精度が57%、トップ10の精度がテストセットの半径5m以内で92%に達した。
論文参考訳（メタデータ） (2025-02-20T02:00:02Z)
Where am I? Cross-View Geo-localization with Natural Language Descriptions [19.041103952139178]
クロスビュージオローカライゼーションは、ジオタグ付き衛星画像やOSMとマッチングすることで、ストリートビュー画像の位置を特定する。本稿では,シーンテキスト記述に基づいて,対応する衛星画像やOSMデータベースを検索することを目的とした,自然言語記述を用いたクロスビュージオローカライズのための新しいタスクを提案する。
論文参考訳（メタデータ） (2024-12-22T13:13:10Z)
Dataset and Benchmark for Urdu Natural Scenes Text Detection, Recognition and Visual Question Answering [50.52792174648067]
このイニシアチブは、テキストと視覚的理解のギャップを埋めようとしている。そこで本研究では,1000以上の自然シーン画像からなるマルチタスクUrduシーンテキストデータセットを提案する。テキストインスタンスの細かいアノテーションを提供し、以前のデータセットの制限に対処します。
論文参考訳（メタデータ） (2024-05-21T06:48:26Z)
Instance-free Text to Point Cloud Localization with Relative Position Awareness [37.22900045434484]
テキスト・ツー・ポイント・クラウドクロスモーダル・ローカライゼーションは、未来のロボットと人間のコラボレーションにとって重要な視覚言語タスクである。既存のアプローチの2つの重要な制限に対処する: 1) 地中実例への依存を入力とし、2) 潜在事例間の相対的な位置を無視する。提案モデルは,テキストセル検索のための粗いステージと位置推定のための微細なステージを含む,2段階のパイプラインに従う。
論文参考訳（メタデータ） (2024-04-27T09:46:49Z)
Text2Loc: 3D Point Cloud Localization from Natural Language [49.01851743372889]
我々は,いくつかの言語学的記述に基づく3次元点群局所化の問題に取り組む。我々は,ポイントとテキスト間の意味的関係を完全に解釈する新しいニューラルネットワークText2Locを導入する。 Text2Locは、KITTI360Poseデータセットの最先端技術に対して最大2倍のローカライゼーション精度を向上する。
論文参考訳（メタデータ） (2023-11-27T16:23:01Z)
Towards Natural Language-Guided Drones: GeoText-1652 Benchmark with Spatial Relation Matching [60.645802236700035]
自然言語コマンドを通じてドローンをナビゲートすることは、アクセス可能なマルチモーダルデータセットが不足しているため、依然として難しい。我々は新しい自然言語誘導ジオローカライゼーションベンチマークGeoText-1652を紹介する。このデータセットは、インタラクティブなヒューマンコンピュータプロセスを通じて体系的に構築される。
論文参考訳（メタデータ） (2023-11-21T17:52:30Z)
TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。 TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文参考訳（メタデータ） (2023-06-06T03:37:41Z)
Text to Point Cloud Localization with Relation-Enhanced Transformer [14.635206837740231]
テキスト・ツー・ポイント・クラウドのクロスモーダルなローカライゼーション問題に焦点をあてる。都市スケールの点雲から記述された場所を特定することを目的としている。本稿では,表現の識別性を改善するために,RET(Relation-Enhanced Transformer)を提案する。
論文参考訳（メタデータ） (2023-01-13T02:58:49Z)
DORi: Discovering Object Relationship for Moment Localization of a Natural-Language Query in Video [98.54696229182335]
本研究では,自然言語クエリを用いて,時間的モーメントローカライゼーションの課題について検討する。私たちの重要なイノベーションは、言語で条件付きメッセージパッシングアルゴリズムを通じて、ビデオ機能の埋め込みを学ぶことです。時間的なサブグラフは、時間を通してビデオ内のアクティビティをキャプチャする。
論文参考訳（メタデータ） (2020-10-13T09:50:29Z)
Language Guided Networks for Cross-modal Moment Retrieval [66.49445903955777]
モーダルモーダルモーメント検索は、自然言語クエリによって記述された未編集ビデオから時間セグメントをローカライズすることを目的としている。既存の手法は、ビデオや文の特徴を独立して抽出する。本稿では,言語ガイドネットワーク(LGN, Language Guided Networks)について紹介する。
論文参考訳（メタデータ） (2020-06-18T12:08:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。