論文の概要: VioLA: Aligning Videos to 2D LiDAR Scans
- arxiv url: http://arxiv.org/abs/2311.04783v1
- Date: Wed, 8 Nov 2023 16:01:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 15:09:04.495271
- Title: VioLA: Aligning Videos to 2D LiDAR Scans
- Title(参考訳): VioLA:2D LiDARカメラで動画を撮る
- Authors: Jun-Jee Chao, Selim Engin, Nikhil Chavan-Dafle, Bhoram Lee, and Volkan
Isler
- Abstract要約: 本研究では,環境の局所的な部分を捉えた映像を,環境全体の2次元LiDARスキャンに整列させる問題について検討する。
画像シーケンスからローカルシーンのセマンティックマップを構築することから始まり、LiDARマップに登録するための固定高さの点を抽出する手法を提案する。
VioLAを実世界のRGB-Dベンチマークと大規模オフィスシーンの自己キャプチャデータセットで評価した。
- 参考スコア(独自算出の注目度): 25.816390449633115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of aligning a video that captures a local portion of an
environment to the 2D LiDAR scan of the entire environment. We introduce a
method (VioLA) that starts with building a semantic map of the local scene from
the image sequence, then extracts points at a fixed height for registering to
the LiDAR map. Due to reconstruction errors or partial coverage of the camera
scan, the reconstructed semantic map may not contain sufficient information for
registration. To address this problem, VioLA makes use of a pre-trained
text-to-image inpainting model paired with a depth completion model for filling
in the missing scene content in a geometrically consistent fashion to support
pose registration. We evaluate VioLA on two real-world RGB-D benchmarks, as
well as a self-captured dataset of a large office scene. Notably, our proposed
scene completion module improves the pose registration performance by up to
20%.
- Abstract(参考訳): 本研究では,環境の局所的な部分を捉えた映像を,環境全体の2次元LiDARスキャンに整列させる問題について検討する。
画像シーケンスからローカルシーンのセマンティックマップを構築することから始まり、LiDARマップに登録するための固定高さの点を抽出する手法(VioLA)を提案する。
レコンストラクションエラーやカメラスキャンの部分カバレッジのため、リコンストラクションされたセマンティックマップには登録のための十分な情報が含まれない可能性がある。
この問題に対処するため、violaは事前訓練されたテキストから画像へのインペインティングモデルと、行方不明のシーンコンテンツを幾何的に一貫した方法で埋め込む奥行き補完モデルを組み合わせて、ポーズ登録をサポートする。
VioLAを実世界のRGB-Dベンチマークと大規模オフィスシーンの自己キャプチャデータセットで評価した。
特に,提案するシーン補完モジュールは,ポーズ登録性能を最大20%向上させる。
関連論文リスト
- Maps from Motion (MfM): Generating 2D Semantic Maps from Sparse Multi-view Images [17.992488467380923]
OpenStreetMapは、1100万人の登録ユーザーが手動でGPSの位置情報に157億以上のエントリをアノテートした結果である。
同時に、手動のアノテーションにはエラーが含まれ、更新が遅く、マップの精度が制限される。
動きからのマップ (MfM) は、非校正された多視点画像のコレクションから直接意味オブジェクトの2Dマップを計算することにより、そのような時間を要する地図作成手順を自動化するためのステップである。
論文 参考訳(メタデータ) (2024-11-19T16:27:31Z) - Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - O$^2$-Recon: Completing 3D Reconstruction of Occluded Objects in the Scene with a Pre-trained 2D Diffusion Model [28.372289119872764]
咬合は、RGB-Dビデオからの3D再構成において一般的な問題であり、しばしばオブジェクトの完全な再構成をブロックする。
本研究では,物体の隠れた部分の完全な表面を再構築する2次元拡散に基づくインペインティングモデルを用いて,新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-08-18T14:38:31Z) - SACReg: Scene-Agnostic Coordinate Regression for Visual Localization [16.866303169903237]
本稿では,新しいテストシーンで1回トレーニングされた一般化SCRモデルを提案する。
我々のモデルは、シーン座標をネットワーク重みに符号化する代わりに、スパース2Dピクセルのデータベースイメージを3D座標アノテーションに入力する。
画像のデータベース表現とその2D-3Dアノテーションは,局所化性能を損なうことなく,高度に圧縮できることを示す。
論文 参考訳(メタデータ) (2023-07-21T16:56:36Z) - Lazy Visual Localization via Motion Averaging [89.8709956317671]
本研究では,データベースからシーンを再構築することなく,高精度なローカライゼーションを実現することができることを示す。
実験の結果、我々の視覚的ローカライゼーションの提案であるLazyLocは、最先端の構造に基づく手法に対して同等のパフォーマンスを実現していることがわかった。
論文 参考訳(メタデータ) (2023-07-19T13:40:45Z) - NAVI: Category-Agnostic Image Collections with High-Quality 3D Shape and
Pose Annotations [64.95582364215548]
NAVIは、高品質な3Dスキャンと画像ごとの2D-3Dアライメントを備えたカテゴリに依存しない画像コレクションの新しいデータセットである。
これらの2D-3Dアライメントにより,高密度画素対応,深度,セグメンテーションマップなどの正確な微分アノテーションを抽出できる。
論文 参考訳(メタデータ) (2023-06-15T13:11:30Z) - SGAligner : 3D Scene Alignment with Scene Graphs [84.01002998166145]
3Dシーングラフの構築は、いくつかの具体的AIアプリケーションのためのシーン表現のトピックとして登場した。
オーバーラップ可能な3次元シーングラフのペアをゼロから部分的に整列させるという基本的な問題に着目する。
そこで我々はSGAlignerを提案する。SGAlignerは3次元シーングラフのペアを組合わせるための最初の方法であり、その組込みシナリオに対して堅牢である。
論文 参考訳(メタデータ) (2023-04-28T14:39:22Z) - LASER: LAtent SpacE Rendering for 2D Visual Localization [16.15081513827044]
本稿では,床図上の2次元ポーズ仮説を幾何学的に構造化された潜在空間に直接描画する潜在空間レンダリングの概念を紹介する。
当社のコードブック方式は,機能符号化とレンダリングを効果的に切り離し,遅延空間レンダリングを10KHz以上の速度で実行可能にする。
LASERは大規模屋内ローカライゼーションデータセット上で最先端の性能を達成する。
論文 参考訳(メタデータ) (2022-04-01T01:39:29Z) - Flow-Guided Video Inpainting with Scene Templates [57.12499174362993]
ビデオの時間的欠落領域を埋めることの問題点を考察する。
本研究では、シーンから画像へのマッピングと、シーンに関連する画像生成モデルを導入する。
このモデルを用いて、シーンテンプレート、シーンの2次元表現、マッピングを共同で推論する。
論文 参考訳(メタデータ) (2021-08-29T13:49:13Z) - Memory-Augmented Reinforcement Learning for Image-Goal Navigation [67.3963444878746]
本論文では,クロスエピソードメモリを活用したナビゲーション学習法を提案する。
オーバーフィッティングを避けるため、トレーニング中にRGB入力にデータ拡張を適用することを提案する。
この競合性能はRGB入力のみから得られるが,位置や深度などのセンサは利用できない。
論文 参考訳(メタデータ) (2021-01-13T16:30:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。