論文の概要: Cross-view Self-localization from Synthesized Scene-graphs
- arxiv url: http://arxiv.org/abs/2310.15504v1
- Date: Tue, 24 Oct 2023 04:16:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 20:43:52.159317
- Title: Cross-view Self-localization from Synthesized Scene-graphs
- Title(参考訳): 合成シーングラフからのクロスビュー自己ローカライゼーション
- Authors: Ryogo Yamamoto, Kanji Tanaka
- Abstract要約: クロスビューの自己ローカライゼーションは、スパース視点からデータベースイメージを提供する視覚的場所認識の難解なシナリオである。
生画像から計算したビュー不変外観特徴と合成画像から計算したビュー依存空間意味特徴の利点を組み合わせたハイブリッドシーンモデルを提案する。
- 参考スコア(独自算出の注目度): 1.9580473532948401
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-view self-localization is a challenging scenario of visual place
recognition in which database images are provided from sparse viewpoints.
Recently, an approach for synthesizing database images from unseen viewpoints
using NeRF (Neural Radiance Fields) technology has emerged with impressive
performance. However, synthesized images provided by these techniques are often
of lower quality than the original images, and furthermore they significantly
increase the storage cost of the database. In this study, we explore a new
hybrid scene model that combines the advantages of view-invariant appearance
features computed from raw images and view-dependent spatial-semantic features
computed from synthesized images. These two types of features are then fused
into scene graphs, and compressively learned and recognized by a graph neural
network. The effectiveness of the proposed method was verified using a novel
cross-view self-localization dataset with many unseen views generated using a
photorealistic Habitat simulator.
- Abstract(参考訳): クロスビューの自己ローカライゼーションは、スパース視点からデータベースイメージを提供する視覚的場所認識の難しいシナリオである。
近年,NeRF(Neural Radiance Fields)技術を用いたデータベース画像の合成手法が注目されている。
しかし,これらの手法により得られた合成画像は,原画像よりも品質が低く,データベースの保存コストも著しく向上する。
本研究では、生画像から計算したビュー不変外観特徴と合成画像から計算したビュー依存空間意味特徴の利点を組み合わせた、新しいハイブリッドシーンモデルを提案する。
これら2つの特徴はシーングラフに融合され、グラフニューラルネットワークによって圧縮学習され認識される。
提案手法の有効性は,フォトリアリスティック・ビタット・シミュレータを用いた多数の未確認ビューを含む新しいクロスビュー・セルフローカライズデータセットを用いて検証した。
関連論文リスト
- GM-NeRF: Learning Generalizable Model-based Neural Radiance Fields from
Multi-view Images [79.39247661907397]
本稿では,自由視点画像の合成に有効なフレームワークであるGeneralizable Model-based Neural Radiance Fieldsを提案する。
具体的には、多視点2D画像からの出現コードを幾何学的プロキシに登録するための幾何学誘導型アテンション機構を提案する。
論文 参考訳(メタデータ) (2023-03-24T03:32:02Z) - Multi-modal reward for visual relationships-based image captioning [4.354364351426983]
本稿では、画像のシーングラフから抽出した視覚的関係情報を画像の空間的特徴マップに融合させることにより、画像キャプションのためのディープニューラルネットワークアーキテクチャを提案する。
次に、共通埋め込み空間における言語と視覚の類似性の組み合わせを用いて、提案するネットワークの深層強化学習のためにマルチモーダル報酬関数を導入する。
論文 参考訳(メタデータ) (2023-03-19T20:52:44Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - Image Aesthetics Assessment Using Graph Attention Network [17.277954886018353]
画像美学評価のためのグラフニューラルネットワークに基づく2段階のフレームワークを提案する。
まず、入力画像がグラフとしてモデル化され、元のアスペクト比と解像度を維持する特徴グラフ表現を提案する。
次に,この特徴グラフを用いて,視覚的注意を用いて入力画像の異なる領域間の意味的関係をキャプチャするグラフニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-06-26T12:52:46Z) - CrossLoc: Scalable Aerial Localization Assisted by Multimodal Synthetic
Data [2.554905387213586]
本稿では,合成データを用いて実世界のカメラポーズを推定する視覚的位置決めシステムを提案する。
データ不足を緩和するために,汎用な合成データ生成ツールTOPO-DataGenを導入する。
また、ポーズ推定のためのクロスモーダル視覚表現学習手法であるCrossLocを導入する。
論文 参考訳(メタデータ) (2021-12-16T18:05:48Z) - CapsField: Light Field-based Face and Expression Recognition in the Wild
using Capsule Routing [81.21490913108835]
本稿では,畳み込みニューラルネットワークに基づく新しい深層顔・表情認識ソリューションであるCapsFieldを提案する。
提案手法は,最先端技術と比較して,顔および表情認識タスクにおいて優れた性能を実現する。
論文 参考訳(メタデータ) (2021-01-10T09:06:02Z) - Cross-Descriptor Visual Localization and Mapping [81.16435356103133]
視覚のローカライゼーションとマッピングは、Mixed Realityとロボティクスシステムの大部分を支える重要な技術である。
特徴表現の連続的な更新を必要とする局所化とマッピングのための3つの新しいシナリオを提案する。
我々のデータ駆動型アプローチは特徴記述子型に非依存であり、計算要求が低く、記述アルゴリズムの数と線形にスケールする。
論文 参考訳(メタデータ) (2020-12-02T18:19:51Z) - City-Scale Visual Place Recognition with Deep Local Features Based on
Multi-Scale Ordered VLAD Pooling [5.274399407597545]
本稿では,コンテンツに基づく画像検索に基づいて,都市規模で位置認識を行うシステムを提案する。
まず,視覚的位置認識の包括的分析を行い,その課題を概観する。
次に,画像表現ベクトルに空間情報を埋め込むために,畳み込み型ニューラルネットワークアクティベーションを用いた単純なプーリング手法を提案する。
論文 参考訳(メタデータ) (2020-09-19T15:21:59Z) - Graph Neural Networks for UnsupervisedDomain Adaptation of
Histopathological ImageAnalytics [22.04114134677181]
組織像解析のための教師なし領域適応のための新しい手法を提案する。
特徴空間に画像を埋め込むバックボーンと、ラベルで画像の監視信号をプロパゲートするグラフニューラルネットワーク層に基づいている。
実験では、4つの公開データセット上での最先端のパフォーマンスを評価する。
論文 参考訳(メタデータ) (2020-08-21T04:53:44Z) - Two-shot Spatially-varying BRDF and Shape Estimation [89.29020624201708]
形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。
ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。
合成データセットと実世界のデータセットの両方の実験により、合成データセットでトレーニングされたネットワークが、実世界の画像に対してうまく一般化できることが示されている。
論文 参考訳(メタデータ) (2020-04-01T12:56:13Z) - Geometrically Mappable Image Features [85.81073893916414]
地図内のエージェントの視覚に基づくローカライゼーションは、ロボット工学とコンピュータビジョンにおいて重要な問題である。
本稿では,画像検索を対象とした画像特徴学習手法を提案する。
論文 参考訳(メタデータ) (2020-03-21T15:36:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。