論文の概要: Cross-view Self-localization from Synthesized Scene-graphs
- arxiv url: http://arxiv.org/abs/2310.15504v1
- Date: Tue, 24 Oct 2023 04:16:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 20:43:52.159317
- Title: Cross-view Self-localization from Synthesized Scene-graphs
- Title(参考訳): 合成シーングラフからのクロスビュー自己ローカライゼーション
- Authors: Ryogo Yamamoto, Kanji Tanaka
- Abstract要約: クロスビューの自己ローカライゼーションは、スパース視点からデータベースイメージを提供する視覚的場所認識の難解なシナリオである。
生画像から計算したビュー不変外観特徴と合成画像から計算したビュー依存空間意味特徴の利点を組み合わせたハイブリッドシーンモデルを提案する。
- 参考スコア(独自算出の注目度): 1.9580473532948401
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-view self-localization is a challenging scenario of visual place
recognition in which database images are provided from sparse viewpoints.
Recently, an approach for synthesizing database images from unseen viewpoints
using NeRF (Neural Radiance Fields) technology has emerged with impressive
performance. However, synthesized images provided by these techniques are often
of lower quality than the original images, and furthermore they significantly
increase the storage cost of the database. In this study, we explore a new
hybrid scene model that combines the advantages of view-invariant appearance
features computed from raw images and view-dependent spatial-semantic features
computed from synthesized images. These two types of features are then fused
into scene graphs, and compressively learned and recognized by a graph neural
network. The effectiveness of the proposed method was verified using a novel
cross-view self-localization dataset with many unseen views generated using a
photorealistic Habitat simulator.
- Abstract(参考訳): クロスビューの自己ローカライゼーションは、スパース視点からデータベースイメージを提供する視覚的場所認識の難しいシナリオである。
近年,NeRF(Neural Radiance Fields)技術を用いたデータベース画像の合成手法が注目されている。
しかし,これらの手法により得られた合成画像は,原画像よりも品質が低く,データベースの保存コストも著しく向上する。
本研究では、生画像から計算したビュー不変外観特徴と合成画像から計算したビュー依存空間意味特徴の利点を組み合わせた、新しいハイブリッドシーンモデルを提案する。
これら2つの特徴はシーングラフに融合され、グラフニューラルネットワークによって圧縮学習され認識される。
提案手法の有効性は,フォトリアリスティック・ビタット・シミュレータを用いた多数の未確認ビューを含む新しいクロスビュー・セルフローカライズデータセットを用いて検証した。
関連論文リスト
- Sampling for View Synthesis: From Local Light Field Fusion to Neural Radiance Fields and Beyond [27.339452004523082]
局所光電場融合は、サンプルビューの不規則なグリッドから現実的なビュー合成を行うアルゴリズムを提案する。
我々は、最大4000倍のビューを用いて、Nyquistレートビューサンプリングの知覚品質を実現する。
スパースおよび単一画像ビュー合成に関する最近の研究結果のいくつかを再現する。
論文 参考訳(メタデータ) (2024-08-08T16:56:03Z) - Deep Domain Adaptation: A Sim2Real Neural Approach for Improving Eye-Tracking Systems [80.62854148838359]
眼球画像のセグメンテーションは、最終視線推定に大きな影響を及ぼす眼球追跡の重要なステップである。
対象視線画像と合成訓練データとの重なり合いを測定するために,次元還元法を用いている。
提案手法は,シミュレーションと実世界のデータサンプルの相違に対処する際の頑健で,性能が向上する。
論文 参考訳(メタデータ) (2024-03-23T22:32:06Z) - Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。
我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文 参考訳(メタデータ) (2023-04-02T10:25:09Z) - GM-NeRF: Learning Generalizable Model-based Neural Radiance Fields from
Multi-view Images [79.39247661907397]
本稿では,自由視点画像の合成に有効なフレームワークであるGeneralizable Model-based Neural Radiance Fieldsを提案する。
具体的には、多視点2D画像からの出現コードを幾何学的プロキシに登録するための幾何学誘導型アテンション機構を提案する。
論文 参考訳(メタデータ) (2023-03-24T03:32:02Z) - Multi-modal reward for visual relationships-based image captioning [4.354364351426983]
本稿では、画像のシーングラフから抽出した視覚的関係情報を画像の空間的特徴マップに融合させることにより、画像キャプションのためのディープニューラルネットワークアーキテクチャを提案する。
次に、共通埋め込み空間における言語と視覚の類似性の組み合わせを用いて、提案するネットワークの深層強化学習のためにマルチモーダル報酬関数を導入する。
論文 参考訳(メタデータ) (2023-03-19T20:52:44Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - Image Aesthetics Assessment Using Graph Attention Network [17.277954886018353]
画像美学評価のためのグラフニューラルネットワークに基づく2段階のフレームワークを提案する。
まず、入力画像がグラフとしてモデル化され、元のアスペクト比と解像度を維持する特徴グラフ表現を提案する。
次に,この特徴グラフを用いて,視覚的注意を用いて入力画像の異なる領域間の意味的関係をキャプチャするグラフニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-06-26T12:52:46Z) - Two-shot Spatially-varying BRDF and Shape Estimation [89.29020624201708]
形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。
ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。
合成データセットと実世界のデータセットの両方の実験により、合成データセットでトレーニングされたネットワークが、実世界の画像に対してうまく一般化できることが示されている。
論文 参考訳(メタデータ) (2020-04-01T12:56:13Z) - Geometrically Mappable Image Features [85.81073893916414]
地図内のエージェントの視覚に基づくローカライゼーションは、ロボット工学とコンピュータビジョンにおいて重要な問題である。
本稿では,画像検索を対象とした画像特徴学習手法を提案する。
論文 参考訳(メタデータ) (2020-03-21T15:36:38Z) - Contextual Encoder-Decoder Network for Visual Saliency Prediction [42.047816176307066]
本稿では,大規模な画像分類タスクに基づいて事前学習した畳み込みニューラルネットワークに基づくアプローチを提案する。
得られた表現をグローバルなシーン情報と組み合わせて視覚的サリエンシを正確に予測する。
最先端技術と比較して、このネットワークは軽量な画像分類バックボーンに基づいている。
論文 参考訳(メタデータ) (2019-02-18T16:15:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。