論文の概要: Translating Images into Maps
- arxiv url: http://arxiv.org/abs/2110.00966v1
- Date: Sun, 3 Oct 2021 09:52:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-05 15:33:54.105650
- Title: Translating Images into Maps
- Title(参考訳): 画像の地図への変換
- Authors: Avishkar Saha, Oscar Mendez Maldonado, Chris Russell, Richard Bowden
- Abstract要約: 本研究では,トランスフォーマーネットワークの新たな形態を用いて,画像やビデオから直接,世界の鳥眼ビュー(BEV)にマップできることを示す。
画像中の垂直走査線と、オーバーヘッドマップ内のカメラ位置を通る線との1-1対応を仮定する。
問題を翻訳として使用すると、各ピクセルの役割を解釈する際に、ネットワークは画像のコンテキストを使用することができる。
- 参考スコア(独自算出の注目度): 43.81207458783278
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We approach instantaneous mapping, converting images to a top-down view of
the world, as a translation problem. We show how a novel form of transformer
network can be used to map from images and video directly to an overhead map or
bird's-eye-view (BEV) of the world, in a single end-to-end network. We assume a
1-1 correspondence between a vertical scanline in the image, and rays passing
through the camera location in an overhead map. This lets us formulate map
generation from an image as a set of sequence-to-sequence translations. Posing
the problem as translation allows the network to use the context of the image
when interpreting the role of each pixel. This constrained formulation, based
upon a strong physical grounding of the problem, leads to a restricted
transformer network that is convolutional in the horizontal direction only. The
structure allows us to make efficient use of data when training, and obtains
state-of-the-art results for instantaneous mapping of three large-scale
datasets, including a 15% and 30% relative gain against existing best
performing methods on the nuScenes and Argoverse datasets, respectively. We
make our code available on
https://github.com/avishkarsaha/translating-images-into-maps.
- Abstract(参考訳): 我々は、画像から世界トップダウンのビューへの変換を翻訳問題として、瞬時マッピングにアプローチする。
本研究では, トランスフォーマーネットワークの新たな形態を用いて, 画像やビデオから直接, 世界の上空マップや鳥眼ビュー(BEV)に, 単一のエンドツーエンドネットワークでマップできることを示す。
画像中の垂直走査線と、頭上地図内のカメラ位置を通る光線との1-1対応を仮定する。
これにより、画像からシーケンス間変換の集合としてマップ生成を定式化できます。
問題を翻訳として使用すると、各ピクセルの役割を解釈する際に、ネットワークは画像のコンテキストを使用することができる。
この制約付き定式化は、この問題の強い物理的根拠に基づくもので、水平方向のみに畳み込みがある制限された変圧器ネットワークにつながる。
この構造により、トレーニング時にデータの効率的な利用が可能になり、nuScenesデータセットとArgoverseデータセットの既存の最高の実行方法に対する15%と30%の相対的なゲインを含む3つの大規模データセットの即時マッピングのための最先端結果が得られる。
コードはhttps://github.com/avishkarsaha/translating-images-into-mapsで利用可能です。
関連論文リスト
- Visual Localization in 3D Maps: Comparing Point Cloud, Mesh, and NeRF Representations [8.522160106746478]
様々な3次元地図表現にまたがる単一カメラ画像のローカライズが可能なグローバルな視覚的ローカライゼーションシステムを提案する。
本システムは,シーンの新たなビューを合成し,RGBと深度画像のペアを作成することでデータベースを生成する。
NeRF合成画像は、クエリ画像を平均72%の成功率でローカライズし、優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-21T19:37:17Z) - Extremal Domain Translation with Neural Optimal Transport [76.38747967445994]
一対のドメイン間の理論的に最良の未ペア翻訳の形式化である極端輸送(ET)を提案する。
近年のニューラル・オプティカル・トランスポート(OT)の進歩に触発されて,部分的なOTマップの限界としてETマップを近似するスケーラブルなアルゴリズムを提案する。
提案アルゴリズムは,おもちゃの例や未完成画像から画像への翻訳タスクで検証する。
論文 参考訳(メタデータ) (2023-01-30T13:28:23Z) - BEV-Locator: An End-to-end Visual Semantic Localization Network Using
Multi-View Images [13.258689143949912]
マルチビューカメラ画像を用いたエンドツーエンドの視覚的セマンティックローカライゼーションニューラルネットワークを提案する。
BEV-Locatorは、多目的シナリオ下での車両のポーズを推定することができる。
実験では, 平均絶対誤差が0.052m, 0.135m, 0.251$circ$, 横方向, 縦方向の翻訳, 方向角の程度で満足な精度を報告した。
論文 参考訳(メタデータ) (2022-11-27T20:24:56Z) - TransGeo: Transformer Is All You Need for Cross-view Image
Geo-localization [81.70547404891099]
クロスビュー画像のジオローカライゼーションのためのCNNに基づく手法は,大域的相関をモデル化できない。
本稿では,これらの制約に対処するためのトランスジェオ (TransGeo) を提案する。
TransGeoは、都市と農村の両方のデータセットで最先端の結果を達成する。
論文 参考訳(メタデータ) (2022-03-31T21:19:41Z) - COTR: Correspondence Transformer for Matching Across Images [31.995943755283786]
本稿では,深層ニューラルネットワークに基づく画像の対応関係を探索する新しい枠組みを提案する。
そうすることで、興味のある点のみをクエリし、スパース対応を取り出すか、画像中のすべての点をクエリし、密接なマッピングを得ることができる。
論文 参考訳(メタデータ) (2021-03-25T22:47:02Z) - Retrieval Guided Unsupervised Multi-domain Image-to-Image Translation [59.73535607392732]
画像から画像への変換は、ある視覚領域から別の領域へ画像を変換するマッピングを学ぶことを目的としている。
本稿では,画像から画像への変換作業を支援するための画像検索システムを提案する。
論文 参考訳(メタデータ) (2020-08-11T20:11:53Z) - Contrastive Learning for Unpaired Image-to-Image Translation [64.47477071705866]
画像から画像への変換では、出力の各パッチは、入力中の対応するパッチの内容を、ドメインに依存しない形で反映すべきである。
本研究では,両者の相互情報を最大化するために,コントラスト学習に基づく枠組みを提案する。
筆者らのフレームワークは、画質の向上とトレーニング時間の短縮を図りながら、画像から画像への翻訳設定の一方的な翻訳を可能にすることを実証している。
論文 参考訳(メタデータ) (2020-07-30T17:59:58Z) - Structural-analogy from a Single Image Pair [118.61885732829117]
本稿では,1対の画像A,Bのみを用いて,ニューラルネットワークによる画像構造理解能力について検討する。
我々は、B の外観とスタイルを保持するが、A に対応する構造的配置を持つ画像を生成する。
提案手法は,画像AとBのみを利用した条件生成タスクにおいて,高品質な画像を生成するために利用できる。
論文 参考訳(メタデータ) (2020-04-05T14:51:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。