論文の概要: Image-to-Image Translation for Autonomous Driving from Coarsely-Aligned
Image Pairs
- arxiv url: http://arxiv.org/abs/2209.11673v1
- Date: Fri, 23 Sep 2022 16:03:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-26 17:16:10.963789
- Title: Image-to-Image Translation for Autonomous Driving from Coarsely-Aligned
Image Pairs
- Title(参考訳): 粗視画像ペアからの自律走行のための画像間変換
- Authors: Youya Xia, Josephine Monica, Wei-Lun Chao, Bharath Hariharan, Kilian Q
Weinberger, Mark Campbell
- Abstract要約: 自動運転車は悪天候に対処して安全に運転できなければならない。
本稿では,センサ入力を悪条件で捕捉した入力を良質な入力に変換するという考え方について検討する。
我々は、粗い整列学習方式により、画像翻訳の質が向上し、下流タスクが改善されていることを示す。
- 参考スコア(独自算出の注目度): 57.33431586417377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A self-driving car must be able to reliably handle adverse weather conditions
(e.g., snowy) to operate safely. In this paper, we investigate the idea of
turning sensor inputs (i.e., images) captured in an adverse condition into a
benign one (i.e., sunny), upon which the downstream tasks (e.g., semantic
segmentation) can attain high accuracy. Prior work primarily formulates this as
an unpaired image-to-image translation problem due to the lack of paired images
captured under the exact same camera poses and semantic layouts. While
perfectly-aligned images are not available, one can easily obtain
coarsely-paired images. For instance, many people drive the same routes daily
in both good and adverse weather; thus, images captured at close-by GPS
locations can form a pair. Though data from repeated traversals are unlikely to
capture the same foreground objects, we posit that they provide rich contextual
information to supervise the image translation model. To this end, we propose a
novel training objective leveraging coarsely-aligned image pairs. We show that
our coarsely-aligned training scheme leads to a better image translation
quality and improved downstream tasks, such as semantic segmentation, monocular
depth estimation, and visual localization.
- Abstract(参考訳): 自動運転車は、安全のために悪天候(例えば雪)を確実に処理できなければならない。
本稿では,下流課題(意味セグメンテーション,意味セグメンテーション,意味セグメンテーション,意味セグメンテーション,意味セグメンテーション)を高い精度で達成できる,悪い条件下でキャプチャされたセンサ入力(イメージ)を良質なもの(サニー)に変換する方法を検討する。
以前の研究は、全く同じカメラポーズとセマンティックレイアウトで撮影されたペア画像が欠如していることから、この問題を画像から画像への変換問題として定式化していた。
完全整列画像は利用できないが、粗いペアリング画像を容易に得ることができる。
例えば、多くの人々が天気と悪天候の両方で同じルートを毎日運転しているため、近距離GPSで撮影された画像はペアを作ることができる。
反復トラバーサルのデータは同じフォアグラウンドオブジェクトをキャプチャする可能性は低いが、画像翻訳モデルを監視するために豊富なコンテキスト情報を提供していると仮定する。
そこで本研究では,粗調整画像ペアを用いた新しい学習目標を提案する。
提案手法は, 画像翻訳品質の向上と, セマンティックセグメンテーション, 単眼深度推定, 視覚定位などの下流タスクの改善に寄与することを示す。
関連論文リスト
- One Diffusion to Generate Them All [54.82732533013014]
OneDiffusionは双方向画像合成と理解をサポートする汎用的で大規模な拡散モデルである。
テキスト、深さ、ポーズ、レイアウト、セマンティックマップなどの入力から条件生成を可能にする。
OneDiffusionは、シーケンシャルな画像入力を使用して、マルチビュー生成、カメラポーズ推定、即時パーソナライズを可能にする。
論文 参考訳(メタデータ) (2024-11-25T12:11:05Z) - Towards Pragmatic Semantic Image Synthesis for Urban Scenes [4.36080478413575]
合成画像とラベル付きデータセットとラベルなしの実画像付きデータセットが与えられた場合、入力マスクの内容と実際の画像の外観で画像を生成することができるモデルを学ぶことが目的である。
合成画像は, パッチレベルでの高次特徴の違いをペナルティ化することにより, 生成画像の内容のガイドとして活用する。
対象領域のセマンティックな分布に過度に適合する1つの識別器を用いた以前の研究とは対照的に、画像全体の識別器と画像パッチ上のマルチスケール識別器を用いる。
論文 参考訳(メタデータ) (2023-05-16T18:01:12Z) - Unpaired Translation from Semantic Label Maps to Images by Leveraging
Domain-Specific Simulations [11.638139969660266]
シミュレーションされたラベルマップからフォトリアリスティックな画像を生成するためのコントラスト学習フレームワークを提案する。
提案手法は,現実的でシーンの正確な翻訳を生成する。
論文 参考訳(メタデータ) (2023-02-21T14:36:18Z) - Extremal Domain Translation with Neural Optimal Transport [76.38747967445994]
一対のドメイン間の理論的に最良の未ペア翻訳の形式化である極端輸送(ET)を提案する。
近年のニューラル・オプティカル・トランスポート(OT)の進歩に触発されて,部分的なOTマップの限界としてETマップを近似するスケーラブルなアルゴリズムを提案する。
提案アルゴリズムは,おもちゃの例や未完成画像から画像への翻訳タスクで検証する。
論文 参考訳(メタデータ) (2023-01-30T13:28:23Z) - Semi-Supervised Image-to-Image Translation using Latent Space Mapping [37.232496213047845]
半教師付き画像翻訳のための一般的なフレームワークを提案する。
私たちの一番の考え方は、画像空間ではなく、潜在機能空間の翻訳を学ぶことです。
低次元の特徴空間のおかげで、所望の写像関数を見つけるのが容易である。
論文 参考訳(メタデータ) (2022-03-29T05:14:26Z) - A Shared Representation for Photorealistic Driving Simulators [83.5985178314263]
本稿では、識別器アーキテクチャを再考することにより、生成画像の品質を向上させることを提案する。
シーンセグメンテーションマップや人体ポーズといったセマンティックインプットによって画像が生成されるという問題に焦点が当てられている。
我々は,意味的セグメンテーション,コンテンツ再構成,および粗い粒度の逆解析を行うのに十分な情報をエンコードする,共有潜在表現を学習することを目指している。
論文 参考訳(メタデータ) (2021-12-09T18:59:21Z) - Unpaired Image-to-Image Translation via Latent Energy Transport [61.62293304236371]
画像から画像への変換は、2つの視覚領域間の識別的ターゲットスタイルに変換しながら、ソースの内容を保存することを目的としている。
本稿では,この課題に対して,事前訓練されたオートエンコーダの潜在空間にエネルギーベースモデル(EBM)を配置することを提案する。
我々のモデルは1024$times$1024- resolution unpaired image translationに適用できる最初のモデルである。
論文 参考訳(メタデータ) (2020-12-01T17:18:58Z) - PREGAN: Pose Randomization and Estimation for Weakly Paired Image Style
Translation [11.623477199795037]
本稿では2つの画像のコンテンツがポーズの誤りと一致しているスタイル翻訳のための弱いペアリング設定を提案する。
PreGANは、シミュレーションデータと実世界の収集データの両方で検証され、有効性を示す。
論文 参考訳(メタデータ) (2020-10-31T16:11:11Z) - Contrastive Learning for Unpaired Image-to-Image Translation [64.47477071705866]
画像から画像への変換では、出力の各パッチは、入力中の対応するパッチの内容を、ドメインに依存しない形で反映すべきである。
本研究では,両者の相互情報を最大化するために,コントラスト学習に基づく枠組みを提案する。
筆者らのフレームワークは、画質の向上とトレーニング時間の短縮を図りながら、画像から画像への翻訳設定の一方的な翻訳を可能にすることを実証している。
論文 参考訳(メタデータ) (2020-07-30T17:59:58Z) - A Sim2Real Deep Learning Approach for the Transformation of Images from
Multiple Vehicle-Mounted Cameras to a Semantically Segmented Image in Bird's
Eye View [0.0]
カメラの視点を鳥の視線(BEV)に変換すると、距離をより容易に推定できる。
本稿では,複数の車載カメラから補正された360度BEV画像を得る方法について述べる。
ニューラルネットワークのアプローチは、手動でラベル付けされたデータに頼るのではなく、実世界のデータに対してうまく一般化するように、合成データセットでトレーニングされる。
論文 参考訳(メタデータ) (2020-05-08T14:54:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。