論文の概要: BEVControl: Accurately Controlling Street-view Elements with
Multi-perspective Consistency via BEV Sketch Layout
- arxiv url: http://arxiv.org/abs/2308.01661v3
- Date: Mon, 7 Aug 2023 08:00:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 10:43:13.317228
- Title: BEVControl: Accurately Controlling Street-view Elements with
Multi-perspective Consistency via BEV Sketch Layout
- Title(参考訳): BEVControl: BEVスケッチレイアウトによる多視点一貫性によるストリートビュー要素の正確な制御
- Authors: Kairui Yang, Enhui Ma, Jibin Peng, Qing Guo, Di Lin, Kaicheng Yu
- Abstract要約: 本稿では,BEVControlと呼ばれる2段階生成手法を提案する。
我々のBEVControlは最先端の手法であるBEVGenをはるかに上回っている。
- 参考スコア(独自算出の注目度): 12.357513320557057
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Using synthesized images to boost the performance of perception models is a
long-standing research challenge in computer vision. It becomes more eminent in
visual-centric autonomous driving systems with multi-view cameras as some
long-tail scenarios can never be collected. Guided by the BEV segmentation
layouts, the existing generative networks seem to synthesize photo-realistic
street-view images when evaluated solely on scene-level metrics. However, once
zoom-in, they usually fail to produce accurate foreground and background
details such as heading. To this end, we propose a two-stage generative method,
dubbed BEVControl, that can generate accurate foreground and background
contents. In contrast to segmentation-like input, it also supports sketch style
input, which is more flexible for humans to edit. In addition, we propose a
comprehensive multi-level evaluation protocol to fairly compare the quality of
the generated scene, foreground object, and background geometry. Our extensive
experiments show that our BEVControl surpasses the state-of-the-art method,
BEVGen, by a significant margin, from 5.89 to 26.80 on foreground segmentation
mIoU. In addition, we show that using images generated by BEVControl to train
the downstream perception model, it achieves on average 1.29 improvement in NDS
score.
- Abstract(参考訳): 合成画像を用いて知覚モデルの性能を高めることは、コンピュータビジョンにおける長年の研究課題である。
ロングテールのシナリオは収集できないため、マルチビューカメラを備えた視覚中心の自動運転システムではより魅力的なものになる。
bevのセグメンテーションレイアウトに導かれた既存の生成ネットワークは、シーンレベルのメトリクスのみに基づいて評価すると、フォトリアリスティックなストリートビュー画像を合成するように見える。
しかし、ズームインすると、通常は正確な前景や、方向などの背景の詳細を生成できない。
そこで本研究では,前景と背景コンテンツを高精度に生成できる2段階生成法bevcontrolを提案する。
セグメンテーションのような入力とは対照的に、スケッチスタイルの入力もサポートしている。
さらに,生成シーン,フォアグラウンドオブジェクト,背景幾何の質を十分に比較するための総合的多レベル評価プロトコルを提案する。
我々のBEVControlは最先端の手法であるBEVGenを5.89から26.80の差で上回っている。
また,bevcontrol が生成した画像を用いて下流知覚モデルのトレーニングを行い,平均 1.29 の nds スコア向上を達成した。
関連論文リスト
- OneBEV: Using One Panoramic Image for Bird's-Eye-View Semantic Mapping [25.801868221496473]
OneBEVは、単一のパノラマ画像を入力として使用する、新しいBEVセマンティックマッピングアプローチである。
Mamba View Transformation (MVT)と呼ばれる歪み対応モジュールは、パノラマの空間歪みを処理するために特別に設計されている。
この作業は、自律運転におけるBEVセマンティックマッピングを前進させ、より高度で信頼性の高い自律システムへの道を開く。
論文 参考訳(メタデータ) (2024-09-20T21:33:53Z) - MVPbev: Multi-view Perspective Image Generation from BEV with Test-time Controllability and Generalizability [17.995042743704442]
MVPbevは2段階の設計で、異なる視点ビューのクロスビュー一貫性のあるイメージを同時に生成する。
本手法は,数千のトレーニングサンプルを用いたテキスト記述から高解像度のフォトリアリスティック画像を生成することができる。
論文 参考訳(メタデータ) (2024-07-28T11:39:40Z) - CLIP-BEVFormer: Enhancing Multi-View Image-Based BEV Detector with Ground Truth Flow [20.550935390111686]
CLIP-BEVFormerは,多視点画像由来のBEVバックボーンを接地真実情報フローで拡張する新しい手法である。
我々は、挑戦的なnuScenesデータセットに関する広範な実験を行い、SOTAに対して顕著で一貫した改善を示す。
論文 参考訳(メタデータ) (2024-03-13T19:21:03Z) - DA-BEV: Unsupervised Domain Adaptation for Bird's Eye View Perception [104.87876441265593]
カメラのみのBird's Eye View (BEV)は3次元空間における環境認識に大きな可能性を示した。
非教師なし領域適応型BEVは、様々な未ラベル対象データから効果的に学習するが、まだ未探索である。
DA-BEVは、画像ビュー機能とBEV機能の相補性を利用して、ドメイン適応型BEV課題に対処する、最初のドメイン適応型カメラのみのBEVフレームワークである。
論文 参考訳(メタデータ) (2024-01-13T04:21:24Z) - FB-BEV: BEV Representation from Forward-Backward View Transformations [131.11787050205697]
本稿では,Bird-Eye-View (BEV) 表現のためのビュートランスフォーメーションモジュール (VTM) を提案する。
我々は提案したモジュールをFB-BEVでインスタンス化し、nuScenesテストセット上で62.4%のNDSの最先端結果を達成する。
論文 参考訳(メタデータ) (2023-08-04T10:26:55Z) - From a Bird's Eye View to See: Joint Camera and Subject Registration without the Camera Calibration [20.733451121484993]
我々は, カメラキャリブレーションを伴わない鳥眼ビュー(BEV)において, マルチビューカメラと対象登録の新たな課題に取り組む。
マルチパーソンシーンに対して、異なるファーストパーソンビュー(FPV)からの複数のRGBイメージが入力されるだけであるため、これは非常に難しい問題である。
本稿では,この問題を解決するためのエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-19T08:31:08Z) - BEVFormer v2: Adapting Modern Image Backbones to Bird's-Eye-View
Recognition via Perspective Supervision [101.36648828734646]
本稿では、視線を監督する新しい鳥眼ビュー(BEV)検出器について述べる。
提案手法は,従来および現代の画像バックボーンの幅広いスペクトルを用いて検証し,大規模なnuScenesデータセット上で新たなSoTA結果を得る。
論文 参考訳(メタデータ) (2022-11-18T18:59:48Z) - Delving into the Devils of Bird's-eye-view Perception: A Review,
Evaluation and Recipe [115.31507979199564]
鳥眼視(BEV)における知覚タスクの強力な表現の学習は、産業と学界の両方から注目されつつある。
センサーの構成が複雑化するにつれて、異なるセンサーからの複数のソース情報の統合と、統一されたビューにおける特徴の表現が重要になる。
BEV知覚の中核的な問題は、(a)視点からBEVへの視点変換を通して失われた3D情報を再構成する方法、(b)BEVグリッドにおける基底真理アノテーションの取得方法、(d)センサー構成が異なるシナリオでアルゴリズムを適応・一般化する方法にある。
論文 参考訳(メタデータ) (2022-09-12T15:29:13Z) - GitNet: Geometric Prior-based Transformation for Birds-Eye-View
Segmentation [105.19949897812494]
Birds-eye-view (BEV) セマンティックセマンティックセグメンテーションは自動運転に不可欠である。
本稿では,GitNetという新しい2段階のGeometry Preside-based Transformationフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-16T06:46:45Z) - BEVSegFormer: Bird's Eye View Semantic Segmentation From Arbitrary
Camera Rigs [3.5728676902207988]
任意のカメラリグからのBEVセマンティックセマンティックセグメンテーションのための効果的なトランスフォーマーベース手法を提案する。
具体的には、まず任意のカメラから画像の特徴を共有バックボーンで符号化する。
BEV-to-imageビュー変換を行うために、効率的なマルチカメラ変形型アテンションユニットを設計する。
論文 参考訳(メタデータ) (2022-03-08T12:39:51Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。