論文の概要: Scene-Aware Location Modeling for Data Augmentation in Automotive Object Detection
- arxiv url: http://arxiv.org/abs/2504.17076v1
- Date: Wed, 23 Apr 2025 19:52:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.165013
- Title: Scene-Aware Location Modeling for Data Augmentation in Automotive Object Detection
- Title(参考訳): 自動車物体検出におけるデータ拡張のためのシーン認識位置モデリング
- Authors: Jens Petersen, Davide Abati, Amirhossein Habibian, Auke Wiggers,
- Abstract要約: 本稿では,既存のシーンに新たなオブジェクトを現実的に配置できる場所を予測する,シーン認識型確率的位置モデルを提案する。
既存のアプローチよりもはるかに強力な拡張性能が得られる。
我々は2つの自動車物体検出タスクにおける生成データ拡張のための新しい技術状況を設定した。
- 参考スコア(独自算出の注目度): 10.178551641176185
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative image models are increasingly being used for training data augmentation in vision tasks. In the context of automotive object detection, methods usually focus on producing augmented frames that look as realistic as possible, for example by replacing real objects with generated ones. Others try to maximize the diversity of augmented frames, for example by pasting lots of generated objects onto existing backgrounds. Both perspectives pay little attention to the locations of objects in the scene. Frame layouts are either reused with little or no modification, or they are random and disregard realism entirely. In this work, we argue that optimal data augmentation should also include realistic augmentation of layouts. We introduce a scene-aware probabilistic location model that predicts where new objects can realistically be placed in an existing scene. By then inpainting objects in these locations with a generative model, we obtain much stronger augmentation performance than existing approaches. We set a new state of the art for generative data augmentation on two automotive object detection tasks, achieving up to $2.8\times$ higher gains than the best competing approach ($+1.4$ vs. $+0.5$ mAP boost). We also demonstrate significant improvements for instance segmentation.
- Abstract(参考訳): 生成画像モデルは、視覚タスクにおけるデータ拡張のトレーニングにますます利用されている。
自動車オブジェクト検出の文脈では、通常、実際のオブジェクトを生成されたオブジェクトに置き換えるなど、可能な限りリアルに見える拡張フレームの生成に焦点を当てる。
例えば、多数の生成されたオブジェクトを既存の背景に貼り付けるなど、拡張フレームの多様性を最大化しようとする人もいる。
どちらの視点も、シーン内のオブジェクトの位置にはほとんど注意を払わない。
フレームレイアウトは、ほとんどまたは全く変更することなく再利用されるか、ランダムで、リアリズムを完全に無視する。
この研究では、最適なデータ拡張は、レイアウトの現実的な拡張を含むべきであると論じる。
本稿では,既存のシーンに新たなオブジェクトを現実的に配置できる場所を予測する,シーン認識型確率的位置モデルを提案する。
生成モデルを用いてこれらの位置のオブジェクトを塗布することにより、既存のアプローチよりもはるかに強力な拡張性能が得られる。
我々は、2つの自動車オブジェクト検出タスクに生成データ拡張のための新しい最先端技術を設定し、最高の競合するアプローチ(+1.4$ vs. $0.5$ mAP boost)よりも最大2.8\times$高利得を実現しました。
また、インスタンスセグメンテーションの大幅な改善も示しています。
関連論文リスト
- ObjectMover: Generative Object Movement with Video Prior [69.75281888309017]
本稿では,難易度の高いシーンでオブジェクトの動きを再現できる生成モデルであるObjectMoverを提案する。
このアプローチにより、我々のモデルは複雑な現実世界のシナリオに適応できることを示す。
本稿では,実世界の映像データを学習してモデル一般化を改善するマルチタスク学習戦略を提案する。
論文 参考訳(メタデータ) (2025-03-11T04:42:59Z) - Generative Location Modeling for Spatially Aware Object Insertion [35.62317512925592]
生成モデルは、オブジェクト挿入を含む画像編集タスクの強力なツールになっている。
本稿では,現実的な物体の位置を識別するための位置モデルの構築に焦点をあてる。
具体的には,背景画像と所望のオブジェクトクラスに条件付き境界ボックス座標を生成する自己回帰モデルを訓練する。
この定式化により、スパース配置アノテーションを効果的に処理し、直接選好最適化を行うことで、不明瞭な位置を選好データセットに組み込むことができる。
論文 参考訳(メタデータ) (2024-10-17T14:00:41Z) - Context-Aware Indoor Point Cloud Object Generation through User Instructions [6.398660996031915]
本稿では,その周辺環境とシームレスに統合された点雲オブジェクトを生成することができる,新しいエンドツーエンドのマルチモーダルディープニューラルネットワークを提案する。
我々のモデルは、これまで見えなかったオブジェクトレイアウトで新しい環境を作成できるようにすることで、シーン修正に革命をもたらす。
論文 参考訳(メタデータ) (2023-11-26T06:40:16Z) - AnyDoor: Zero-shot Object-level Image Customization [63.44307304097742]
ユーザが指定した場所の新しいシーンにターゲットオブジェクトをテレポートする機能を備えた拡散ベースのイメージジェネレータであるAnyDoorを紹介する。
我々のモデルは1回のみ訓練され、推論段階では多様なオブジェクトとシーンの組み合わせに懸命に一般化される。
論文 参考訳(メタデータ) (2023-07-18T17:59:02Z) - MegaPose: 6D Pose Estimation of Novel Objects via Render & Compare [84.80956484848505]
MegaPoseは、トレーニング中に見えない新しいオブジェクトの6Dポーズを推定する方法である。
本稿では,新しいオブジェクトに適用可能なR&Compare戦略に基づく6次元ポーズリファインダを提案する。
第2に,合成レンダリングと同一物体の観察画像間のポーズ誤差をリファインダで補正できるか否かを分類するために訓練されたネットワークを利用する,粗いポーズ推定のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-12-13T19:30:03Z) - SemAug: Semantically Meaningful Image Augmentations for Object Detection
Through Language Grounding [5.715548995729382]
本研究では,シーンに文脈的に意味のある知識を注入することで,画像強調のための効果的な手法を提案する。
本手法は,意味的に適切な新しいオブジェクトを抽出することから,言語接地によるオブジェクト検出のための意味的意味的画像強調法であるSemAugを出発点とする。
論文 参考訳(メタデータ) (2022-08-15T19:00:56Z) - BORM: Bayesian Object Relation Model for Indoor Scene Recognition [3.3274747298291216]
室内のシーン表現に意味のあるオブジェクト表現を活用することを提案する。
まず,改良されたオブジェクトモデル(IOM)をベースラインとして,屋内シーンに関連するリッチなオブジェクトカテゴリを持つADE20Kデータセット上で事前学習したシーン解析アルゴリズムを導入することにより,オブジェクトの知識を充実させる。
オブジェクトの共起とペアのオブジェクト関係を解析するために、ベイズ的オブジェクト関係モデル(BORM)としてベイズ的視点からIOMを定式化する。
論文 参考訳(メタデータ) (2021-08-01T08:31:18Z) - Scale-aware Automatic Augmentation for Object Detection [63.087930708444695]
オブジェクト検出のためのデータ拡張ポリシーを学ぶために,Scale-aware AutoAugを提案する。
実験では、Scale-aware AutoAugはさまざまな物体検出器に有意で一貫した改善をもたらす。
論文 参考訳(メタデータ) (2021-03-31T17:11:14Z) - RELATE: Physically Plausible Multi-Object Scene Synthesis Using
Structured Latent Spaces [77.07767833443256]
RELATEは、複数の対話オブジェクトの物理的に可視なシーンとビデオを生成することを学習するモデルである。
オブジェクト中心生成モデリングにおける最先端の手法とは対照的に、RELATEは自然に動的なシーンに拡張し、高い視覚的忠実度のビデオを生成する。
論文 参考訳(メタデータ) (2020-07-02T17:27:27Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。