論文の概要: A 2-Stage Model for Vehicle Class and Orientation Detection with Photo-Realistic Image Generation
- arxiv url: http://arxiv.org/abs/2506.01338v1
- Date: Mon, 02 Jun 2025 05:38:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.045904
- Title: A 2-Stage Model for Vehicle Class and Orientation Detection with Photo-Realistic Image Generation
- Title(参考訳): フォトリアリスティック画像生成による車両クラスと方位検出のための2段階モデル
- Authors: Youngmin Kim, Donghwa Kang, Hyeongboo Baek,
- Abstract要約: この問題に対処するために,光実写画像生成を用いた2段階検出モデルを提案する。
当社のモデルは,車両のクラスと方向を検出するために,主に4つのステップを踏む。
IEEE BigData Challenge 2022 Vehicle Class and Orientation Detection (VOD) の4位にランクインした。
- 参考スコア(独自算出の注目度): 8.394999531285574
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We aim to detect the class and orientation of a vehicle by training a model with synthetic data. However, the distribution of the classes in the training data is imbalanced, and the model trained on the synthetic image is difficult to predict in real-world images. We propose a two-stage detection model with photo-realistic image generation to tackle this issue. Our model mainly takes four steps to detect the class and orientation of the vehicle. (1) It builds a table containing the image, class, and location information of objects in the image, (2) transforms the synthetic images into real-world images style, and merges them into the meta table. (3) Classify vehicle class and orientation using images from the meta-table. (4) Finally, the vehicle class and orientation are detected by combining the pre-extracted location information and the predicted classes. We achieved 4th place in IEEE BigData Challenge 2022 Vehicle class and Orientation Detection (VOD) with our approach.
- Abstract(参考訳): 我々は、合成データを用いてモデルを訓練することにより、車両のクラスと方向を検出することを目的としている。
しかし、トレーニングデータのクラス分布は不均衡であり、合成画像上で訓練されたモデルは実世界の画像では予測が難しい。
この問題に対処するために,光実写画像生成を用いた2段階検出モデルを提案する。
当社のモデルは,車両のクラスと方向を検出するために,主に4つのステップを踏む。
1)画像中のオブジェクトの画像,クラス,位置情報を含むテーブルを構築し,(2)合成画像を現実の画像形式に変換し,メタテーブルにマージする。
(3)メタテーブルの画像を用いて車両のクラスと方向を分類する。
(4)最後に、事前抽出された位置情報と予測されたクラスを組み合わせることにより、車両のクラスと方向を検出する。
IEEE BigData Challenge 2022 Vehicle Class and Orientation Detection (VOD) の4位にランクインした。
関連論文リスト
- Orient Anything: Learning Robust Object Orientation Estimation from Rendering 3D Models [79.96917782423219]
オリエント・アプライシング(Orient Anything)は、1つの画像でオブジェクトの向きを推定するために設計された最初のエキスパートで基礎的なモデルである。
3Dオブジェクトの前面にアノテートするパイプラインを開発することで、正確な向きのアノテーションで2Mイメージを収集する。
本モデルでは,レンダリング画像と実画像の両方において,最先端の向き推定精度を実現する。
論文 参考訳(メタデータ) (2024-12-24T18:58:43Z) - Drive-1-to-3: Enriching Diffusion Priors for Novel View Synthesis of Real Vehicles [81.29018359825872]
本稿では,実世界の課題に対して,大規模な事前学習モデルを微調整するための一連の優れたプラクティスを統合する。
具体的には,合成データと実運転データとの相違を考慮に入れたいくつかの戦略を開発する。
我々の洞察は、先行芸術よりも新しいビュー合成のためのFIDを68.8%値下げする効果のある微調整につながる。
論文 参考訳(メタデータ) (2024-12-19T03:39:13Z) - VehicleGAN: Pair-flexible Pose Guided Image Synthesis for Vehicle Re-identification [27.075761782915496]
本稿では,ターゲットポーズにおける多数の車両画像の合成を提案する。
異なる交通監視カメラで同じ車両のペアのデータが現実世界では利用できない可能性があることを考慮し、VagerGANを提案する。
実データと合成データの特徴分布の違いから,効率的な特徴レベル融合によるJML(Joint Metric Learning)を提案する。
論文 参考訳(メタデータ) (2023-11-27T19:34:04Z) - Image-Based Vehicle Classification by Synergizing Features from
Supervised and Self-Supervised Learning Paradigms [0.913755431537592]
車両画像の表現学習において,DINOとData2vecの2つの最先端自己教師型学習手法を評価し,比較した。
これらの自己教師型学習法から得られた表現は,車種分類タスクの車輪位置特徴と組み合わせた。
我々の車輪マスキング戦略と整合したデータ2vec蒸留表現は,DINOよりも優れていた。
論文 参考訳(メタデータ) (2023-02-01T18:22:23Z) - Synthetic Data for Object Classification in Industrial Applications [53.180678723280145]
オブジェクト分類では、オブジェクトごとに、異なる条件下で、多数の画像を取得することは必ずしも不可能である。
本研究は,学習データセット内の限られたデータに対処するゲームエンジンを用いた人工画像の作成について検討する。
論文 参考訳(メタデータ) (2022-12-09T11:43:04Z) - Is an Object-Centric Video Representation Beneficial for Transfer? [86.40870804449737]
トランスアーキテクチャ上にオブジェクト中心のビデオ認識モデルを導入する。
対象中心モデルが先行映像表現より優れていることを示す。
論文 参考訳(メタデータ) (2022-07-20T17:59:44Z) - PerMO: Perceiving More at Once from a Single Image for Autonomous
Driving [76.35684439949094]
単一画像から完全テクスチャ化された車両の3次元モデルを検出し,セグメント化し,再構成する新しい手法を提案する。
私たちのアプローチは、ディープラーニングの強みと従来のテクニックの優雅さを組み合わせています。
我々はこれらのアルゴリズムを自律運転システムに統合した。
論文 参考訳(メタデータ) (2020-07-16T05:02:45Z) - VehicleNet: Learning Robust Visual Representation for Vehicle
Re-identification [116.1587709521173]
我々は,4つのパブリックな車両データセットを活用することで,大規模車両データセット(VabyNet)を構築することを提案する。
VehicleNetからより堅牢な視覚表現を学習するための、シンプルで効果的な2段階プログレッシブアプローチを設計する。
AICity Challengeのプライベートテストセットにおいて,最先端の精度86.07%mAPを実現した。
論文 参考訳(メタデータ) (2020-04-14T05:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。