論文の概要: Attention-based Adversarial Appearance Learning of Augmented Pedestrians
- arxiv url: http://arxiv.org/abs/2107.02673v2
- Date: Wed, 22 Nov 2023 15:27:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 19:38:27.118590
- Title: Attention-based Adversarial Appearance Learning of Augmented Pedestrians
- Title(参考訳): 拡張歩行者の注意に基づく対人学習
- Authors: Kevin Strauss, Artem Savkin, Federico Tombari
- Abstract要約: 本稿では,歩行者認識タスクのための現実的なデータを合成する手法を提案する。
本手法は, 対向的損失によって駆動される注意機構を用いて, ドメインの相違を学習する。
提案手法はこのような不一致に対して頑健であり,視覚的リアリズムと意味的整合性の両方を明らかにする。
- 参考スコア(独自算出の注目度): 49.25430012369125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthetic data became already an essential component of machine
learning-based perception in the field of autonomous driving. Yet it still
cannot replace real data completely due to the sim2real domain shift. In this
work, we propose a method that leverages the advantages of the augmentation
process and adversarial training to synthesize realistic data for the
pedestrian recognition task. Our approach utilizes an attention mechanism
driven by an adversarial loss to learn domain discrepancies and improve
sim2real adaptation. Our experiments confirm that the proposed adaptation
method is robust to such discrepancies and reveals both visual realism and
semantic consistency. Furthermore, we evaluate our data generation pipeline on
the task of pedestrian recognition and demonstrate that generated data resemble
properties of the real domain.
- Abstract(参考訳): 合成データは、自動運転の分野における機械学習に基づく知覚の重要な要素となった。
しかし、sim2realドメインシフトのため、実際のデータを完全に置き換えることはできない。
本研究では,歩行者認識タスクの現実データを合成するために,拡張過程と敵対的訓練の利点を活用する手法を提案する。
本手法は, 対向損失による注意機構を利用して, 領域の差異を学習し, sim2real適応を改善する。
提案手法はこのような不一致に対して頑健であり,視覚的リアリズムと意味的整合性の両方を明らかにする。
さらに,歩行者認識作業におけるデータ生成パイプラインの評価を行い,実際の領域の特性に類似したデータを生成することを示す。
関連論文リスト
- Transferring disentangled representations: bridging the gap between synthetic and real images [1.0760018917783072]
実データに適用可能な汎用的不整合表現を学習するために,合成データを活用する可能性を検討する。
本稿では,表現中の因子の質を測定するために,新しい解釈可能な介入基準を提案する。
以上の結果から, 合成データから実データへの表現の変換が可能であること, 有効であることが示唆された。
論文 参考訳(メタデータ) (2024-09-26T16:25:48Z) - Are NeRFs ready for autonomous driving? Towards closing the real-to-simulation gap [6.393953433174051]
本稿では,実際のデータギャップに対処するための新しい視点を提案する。
自律運転環境における実シミュレーションデータギャップの大規模調査を初めて実施する。
シミュレーションデータに対するモデルロバスト性は顕著に向上し,実世界の性能も向上した。
論文 参考訳(メタデータ) (2024-03-24T11:09:41Z) - From Synthetic to Real: Unveiling the Power of Synthetic Data for Video
Person Re-ID [15.81210364737776]
クロスドメインビデオに基づく人物再識別(Re-ID)の新たな課題について検討する。
合成ビデオデータセットをトレーニングのソースドメインとし、実世界のビデオを使ってテストする。
クロスドメイン設定における実際のデータよりも、合成データがより優れていることに驚きます。
論文 参考訳(メタデータ) (2024-02-03T10:19:21Z) - Synthetic-to-Real Domain Adaptation for Action Recognition: A Dataset and Baseline Performances [76.34037366117234]
ロボット制御ジェスチャー(RoCoG-v2)と呼ばれる新しいデータセットを導入する。
データセットは7つのジェスチャークラスの実ビデオと合成ビデオの両方で構成されている。
我々は,最先端の行動認識とドメイン適応アルゴリズムを用いて結果を示す。
論文 参考訳(メタデータ) (2023-03-17T23:23:55Z) - One-Shot Domain Adaptive and Generalizable Semantic Segmentation with
Class-Aware Cross-Domain Transformers [96.51828911883456]
セマンティックセグメンテーションのための教師なしのsim-to-realドメイン適応(UDA)は、シミュレーションデータに基づいて訓練されたモデルの実世界のテスト性能を改善することを目的としている。
従来のUDAは、適応のためのトレーニング中に利用可能なラベルのない実世界のサンプルが豊富にあると仮定することが多い。
実世界のデータサンプルが1つしか利用できない,一発の教師なしシム・トゥ・リアル・ドメイン適応(OSUDA)と一般化問題について検討する。
論文 参考訳(メタデータ) (2022-12-14T15:54:15Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - Towards Optimal Strategies for Training Self-Driving Perception Models
in Simulation [98.51313127382937]
合成ドメインのみにおけるラベルの使用に焦点を当てる。
提案手法では,ニューラル不変表現の学習方法と,シミュレータからデータをサンプリングする方法に関する理論的にインスピレーションを得た視点を導入する。
マルチセンサーデータを用いた鳥眼視車両分割作業におけるアプローチについて紹介する。
論文 参考訳(メタデータ) (2021-11-15T18:37:43Z) - Domain Adaptive Robotic Gesture Recognition with Unsupervised
Kinematic-Visual Data Alignment [60.31418655784291]
本稿では,マルチモダリティ知識,すなわちキネマティックデータとビジュアルデータを同時にシミュレータから実ロボットに伝達できる,教師なしドメイン適応フレームワークを提案する。
ビデオの時間的手がかりと、ジェスチャー認識に対するマルチモーダル固有の相関を用いて、トランスファー可能な機能を強化したドメインギャップを修復する。
その結果, 本手法は, ACCでは最大12.91%, F1scoreでは20.16%と, 実際のロボットではアノテーションを使わずに性能を回復する。
論文 参考訳(メタデータ) (2021-03-06T09:10:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。