論文の概要: Synthetic-to-Real Domain Adaptation for Action Recognition: A Dataset
and Baseline Performances
- arxiv url: http://arxiv.org/abs/2303.10280v1
- Date: Fri, 17 Mar 2023 23:23:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 20:23:52.404732
- Title: Synthetic-to-Real Domain Adaptation for Action Recognition: A Dataset
and Baseline Performances
- Title(参考訳): 行動認識のための合成ドメイン適応:データセットとベースライン性能
- Authors: Arun V. Reddy, Ketul Shah, William Paul, Rohita Mocharla, Judy
Hoffman, Kapil D. Katyal, Dinesh Manocha, Celso M. de Melo, Rama Chellappa
- Abstract要約: ロボット制御ジェスチャー(RoCoG-v2)と呼ばれる新しいデータセットを導入する。
データセットは7つのジェスチャークラスの実ビデオと合成ビデオの両方で構成されている。
我々は,最先端の行動認識とドメイン適応アルゴリズムを用いて結果を示す。
- 参考スコア(独自算出の注目度): 87.20906333918032
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human action recognition is a challenging problem, particularly when there is
high variability in factors such as subject appearance, backgrounds and
viewpoint. While deep neural networks (DNNs) have been shown to perform well on
action recognition tasks, they typically require large amounts of high-quality
labeled data to achieve robust performance across a variety of conditions.
Synthetic data has shown promise as a way to avoid the substantial costs and
potential ethical concerns associated with collecting and labeling enormous
amounts of data in the real-world. However, synthetic data may differ from real
data in important ways. This phenomenon, known as \textit{domain shift}, can
limit the utility of synthetic data in robotics applications. To mitigate the
effects of domain shift, substantial effort is being dedicated to the
development of domain adaptation (DA) techniques. Yet, much remains to be
understood about how best to develop these techniques. In this paper, we
introduce a new dataset called Robot Control Gestures (RoCoG-v2). The dataset
is composed of both real and synthetic videos from seven gesture classes, and
is intended to support the study of synthetic-to-real domain shift for
video-based action recognition. Our work expands upon existing datasets by
focusing the action classes on gestures for human-robot teaming, as well as by
enabling investigation of domain shift in both ground and aerial views. We
present baseline results using state-of-the-art action recognition and domain
adaptation algorithms and offer initial insight on tackling the
synthetic-to-real and ground-to-air domain shifts.
- Abstract(参考訳): 人間の行動認識は、特に主題の出現、背景、視点などの要因に高い変動性がある場合、難しい問題である。
ディープニューラルネットワーク(DNN)は、アクション認識タスクでうまく機能することが示されているが、様々な条件で堅牢なパフォーマンスを達成するためには、通常、大量の高品質なラベル付きデータを必要とする。
合成データは、現実世界で膨大な量のデータを収集しラベル付けすることに関連する、実質的なコストと潜在的な倫理的懸念を避ける手段として、約束を示す。
しかし、合成データは重要な方法で実際のデータと異なる可能性がある。
この現象は \textit{domain shift} と呼ばれ、ロボットアプリケーションにおける合成データの有用性を制限することができる。
ドメインシフトの影響を軽減するため、ドメイン適応(DA)技術の開発に多大な努力が注がれている。
しかし、これらの技術をどのように開発するかについては、まだよく分かっていない。
本稿では,ロボット制御ジェスチャー (RoCoG-v2) と呼ばれる新しいデータセットを提案する。
このデータセットは7つのジェスチャークラスの実ビデオと合成ビデオの両方で構成されており、ビデオに基づく行動認識のための合成ドメインシフトの研究を支援することを目的としている。
我々の研究は、人間のロボットチームのためのジェスチャーにアクションクラスを集中させることで既存のデータセットを拡張し、地上と空中の両方でドメインシフトの調査を可能にする。
現状のアクション認識とドメイン適応アルゴリズムを用いてベースライン結果を示し、合成から現実、地上へのドメインシフトに対処するための最初の洞察を提供する。
関連論文リスト
- A survey of synthetic data augmentation methods in computer vision [0.0]
本稿では,合成データ拡張技術について概観する。
我々は、重要なデータ生成と拡張技術、アプリケーション全般の範囲、および特定のユースケースに焦点を当てる。
コンピュータビジョンモデルをトレーニングするための一般的な合成データセットの要約を提供する。
論文 参考訳(メタデータ) (2024-03-15T07:34:08Z) - ParGANDA: Making Synthetic Pedestrians A Reality For Object Detection [2.7648976108201815]
本稿では,GAN(Generative Adversarial Network)を用いて,実データと合成データのギャップを埋めることを提案する。
我々のアプローチは、視覚的に可視なサンプルを生成するだけでなく、実際のドメインのラベルも必要としない。
論文 参考訳(メタデータ) (2023-07-21T05:26:32Z) - Domain Adaptation of Synthetic Driving Datasets for Real-World
Autonomous Driving [0.11470070927586014]
特定のコンピュータビジョンタスクのための合成データで訓練されたネットワークは、実世界のデータでテストすると大幅に劣化する。
本稿では,このような手法を改良するための新しい手法を提案し,評価する。
本稿では,このペア選択にセマンティック・インスペクションを効果的に組み込む手法を提案し,モデルの性能向上に寄与する。
論文 参考訳(メタデータ) (2023-02-08T15:51:54Z) - One-Shot Domain Adaptive and Generalizable Semantic Segmentation with
Class-Aware Cross-Domain Transformers [96.51828911883456]
セマンティックセグメンテーションのための教師なしのsim-to-realドメイン適応(UDA)は、シミュレーションデータに基づいて訓練されたモデルの実世界のテスト性能を改善することを目的としている。
従来のUDAは、適応のためのトレーニング中に利用可能なラベルのない実世界のサンプルが豊富にあると仮定することが多い。
実世界のデータサンプルが1つしか利用できない,一発の教師なしシム・トゥ・リアル・ドメイン適応(OSUDA)と一般化問題について検討する。
論文 参考訳(メタデータ) (2022-12-14T15:54:15Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - Attention-based Adversarial Appearance Learning of Augmented Pedestrians [49.25430012369125]
本稿では,歩行者認識タスクのための現実的なデータを合成する手法を提案する。
本手法は, 対向的損失によって駆動される注意機構を用いて, ドメインの相違を学習する。
提案手法はこのような不一致に対して頑健であり,視覚的リアリズムと意味的整合性の両方を明らかにする。
論文 参考訳(メタデータ) (2021-07-06T15:27:00Z) - Content Disentanglement for Semantically Consistent
Synthetic-to-RealDomain Adaptation in Urban Traffic Scenes [39.38387505091648]
合成データ生成は、自動運転における新しい交通シナリオを生成する魅力的なアプローチです。
合成データだけで訓練されたディープラーニング技術は、実際のデータでテストされたときに劇的なパフォーマンス低下に遭遇します。
本稿では,合成データと実データの間で意味的に一貫性のあるドメイン適応を実現する,教師なしのエンドツーエンドドメイン適応ネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-05-18T17:42:26Z) - Domain Adaptive Robotic Gesture Recognition with Unsupervised
Kinematic-Visual Data Alignment [60.31418655784291]
本稿では,マルチモダリティ知識,すなわちキネマティックデータとビジュアルデータを同時にシミュレータから実ロボットに伝達できる,教師なしドメイン適応フレームワークを提案する。
ビデオの時間的手がかりと、ジェスチャー認識に対するマルチモーダル固有の相関を用いて、トランスファー可能な機能を強化したドメインギャップを修復する。
その結果, 本手法は, ACCでは最大12.91%, F1scoreでは20.16%と, 実際のロボットではアノテーションを使わずに性能を回復する。
論文 参考訳(メタデータ) (2021-03-06T09:10:03Z) - Text Recognition in Real Scenarios with a Few Labeled Samples [55.07859517380136]
Scene Text Recognition (STR) はコンピュータビジョン分野におけるホットな研究テーマである。
本稿では,数ショットの逆数列領域適応 (FASDA) を用いて構築シーケンスを適応する手法を提案する。
我々のアプローチは、ソースドメインとターゲットドメインの間の文字レベルの混乱を最大化することができる。
論文 参考訳(メタデータ) (2020-06-22T13:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。