論文の概要: Multimodal Generation of Novel Action Appearances for Synthetic-to-Real
Recognition of Activities of Daily Living
- arxiv url: http://arxiv.org/abs/2208.01910v1
- Date: Wed, 3 Aug 2022 08:28:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-04 13:40:55.289568
- Title: Multimodal Generation of Novel Action Appearances for Synthetic-to-Real
Recognition of Activities of Daily Living
- Title(参考訳): 生活活動の総合的認識のための新しい行動表現のマルチモーダル生成
- Authors: Zdravko Marinov, David Schneider, Alina Roitberg, Rainer Stiefelhagen
- Abstract要約: 外見の変化のようなドメインシフトは、アクティビティ認識モデルの現実的な応用において重要な課題である。
本稿では,既存の活動モダリティから新たなADLの出現を生成するアクティビティドメイン生成フレームワークを提案する。
本フレームワークは,人間のポーズ,体継手のヒートマップ,光フローマップを計算し,元のRGBビデオと併用してソースドメインの本質を学習する。
- 参考スコア(独自算出の注目度): 25.04517296731092
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Domain shifts, such as appearance changes, are a key challenge in real-world
applications of activity recognition models, which range from assistive
robotics and smart homes to driver observation in intelligent vehicles. For
example, while simulations are an excellent way of economical data collection,
a Synthetic-to-Real domain shift leads to a > 60% drop in accuracy when
recognizing activities of Daily Living (ADLs). We tackle this challenge and
introduce an activity domain generation framework which creates novel ADL
appearances (novel domains) from different existing activity modalities (source
domains) inferred from video training data. Our framework computes human poses,
heatmaps of body joints, and optical flow maps and uses them alongside the
original RGB videos to learn the essence of source domains in order to generate
completely new ADL domains. The model is optimized by maximizing the distance
between the existing source appearances and the generated novel appearances
while ensuring that the semantics of an activity is preserved through an
additional classification loss. While source data multimodality is an important
concept in this design, our setup does not rely on multi-sensor setups, (i.e.,
all source modalities are inferred from a single video only.) The newly created
activity domains are then integrated in the training of the ADL classification
networks, resulting in models far less susceptible to changes in data
distributions. Extensive experiments on the Synthetic-to-Real benchmark
Sims4Action demonstrate the potential of the domain generation paradigm for
cross-domain ADL recognition, setting new state-of-the-art results. Our code is
publicly available at https://github.com/Zrrr1997/syn2real_DG
- Abstract(参考訳): 外観の変化などのドメインシフトは、アシストロボティクスやスマートホームからインテリジェントな車両でのドライバーの観察まで、アクティビティ認識モデルの現実的な応用における重要な課題である。
例えば、シミュレーションは経済的なデータ収集の優れた方法であるが、ADL(Daily Living)の活動を認識すると、Synthetic-to-Realドメインシフトは60%以上精度が低下する。
この課題に取り組み,ビデオトレーニングデータから推定される異なる既存のアクティビティモダリティ(ソースドメイン)から新たなadl出現(ノベルドメイン)を生成するアクティビティドメイン生成フレームワークを導入する。
我々のフレームワークは人間のポーズ、体節のヒートマップ、光学フローマップを計算し、元のRGBビデオと併用して、ソースドメインの本質を学習し、完全に新しいADLドメインを生成する。
このモデルは、既存のソース外観と生成された新しい外観との間の距離を最大化し、追加の分類損失によってアクティビティのセマンティクスが保持されるようにすることで最適化される。
この設計において、ソースデータのマルチモーダリティは重要な概念であるが、我々の設定はマルチセンサーのセットアップに依存していない(つまり、すべてのソースモーダリティは単一のビデオからのみ推測される)。
Synthetic-to-RealベンチマークSims4Actionの大規模な実験は、ドメイン間ADL認識におけるドメイン生成パラダイムの可能性を示し、新しい最先端の結果を設定している。
私たちのコードはhttps://github.com/Zrrr1997/syn2real_DGで公開されています。
関連論文リスト
- Revisiting the Domain Shift and Sample Uncertainty in Multi-source
Active Domain Transfer [69.82229895838577]
Active Domain Adaptation (ADA)は、アノテートするターゲットデータの限られた数を選択することで、新しいターゲットドメインにおけるモデル適応を最大限に向上することを目的としている。
この設定は、複数のソースからトレーニングデータを収集するより実践的なシナリオを無視します。
これは、ADAを単一のソースドメインから複数のソースドメインに拡張する、新しい、挑戦的な知識転送の設定を目標にしています。
論文 参考訳(メタデータ) (2023-11-21T13:12:21Z) - SPADES: A Realistic Spacecraft Pose Estimation Dataset using Event
Sensing [9.583223655096077]
実際のターゲットデータセットへのアクセスが限られているため、アルゴリズムはしばしば合成データを使用して訓練され、実際のドメインに適用される。
イベントセンシングは過去にも行われており、シミュレーションと実世界のシナリオの間のドメインギャップを減らすことが示されている。
制御された実験室で取得した実イベントデータと、同じカメラ内在性を用いてイベントデータをシミュレートした新しいデータセットSPADESを提案する。
論文 参考訳(メタデータ) (2023-11-09T12:14:47Z) - ViDA: Homeostatic Visual Domain Adapter for Continual Test Time
Adaptation [49.84571101331491]
目標ドメインの継続的な変更に事前訓練されたモデルを適用するために、CTTAタスクを提案する。
我々はCTTAのためのビジュアルドメインアダプタ(ViDA)を提案し、ドメイン固有知識とドメイン共有知識の両方を明示的に扱う。
提案手法は,CTTAタスクの分類とセグメント化の両方において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-06-07T11:18:53Z) - RelaMiX: Exploring Few-Shot Adaptation in Video-based Action Recognition [48.25320196587867]
ビデオベースアクティビティ認識(FSDA-AR)のためのFew-Shot Domain Adaptation
多様なドメインタイプを考慮した5つの確立されたデータセットを用いてFSDA-ARベンチマークを構築した。
本稿では,数少ないラベル付き対象ドメインサンプルを知識ガイダンスとして活用するための新しいアプローチであるRelaMiXを提案する。
論文 参考訳(メタデータ) (2023-05-15T08:01:05Z) - Synthetic-to-Real Domain Adaptation for Action Recognition: A Dataset
and Baseline Performances [87.20906333918032]
ロボット制御ジェスチャー(RoCoG-v2)と呼ばれる新しいデータセットを導入する。
データセットは7つのジェスチャークラスの実ビデオと合成ビデオの両方で構成されている。
我々は,最先端の行動認識とドメイン適応アルゴリズムを用いて結果を示す。
論文 参考訳(メタデータ) (2023-03-17T23:23:55Z) - Domain Adaptation of Synthetic Driving Datasets for Real-World
Autonomous Driving [0.11470070927586014]
特定のコンピュータビジョンタスクのための合成データで訓練されたネットワークは、実世界のデータでテストすると大幅に劣化する。
本稿では,このような手法を改良するための新しい手法を提案し,評価する。
本稿では,このペア選択にセマンティック・インスペクションを効果的に組み込む手法を提案し,モデルの性能向上に寄与する。
論文 参考訳(メタデータ) (2023-02-08T15:51:54Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Towards Optimal Strategies for Training Self-Driving Perception Models
in Simulation [98.51313127382937]
合成ドメインのみにおけるラベルの使用に焦点を当てる。
提案手法では,ニューラル不変表現の学習方法と,シミュレータからデータをサンプリングする方法に関する理論的にインスピレーションを得た視点を導入する。
マルチセンサーデータを用いた鳥眼視車両分割作業におけるアプローチについて紹介する。
論文 参考訳(メタデータ) (2021-11-15T18:37:43Z) - Towards Adaptive Semantic Segmentation by Progressive Feature Refinement [16.40758125170239]
セグメンテーションネットワークの転送可能性を高めるために,ドメイン逆学習とともに,革新的なプログレッシブな特徴改善フレームワークを提案する。
その結果、ソース・ドメイン・イメージで訓練されたセグメンテーション・モデルは、大幅な性能劣化を伴わずにターゲット・ドメインに転送できる。
論文 参考訳(メタデータ) (2020-09-30T04:17:48Z) - Style-transfer GANs for bridging the domain gap in synthetic pose
estimator training [8.508403388002133]
画素レベルの画像変換に汎用的なGANモデルを採用することを提案する。
得られたモデルは、トレーニング中または推論時に、ドメインギャップをブリッジするために使用される。
ドメインランダム化の程度で訓練されたモデルと比較すると,モデルの性能は大幅に向上した。
論文 参考訳(メタデータ) (2020-04-28T17:35:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。