Fugu-MT 論文翻訳(概要): Multimodal Generation of Novel Action Appearances for Synthetic-to-Real Recognition of Activities of Daily Living

論文の概要: Multimodal Generation of Novel Action Appearances for Synthetic-to-Real Recognition of Activities of Daily Living

arxiv url: http://arxiv.org/abs/2208.01910v1
Date: Wed, 3 Aug 2022 08:28:33 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-04 13:40:55.289568
Title: Multimodal Generation of Novel Action Appearances for Synthetic-to-Real Recognition of Activities of Daily Living
Title（参考訳）: 生活活動の総合的認識のための新しい行動表現のマルチモーダル生成
Authors: Zdravko Marinov, David Schneider, Alina Roitberg, Rainer Stiefelhagen
Abstract要約: 外見の変化のようなドメインシフトは、アクティビティ認識モデルの現実的な応用において重要な課題である。本稿では,既存の活動モダリティから新たなADLの出現を生成するアクティビティドメイン生成フレームワークを提案する。本フレームワークは,人間のポーズ,体継手のヒートマップ,光フローマップを計算し,元のRGBビデオと併用してソースドメインの本質を学習する。
参考スコア（独自算出の注目度）: 25.04517296731092
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Domain shifts, such as appearance changes, are a key challenge in real-world applications of activity recognition models, which range from assistive robotics and smart homes to driver observation in intelligent vehicles. For example, while simulations are an excellent way of economical data collection, a Synthetic-to-Real domain shift leads to a > 60% drop in accuracy when recognizing activities of Daily Living (ADLs). We tackle this challenge and introduce an activity domain generation framework which creates novel ADL appearances (novel domains) from different existing activity modalities (source domains) inferred from video training data. Our framework computes human poses, heatmaps of body joints, and optical flow maps and uses them alongside the original RGB videos to learn the essence of source domains in order to generate completely new ADL domains. The model is optimized by maximizing the distance between the existing source appearances and the generated novel appearances while ensuring that the semantics of an activity is preserved through an additional classification loss. While source data multimodality is an important concept in this design, our setup does not rely on multi-sensor setups, (i.e., all source modalities are inferred from a single video only.) The newly created activity domains are then integrated in the training of the ADL classification networks, resulting in models far less susceptible to changes in data distributions. Extensive experiments on the Synthetic-to-Real benchmark Sims4Action demonstrate the potential of the domain generation paradigm for cross-domain ADL recognition, setting new state-of-the-art results. Our code is publicly available at https://github.com/Zrrr1997/syn2real_DG
Abstract（参考訳）: 外観の変化などのドメインシフトは、アシストロボティクスやスマートホームからインテリジェントな車両でのドライバーの観察まで、アクティビティ認識モデルの現実的な応用における重要な課題である。例えば、シミュレーションは経済的なデータ収集の優れた方法であるが、ADL(Daily Living)の活動を認識すると、Synthetic-to-Realドメインシフトは60%以上精度が低下する。この課題に取り組み,ビデオトレーニングデータから推定される異なる既存のアクティビティモダリティ(ソースドメイン)から新たなadl出現(ノベルドメイン)を生成するアクティビティドメイン生成フレームワークを導入する。我々のフレームワークは人間のポーズ、体節のヒートマップ、光学フローマップを計算し、元のRGBビデオと併用して、ソースドメインの本質を学習し、完全に新しいADLドメインを生成する。このモデルは、既存のソース外観と生成された新しい外観との間の距離を最大化し、追加の分類損失によってアクティビティのセマンティクスが保持されるようにすることで最適化される。この設計において、ソースデータのマルチモーダリティは重要な概念であるが、我々の設定はマルチセンサーのセットアップに依存していない(つまり、すべてのソースモーダリティは単一のビデオからのみ推測される)。 Synthetic-to-RealベンチマークSims4Actionの大規模な実験は、ドメイン間ADL認識におけるドメイン生成パラダイムの可能性を示し、新しい最先端の結果を設定している。私たちのコードはhttps://github.com/Zrrr1997/syn2real_DGで公開されています。

関連論文リスト

Style Transfer with Diffusion Models for Synthetic-to-Real Domain Adaptation [4.50001192781448]
拡散モデルを用いた意味論的一貫したスタイル伝達のための2つの新しい手法を提案する。 GTA5をソースとして,Cityscapes/ACDCをターゲットドメインとして実験したところ,FIDスコアが低く,コンテンツ保存性が向上した高品質な画像が得られた。
論文参考訳（メタデータ） (2025-05-22T08:11:10Z)
Let Synthetic Data Shine: Domain Reassembly and Soft-Fusion for Single Domain Generalization [68.41367635546183]
単一ドメインの一般化は、単一のソースからのデータを使用して、さまざまなシナリオで一貫したパフォーマンスでモデルをトレーニングすることを目的としている。モデル一般化を改善するために合成データを活用した学習フレームワークDRSFを提案する。
論文参考訳（メタデータ） (2025-03-17T18:08:03Z)
Exploiting Aggregation and Segregation of Representations for Domain Adaptive Human Pose Estimation [50.31351006532924]
人間のポーズ推定(HPE)は最近、モーション分析、バーチャルリアリティー、ヘルスケア等に広く応用されているため、注目を集めている。時間と労働集約的なアノテーションのために、ラベル付き現実世界のデータセットが不足している。本稿では,ドメイン適応型人間のポーズ推定のための表現集約と分離を両立させる新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-29T17:59:45Z)
Learn from the Learnt: Source-Free Active Domain Adaptation via Contrastive Sampling and Visual Persistence [60.37934652213881]
ドメイン適応(DA)は、ソースドメインから関連するターゲットドメインへの知識伝達を容易にする。本稿では、ソースデータフリーなアクティブドメイン適応(SFADA)という実用的なDAパラダイムについて検討する。本稿では,学習者学習(LFTL)というSFADAの新たなパラダイムを紹介し,学習した学習知識を事前学習モデルから活用し,余分なオーバーヘッドを伴わずにモデルを積極的に反復する。
論文参考訳（メタデータ） (2024-07-26T17:51:58Z)
Revisiting the Domain Shift and Sample Uncertainty in Multi-source Active Domain Transfer [69.82229895838577]
Active Domain Adaptation (ADA)は、アノテートするターゲットデータの限られた数を選択することで、新しいターゲットドメインにおけるモデル適応を最大限に向上することを目的としている。この設定は、複数のソースからトレーニングデータを収集するより実践的なシナリオを無視します。これは、ADAを単一のソースドメインから複数のソースドメインに拡張する、新しい、挑戦的な知識転送の設定を目標にしています。
論文参考訳（メタデータ） (2023-11-21T13:12:21Z)
SPADES: A Realistic Spacecraft Pose Estimation Dataset using Event Sensing [9.583223655096077]
実際のターゲットデータセットへのアクセスが限られているため、アルゴリズムはしばしば合成データを使用して訓練され、実際のドメインに適用される。イベントセンシングは過去にも行われており、シミュレーションと実世界のシナリオの間のドメインギャップを減らすことが示されている。制御された実験室で取得した実イベントデータと、同じカメラ内在性を用いてイベントデータをシミュレートした新しいデータセットSPADESを提案する。
論文参考訳（メタデータ） (2023-11-09T12:14:47Z)
Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文参考訳（メタデータ） (2023-06-09T07:22:12Z)
Domain-Adaptive Full-Face Gaze Estimation via Novel-View-Synthesis and Feature Disentanglement [12.857137513211866]
本稿では、教師なしドメイン適応のためのトレーニングデータ合成と視線推定モデルからなる効果的なモデルトレーニングパイプラインを提案する。提案したデータ合成は、単一画像の3D再構成を利用して、3次元の顔形状データセットを必要とせずに、ソース領域から頭部ポーズの範囲を広げる。本稿では、視線関連特徴を分離し、背景アグリゲーション整合性損失を導入し、合成音源領域の特性を生かしたディエンタングリングオートエンコーダネットワークを提案する。
論文参考訳（メタデータ） (2023-05-25T15:15:03Z)
Exploring Few-Shot Adaptation for Activity Recognition on Diverse Domains [46.26074225989355]
ドメイン適応は、さまざまな環境における正確で堅牢なパフォーマンスを保証するために、アクティビティ認識に不可欠である。本研究では,FewShot Domain Adaptation for Activity Recognition (FSDA-AR) に焦点をあてる。より多様で困難な領域への適応を考慮した5つの確立されたデータセットを用いた新しいFSDA-ARを提案する。
論文参考訳（メタデータ） (2023-05-15T08:01:05Z)
Synthetic-to-Real Domain Adaptation for Action Recognition: A Dataset and Baseline Performances [76.34037366117234]
ロボット制御ジェスチャー(RoCoG-v2)と呼ばれる新しいデータセットを導入する。データセットは7つのジェスチャークラスの実ビデオと合成ビデオの両方で構成されている。我々は,最先端の行動認識とドメイン適応アルゴリズムを用いて結果を示す。
論文参考訳（メタデータ） (2023-03-17T23:23:55Z)
Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文参考訳（メタデータ） (2022-07-17T07:05:39Z)
Towards Optimal Strategies for Training Self-Driving Perception Models in Simulation [98.51313127382937]
合成ドメインのみにおけるラベルの使用に焦点を当てる。提案手法では,ニューラル不変表現の学習方法と,シミュレータからデータをサンプリングする方法に関する理論的にインスピレーションを得た視点を導入する。マルチセンサーデータを用いた鳥眼視車両分割作業におけるアプローチについて紹介する。
論文参考訳（メタデータ） (2021-11-15T18:37:43Z)
Towards Adaptive Semantic Segmentation by Progressive Feature Refinement [16.40758125170239]
セグメンテーションネットワークの転送可能性を高めるために,ドメイン逆学習とともに,革新的なプログレッシブな特徴改善フレームワークを提案する。その結果、ソース・ドメイン・イメージで訓練されたセグメンテーション・モデルは、大幅な性能劣化を伴わずにターゲット・ドメインに転送できる。
論文参考訳（メタデータ） (2020-09-30T04:17:48Z)
Style-transfer GANs for bridging the domain gap in synthetic pose estimator training [8.508403388002133]
画素レベルの画像変換に汎用的なGANモデルを採用することを提案する。得られたモデルは、トレーニング中または推論時に、ドメインギャップをブリッジするために使用される。ドメインランダム化の程度で訓練されたモデルと比較すると,モデルの性能は大幅に向上した。
論文参考訳（メタデータ） (2020-04-28T17:35:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。