論文の概要: Closing the Gap in Human Behavior Analysis: A Pipeline for Synthesizing
Trimodal Data
- arxiv url: http://arxiv.org/abs/2402.01537v1
- Date: Fri, 2 Feb 2024 16:27:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 14:12:46.842409
- Title: Closing the Gap in Human Behavior Analysis: A Pipeline for Synthesizing
Trimodal Data
- Title(参考訳): 人間の行動分析におけるギャップの閉鎖:トリモーダルデータの合成のためのパイプライン
- Authors: Christian Stippel, Thomas Heitzinger, Rafael Sterzinger, Martin Kampel
- Abstract要約: 本稿では,RGB,熱,深度,人間中心のデータセットを新たに生成する手法を提案する。
この技術は、RGB画像から得られる人間のセグメンテーションマスクと、自動的に出力される熱的背景と深さ的背景を組み合わせて活用する。
このアプローチを用いることで、限られたデータ、悪い雷条件、プライバシに敏感な領域の設定のためのモデルのトレーニングに利用できるトリモーダルデータを生成する。
- 参考スコア(独自算出の注目度): 1.8024397171920885
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In pervasive machine learning, especially in Human Behavior Analysis (HBA),
RGB has been the primary modality due to its accessibility and richness of
information. However, linked with its benefits are challenges, including
sensitivity to lighting conditions and privacy concerns. One possibility to
overcome these vulnerabilities is to resort to different modalities. For
instance, thermal is particularly adept at accentuating human forms, while
depth adds crucial contextual layers. Despite their known benefits, only a few
HBA-specific datasets that integrate these modalities exist. To address this
shortage, our research introduces a novel generative technique for creating
trimodal, i.e., RGB, thermal, and depth, human-focused datasets. This technique
capitalizes on human segmentation masks derived from RGB images, combined with
thermal and depth backgrounds that are sourced automatically. With these two
ingredients, we synthesize depth and thermal counterparts from existing RGB
data utilizing conditional image-to-image translation. By employing this
approach, we generate trimodal data that can be leveraged to train models for
settings with limited data, bad lightning conditions, or privacy-sensitive
areas.
- Abstract(参考訳): 広汎な機械学習、特にHBA(Human Behavior Analysis)において、RGBはそのアクセシビリティと情報豊かさのために主要なモダリティとなっている。
しかし、その利点と結びつくのは、照明条件への敏感さやプライバシー上の懸念といった課題だ。
これらの脆弱性を克服するひとつの可能性は、異なるモダリティに頼ることだ。
例えば、熱は人間の形をアクセントするのに特に適しており、深度は重要なコンテキスト層を追加します。
既知の利点にもかかわらず、これらのモダリティを統合するHBA固有のデータセットはわずかである。
この不足に対処するため,本研究は,rgb,熱,深さといった,人間中心のデータセットを作成するための新しい生成手法を提案する。
この技術は、RGB画像から得られる人間のセグメンテーションマスクと、自動的に出力される熱的背景と深さ的背景を組み合わせて活用する。
これら2つの成分を用いて,条件付き画像-画像変換を用いた既存のRGBデータから深度および熱的相似情報を合成する。
このアプローチを用いることで、限られたデータ、悪い雷条件、プライバシに敏感な領域の設定のためのモデルのトレーニングに利用できるトリモーダルデータを生成する。
関連論文リスト
- Depth-based Privileged Information for Boosting 3D Human Pose Estimation on RGB [48.31210455404533]
ヒートマップに基づく3Dポーズ推定器は、推定時に与えられるRGBフレームから深度情報を幻覚することができる。
深度情報は、RGBベースの幻覚ネットワークを強制して、深度データのみに基づいて事前訓練されたバックボーンに類似した特徴を学習することによって、トレーニング中にのみ使用される。
論文 参考訳(メタデータ) (2024-09-17T11:59:34Z) - T-FAKE: Synthesizing Thermal Images for Facial Landmarking [8.20594611891252]
スパースと密集したランドマークを持つ新しい大規模合成熱データセットであるT-FAKEデータセットを紹介する。
我々のモデルは、スパース70点のランドマークと密度478点のランドマークアノテーションの両方で優れた性能を示している。
論文 参考訳(メタデータ) (2024-08-27T15:07:58Z) - Ternary-Type Opacity and Hybrid Odometry for RGB NeRF-SLAM [58.736472371951955]
表面を交差する光線上の点を3つの領域(前・前・後・後)に分類する3成分式不透明度モデルを導入する。
これにより、より正確な深度のレンダリングが可能となり、画像ワープ技術の性能が向上する。
TTとHOの統合アプローチは,合成および実世界のデータセット上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-12-20T18:03:17Z) - Attentive Multimodal Fusion for Optical and Scene Flow [24.08052492109655]
既存の方法は通常、RGB画像のみに依存するか、後段のモダリティを融合させる。
本稿では,センサモード間の早期情報融合を可能にするFusionRAFTという新しいディープニューラルネットワーク手法を提案する。
提案手法は,RGB画像に影響を及ぼすノイズや低照度条件の存在下での堅牢性の向上を示す。
論文 参考訳(メタデータ) (2023-07-28T04:36:07Z) - Symmetric Uncertainty-Aware Feature Transmission for Depth
Super-Resolution [52.582632746409665]
カラー誘導DSRのためのSymmetric Uncertainty-aware Feature Transmission (SUFT)を提案する。
本手法は最先端の手法と比較して優れた性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T06:35:59Z) - What Happened 3 Seconds Ago? Inferring the Past with Thermal Imaging [22.923237551192834]
人体動作解析のための最初のRGBサーマルデータセットを収集した。
我々は過去の人間のポーズ推定を正確にするための3段階ニューラルネットワークモデルを開発した。
論文 参考訳(メタデータ) (2023-04-26T16:23:10Z) - Consistent Depth Prediction under Various Illuminations using Dilated
Cross Attention [1.332560004325655]
我々は,インターネット3D屋内シーンを用いて照明を手動で調整し,写真リアルなRGB写真とその対応する深度とBRDFマップを作成することを提案する。
異なる照明条件下での深度予測の整合性を維持するため,これらの拡張された特徴に横断的な注意を払っている。
提案手法は,Variデータセットの最先端手法との比較により評価され,実験で有意な改善が見られた。
論文 参考訳(メタデータ) (2021-12-15T10:02:46Z) - Function4D: Real-time Human Volumetric Capture from Very Sparse Consumer
RGBD Sensors [67.88097893304274]
時間的融合と深い暗黙機能を組み合わせた人間の体積捕獲法を提案する。
トポロジーの整合性とともに深度観測を融合する動的スライディングを提案する。
論文 参考訳(メタデータ) (2021-05-05T04:12:38Z) - Learning Selective Mutual Attention and Contrast for RGB-D Saliency
Detection [145.4919781325014]
クロスモーダル情報を効果的に融合する方法は、RGB-Dの有能な物体検出の鍵となる問題である。
多くのモデルは特徴融合戦略を用いるが、低次点対点融合法によって制限されている。
本研究では,異なるモダリティから注目とコンテキストを融合させることにより,新たな相互注意モデルを提案する。
論文 参考訳(メタデータ) (2020-10-12T08:50:10Z) - 3D Dense Geometry-Guided Facial Expression Synthesis by Adversarial
Learning [54.24887282693925]
本稿では,3次元密度(深度,表面正規度)情報を表現操作に用いる新しいフレームワークを提案する。
既製の最先端3D再構成モデルを用いて深度を推定し,大規模RGB-Depthデータセットを作成する。
実験により,提案手法は競争ベースラインと既存の芸術を大きなマージンで上回ることを示した。
論文 参考訳(メタデータ) (2020-09-30T17:12:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。