論文の概要: Robots Autonomously Detecting People: A Multimodal Deep Contrastive
Learning Method Robust to Intraclass Variations
- arxiv url: http://arxiv.org/abs/2203.00187v1
- Date: Tue, 1 Mar 2022 02:36:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-02 14:47:19.995690
- Title: Robots Autonomously Detecting People: A Multimodal Deep Contrastive
Learning Method Robust to Intraclass Variations
- Title(参考訳): 人を自動的に検出するロボット:クラス内変動に頑健なマルチモーダル・コントラスト学習法
- Authors: Angus Fung, Beno Benhabib, Goldie Nejat
- Abstract要約: 本稿では,クラス内変動下での人検出の移動ロボット問題に対処する,新しいマルチモーダル人検出アーキテクチャを提案する。
本稿では,1)時間不変なマルチモーダルコントラスト学習(TimCLR)と,2)MFRCNN(Multimal Faster R-CNN)検出器を用いた2段階学習手法を提案する。
- 参考スコア(独自算出の注目度): 3.0616624345970975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robotic detection of people in crowded and/or cluttered human-centered
environments including hospitals, long-term care, stores and airports is
challenging as people can become occluded by other people or objects, and
deform due to variations in clothing or pose. There can also be loss of
discriminative visual features due to poor lighting. In this paper, we present
a novel multimodal person detection architecture to address the mobile robot
problem of person detection under intraclass variations. We present a two-stage
training approach using 1) a unique pretraining method we define as Temporal
Invariant Multimodal Contrastive Learning (TimCLR), and 2) a Multimodal Faster
R-CNN (MFRCNN) detector. TimCLR learns person representations that are
invariant under intraclass variations through unsupervised learning. Our
approach is unique in that it generates image pairs from natural variations
within multimodal image sequences, in addition to synthetic data augmentation,
and contrasts crossmodal features to transfer invariances between different
modalities. These pretrained features are used by the MFRCNN detector for
finetuning and person detection from RGB-D images. Extensive experiments
validate the performance of our DL architecture in both human-centered crowded
and cluttered environments. Results show that our method outperforms existing
unimodal and multimodal person detection approaches in terms of detection
accuracy in detecting people with body occlusions and pose deformations in
different lighting conditions.
- Abstract(参考訳): 病院, 長期ケア, 店舗, 空港など, 混み合った, あるいは散らばった人間中心の環境にいる人々のロボットによる検出は, 他者や物に遮られ, 衣服やポーズのバリエーションによって変形するので困難である。
照明が弱いため、識別的な視覚的特徴が失われることもある。
本稿では,クラス内変動下での人検出の移動ロボット問題に対処する,新しいマルチモーダル人検出アーキテクチャを提案する。
2段階のトレーニング手法を提案する。
1) 時間不変なマルチモーダルコントラスト学習(TimCLR)と定義する独自の事前学習手法
2)MFRCNN(Multimodal Faster R-CNN)検出器。
TimCLRは教師なし学習を通じてクラス内で不変な人表現を学習する。
本手法は,多様画像列内の自然な変動から画像対を生成し,合成データ拡張に加え,異なるモダリティ間の不変性を伝達するクロスモーダル特徴をコントラストする点においてユニークな手法である。
これらの事前訓練された特徴は、RGB-D画像からの微調整と人物検出のためにMFRCNN検出器によって使用される。
人中心混在環境と散在環境の両方におけるDLアーキテクチャの性能評価実験を行った。
提案手法は, 異なる照明条件下での身体閉塞者やポーズ変形者の検出において, 検出精度の観点から, 既存のユニモーダル・マルチモーダル人物検出手法よりも優れていることを示す。
関連論文リスト
- LDTrack: Dynamic People Tracking by Service Robots using Diffusion
Models [6.798578739481274]
本稿では、条件付き潜伏拡散モデル(LDTrack)を用いて、複数の動的人物をクラス内変動下で追跡する新しいディープラーニングアーキテクチャを提案する。
我々は,高次元の潜伏空間内での拡散処理を可能にする潜在特徴エンコーダネットワークを導入し,人物の外観,動き,位置,アイデンティティ,文脈情報などのリッチな特徴の抽出と時間的改善を可能にする。
論文 参考訳(メタデータ) (2024-02-13T20:16:31Z) - Generating Human-Centric Visual Cues for Human-Object Interaction
Detection via Large Vision-Language Models [59.611697856666304]
人-物対検出(Human-object Interaction:HOI)は、人-物対を検出し、その相互作用を予測することを目的とする。
我々はVLMを用いた3つのプロンプトを提案し、人間の複数の視点から画像内で人間中心の視覚的手がかりを生成する。
我々は,マルチトワーアーキテクチャを用いたトランスフォーマーベースのマルチモーダル融合モジュールを開発し,視覚的キュー機能をインスタンスと対話デコーダに統合する。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - A Dual Attentive Generative Adversarial Network for Remote Sensing Image
Change Detection [6.906936669510404]
本稿では,高分解能なリモートセンシング画像変化検出タスクを実現するために,二重注意生成対向ネットワークを提案する。
DAGANフレームワークは、85.01%がIoU、91.48%がF1スコアであり、LEVIRデータセットの先進的な手法よりもパフォーマンスが良い。
論文 参考訳(メタデータ) (2023-10-03T08:26:27Z) - On Sensitivity and Robustness of Normalization Schemes to Input
Distribution Shifts in Automatic MR Image Diagnosis [58.634791552376235]
深層学習(DL)モデルは、再構成画像を入力として、複数の疾患の診断において最先端のパフォーマンスを達成した。
DLモデルは、トレーニングとテストフェーズ間の入力データ分布の変化につながるため、さまざまなアーティファクトに敏感である。
本稿では,グループ正規化やレイヤ正規化といった他の正規化手法を用いて,画像のさまざまなアーチファクトに対して,モデル性能にロバスト性を注入することを提案する。
論文 参考訳(メタデータ) (2023-06-23T03:09:03Z) - DCdetector: Dual Attention Contrastive Representation Learning for Time
Series Anomaly Detection [26.042898544127503]
時系列異常検出は幅広い用途において重要である。
時系列の通常のサンプル分布から逸脱したサンプルを識別することを目的としている。
マルチスケールな二重注意コントラスト表現学習モデルであるDCdetectorを提案する。
論文 参考訳(メタデータ) (2023-06-17T13:40:15Z) - Progressive Multi-view Human Mesh Recovery with Self-Supervision [68.60019434498703]
既存のソリューションは通常、新しい設定への一般化性能の低下に悩まされる。
マルチビューヒューマンメッシュリカバリのためのシミュレーションに基づく新しいトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2022-12-10T06:28:29Z) - Improving Deep Facial Phenotyping for Ultra-rare Disorder Verification
Using Model Ensembles [52.77024349608834]
我々は、DCNNを最先端の顔認識手法であるiResNetとArcFaceに置き換える影響を分析する。
提案するアンサンブルモデルにより,目視と目視の両障害に対する最先端のパフォーマンスが達成される。
論文 参考訳(メタデータ) (2022-11-12T23:28:54Z) - Margin-Aware Intra-Class Novelty Identification for Medical Images [2.647674705784439]
ノベルティ検出のためのハイブリッドモデル-変換に基づく埋め込み学習(TEND)を提案する。
事前訓練されたオートエンコーダを画像特徴抽出器として、TENDは変換されたオートエンコーダから分布内データの特徴埋め込みを偽のアウト・オブ・ディストリビューション入力として識別する。
論文 参考訳(メタデータ) (2021-07-31T00:10:26Z) - Exploring Adversarial Robustness of Multi-Sensor Perception Systems in
Self Driving [87.3492357041748]
本稿では,敵物体をホスト車両の上に配置することで,マルチセンサ検出の実用的感受性を示す。
実験の結果, 攻撃が成功した原因は主に画像の特徴が損なわれやすいことが判明した。
よりロバストなマルチモーダル知覚システムに向けて,特徴分断を伴う敵対的訓練が,このような攻撃に対するロバスト性を大幅に高めることを示す。
論文 参考訳(メタデータ) (2021-01-17T21:15:34Z) - Multi-Modal Anomaly Detection for Unstructured and Uncertain
Environments [5.677685109155077]
現代のロボットは、最小限の人間の監督で異常や故障を検出して回復する能力を必要とします。
本稿では,非構造的かつ不確実な環境での障害識別のための教師付き変分オートエンコーダ(SVAE)を提案する。
実地ロボットデータを用いた実験では,ベースライン法よりも障害同定性能が優れており,解釈可能な表現を学習できる。
論文 参考訳(メタデータ) (2020-12-15T21:59:58Z) - Encoding Robustness to Image Style via Adversarial Feature Perturbations [72.81911076841408]
我々は、画像画素ではなく特徴統計を直接摂動することで、頑健なモデルを生成することで、敵の訓練に適応する。
提案手法であるAdvBN(Adversarial Batch Normalization)は,トレーニング中に最悪の機能摂動を発生させる単一ネットワーク層である。
論文 参考訳(メタデータ) (2020-09-18T17:52:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。