論文の概要: Robots Autonomously Detecting People: A Multimodal Deep Contrastive
Learning Method Robust to Intraclass Variations
- arxiv url: http://arxiv.org/abs/2203.00187v1
- Date: Tue, 1 Mar 2022 02:36:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-02 14:47:19.995690
- Title: Robots Autonomously Detecting People: A Multimodal Deep Contrastive
Learning Method Robust to Intraclass Variations
- Title(参考訳): 人を自動的に検出するロボット:クラス内変動に頑健なマルチモーダル・コントラスト学習法
- Authors: Angus Fung, Beno Benhabib, Goldie Nejat
- Abstract要約: 本稿では,クラス内変動下での人検出の移動ロボット問題に対処する,新しいマルチモーダル人検出アーキテクチャを提案する。
本稿では,1)時間不変なマルチモーダルコントラスト学習(TimCLR)と,2)MFRCNN(Multimal Faster R-CNN)検出器を用いた2段階学習手法を提案する。
- 参考スコア(独自算出の注目度): 3.0616624345970975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robotic detection of people in crowded and/or cluttered human-centered
environments including hospitals, long-term care, stores and airports is
challenging as people can become occluded by other people or objects, and
deform due to variations in clothing or pose. There can also be loss of
discriminative visual features due to poor lighting. In this paper, we present
a novel multimodal person detection architecture to address the mobile robot
problem of person detection under intraclass variations. We present a two-stage
training approach using 1) a unique pretraining method we define as Temporal
Invariant Multimodal Contrastive Learning (TimCLR), and 2) a Multimodal Faster
R-CNN (MFRCNN) detector. TimCLR learns person representations that are
invariant under intraclass variations through unsupervised learning. Our
approach is unique in that it generates image pairs from natural variations
within multimodal image sequences, in addition to synthetic data augmentation,
and contrasts crossmodal features to transfer invariances between different
modalities. These pretrained features are used by the MFRCNN detector for
finetuning and person detection from RGB-D images. Extensive experiments
validate the performance of our DL architecture in both human-centered crowded
and cluttered environments. Results show that our method outperforms existing
unimodal and multimodal person detection approaches in terms of detection
accuracy in detecting people with body occlusions and pose deformations in
different lighting conditions.
- Abstract(参考訳): 病院, 長期ケア, 店舗, 空港など, 混み合った, あるいは散らばった人間中心の環境にいる人々のロボットによる検出は, 他者や物に遮られ, 衣服やポーズのバリエーションによって変形するので困難である。
照明が弱いため、識別的な視覚的特徴が失われることもある。
本稿では,クラス内変動下での人検出の移動ロボット問題に対処する,新しいマルチモーダル人検出アーキテクチャを提案する。
2段階のトレーニング手法を提案する。
1) 時間不変なマルチモーダルコントラスト学習(TimCLR)と定義する独自の事前学習手法
2)MFRCNN(Multimodal Faster R-CNN)検出器。
TimCLRは教師なし学習を通じてクラス内で不変な人表現を学習する。
本手法は,多様画像列内の自然な変動から画像対を生成し,合成データ拡張に加え,異なるモダリティ間の不変性を伝達するクロスモーダル特徴をコントラストする点においてユニークな手法である。
これらの事前訓練された特徴は、RGB-D画像からの微調整と人物検出のためにMFRCNN検出器によって使用される。
人中心混在環境と散在環境の両方におけるDLアーキテクチャの性能評価実験を行った。
提案手法は, 異なる照明条件下での身体閉塞者やポーズ変形者の検出において, 検出精度の観点から, 既存のユニモーダル・マルチモーダル人物検出手法よりも優れていることを示す。
関連論文リスト
- StealthDiffusion: Towards Evading Diffusion Forensic Detection through Diffusion Model [62.25424831998405]
StealthDiffusionは、AI生成した画像を高品質で受け入れがたい敵の例に修正するフレームワークである。
ホワイトボックスとブラックボックスの設定の両方で有効であり、AI生成した画像を高品質な敵の偽造に変換する。
論文 参考訳(メタデータ) (2024-08-11T01:22:29Z) - RIGID: A Training-free and Model-Agnostic Framework for Robust AI-Generated Image Detection [60.960988614701414]
RIGIDは、堅牢なAI生成画像検出のためのトレーニング不要でモデルに依存しない方法である。
RIGIDは、既存のトレーニングベースおよびトレーニング不要な検出器を著しく上回っている。
論文 参考訳(メタデータ) (2024-05-30T14:49:54Z) - Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z) - LDTrack: Dynamic People Tracking by Service Robots using Diffusion Models [6.049096929667388]
本稿では、条件付き潜伏拡散モデル(LDTrack)を用いて、複数の動的人物をクラス内変動下で追跡する新しいディープラーニングアーキテクチャを提案する。
集団実験により, クラス内変動下での雑多で混在する人中心環境において, LDTrackの他の最先端追跡法に対する効果が示された。
論文 参考訳(メタデータ) (2024-02-13T20:16:31Z) - On Sensitivity and Robustness of Normalization Schemes to Input
Distribution Shifts in Automatic MR Image Diagnosis [58.634791552376235]
深層学習(DL)モデルは、再構成画像を入力として、複数の疾患の診断において最先端のパフォーマンスを達成した。
DLモデルは、トレーニングとテストフェーズ間の入力データ分布の変化につながるため、さまざまなアーティファクトに敏感である。
本稿では,グループ正規化やレイヤ正規化といった他の正規化手法を用いて,画像のさまざまなアーチファクトに対して,モデル性能にロバスト性を注入することを提案する。
論文 参考訳(メタデータ) (2023-06-23T03:09:03Z) - DCdetector: Dual Attention Contrastive Representation Learning for Time
Series Anomaly Detection [26.042898544127503]
時系列異常検出は幅広い用途において重要である。
時系列の通常のサンプル分布から逸脱したサンプルを識別することを目的としている。
マルチスケールな二重注意コントラスト表現学習モデルであるDCdetectorを提案する。
論文 参考訳(メタデータ) (2023-06-17T13:40:15Z) - Progressive Multi-view Human Mesh Recovery with Self-Supervision [68.60019434498703]
既存のソリューションは通常、新しい設定への一般化性能の低下に悩まされる。
マルチビューヒューマンメッシュリカバリのためのシミュレーションに基づく新しいトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2022-12-10T06:28:29Z) - Improving Deep Facial Phenotyping for Ultra-rare Disorder Verification
Using Model Ensembles [52.77024349608834]
我々は、DCNNを最先端の顔認識手法であるiResNetとArcFaceに置き換える影響を分析する。
提案するアンサンブルモデルにより,目視と目視の両障害に対する最先端のパフォーマンスが達成される。
論文 参考訳(メタデータ) (2022-11-12T23:28:54Z) - Margin-Aware Intra-Class Novelty Identification for Medical Images [2.647674705784439]
ノベルティ検出のためのハイブリッドモデル-変換に基づく埋め込み学習(TEND)を提案する。
事前訓練されたオートエンコーダを画像特徴抽出器として、TENDは変換されたオートエンコーダから分布内データの特徴埋め込みを偽のアウト・オブ・ディストリビューション入力として識別する。
論文 参考訳(メタデータ) (2021-07-31T00:10:26Z) - Multi-Modal Anomaly Detection for Unstructured and Uncertain
Environments [5.677685109155077]
現代のロボットは、最小限の人間の監督で異常や故障を検出して回復する能力を必要とします。
本稿では,非構造的かつ不確実な環境での障害識別のための教師付き変分オートエンコーダ(SVAE)を提案する。
実地ロボットデータを用いた実験では,ベースライン法よりも障害同定性能が優れており,解釈可能な表現を学習できる。
論文 参考訳(メタデータ) (2020-12-15T21:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。