Fugu-MT 論文翻訳(概要): Robots Autonomously Detecting People: A Multimodal Deep Contrastive Learning Method Robust to Intraclass Variations

論文の概要: Robots Autonomously Detecting People: A Multimodal Deep Contrastive Learning Method Robust to Intraclass Variations

arxiv url: http://arxiv.org/abs/2203.00187v1
Date: Tue, 1 Mar 2022 02:36:17 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-02 14:47:19.995690
Title: Robots Autonomously Detecting People: A Multimodal Deep Contrastive Learning Method Robust to Intraclass Variations
Title（参考訳）: 人を自動的に検出するロボット:クラス内変動に頑健なマルチモーダル・コントラスト学習法
Authors: Angus Fung, Beno Benhabib, Goldie Nejat
Abstract要約: 本稿では,クラス内変動下での人検出の移動ロボット問題に対処する,新しいマルチモーダル人検出アーキテクチャを提案する。本稿では,1)時間不変なマルチモーダルコントラスト学習(TimCLR)と,2)MFRCNN(Multimal Faster R-CNN)検出器を用いた2段階学習手法を提案する。
参考スコア（独自算出の注目度）: 3.0616624345970975
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Robotic detection of people in crowded and/or cluttered human-centered environments including hospitals, long-term care, stores and airports is challenging as people can become occluded by other people or objects, and deform due to variations in clothing or pose. There can also be loss of discriminative visual features due to poor lighting. In this paper, we present a novel multimodal person detection architecture to address the mobile robot problem of person detection under intraclass variations. We present a two-stage training approach using 1) a unique pretraining method we define as Temporal Invariant Multimodal Contrastive Learning (TimCLR), and 2) a Multimodal Faster R-CNN (MFRCNN) detector. TimCLR learns person representations that are invariant under intraclass variations through unsupervised learning. Our approach is unique in that it generates image pairs from natural variations within multimodal image sequences, in addition to synthetic data augmentation, and contrasts crossmodal features to transfer invariances between different modalities. These pretrained features are used by the MFRCNN detector for finetuning and person detection from RGB-D images. Extensive experiments validate the performance of our DL architecture in both human-centered crowded and cluttered environments. Results show that our method outperforms existing unimodal and multimodal person detection approaches in terms of detection accuracy in detecting people with body occlusions and pose deformations in different lighting conditions.
Abstract（参考訳）: 病院, 長期ケア, 店舗, 空港など, 混み合った, あるいは散らばった人間中心の環境にいる人々のロボットによる検出は, 他者や物に遮られ, 衣服やポーズのバリエーションによって変形するので困難である。照明が弱いため、識別的な視覚的特徴が失われることもある。本稿では,クラス内変動下での人検出の移動ロボット問題に対処する,新しいマルチモーダル人検出アーキテクチャを提案する。 2段階のトレーニング手法を提案する。 1) 時間不変なマルチモーダルコントラスト学習(TimCLR)と定義する独自の事前学習手法 2)MFRCNN(Multimodal Faster R-CNN)検出器。 TimCLRは教師なし学習を通じてクラス内で不変な人表現を学習する。本手法は,多様画像列内の自然な変動から画像対を生成し,合成データ拡張に加え,異なるモダリティ間の不変性を伝達するクロスモーダル特徴をコントラストする点においてユニークな手法である。これらの事前訓練された特徴は、RGB-D画像からの微調整と人物検出のためにMFRCNN検出器によって使用される。人中心混在環境と散在環境の両方におけるDLアーキテクチャの性能評価実験を行った。提案手法は, 異なる照明条件下での身体閉塞者やポーズ変形者の検出において, 検出精度の観点から, 既存のユニモーダル・マルチモーダル人物検出手法よりも優れていることを示す。

関連論文リスト

Modality-Aware Feature Matching: A Comprehensive Review of Single- and Cross-Modality Techniques [91.26187560114381]
特徴マッチングはコンピュータビジョンにおける基礎的な課題であり、画像検索、ステレオマッチング、3D再構成、SLAMなどのアプリケーションに必須である。本調査は,モダリティに基づく特徴マッチングを包括的にレビューし,従来の手作り手法と現代のディープラーニングアプローチについて検討する。
論文参考訳（メタデータ） (2025-07-30T15:56:36Z)
OCSVM-Guided Representation Learning for Unsupervised Anomaly Detection [1.0190194769786831]
Unsupervised Anomaly Detection (UAD) は、ラベル付きデータなしで異常を検出することを目的としている。解析的に解ける一級SVMを用いて表現学習を緊密に結合する新しい手法を提案する。このモデルは、MNIST-Cに基づく新しいベンチマークと、挑戦的な脳MRI微妙な病変検出タスクの2つのタスクで評価されている。
論文参考訳（メタデータ） (2025-07-25T13:00:40Z)
S2C: Learning Noise-Resistant Differences for Unsupervised Change Detection in Multimodal Remote Sensing Images [24.75086641416994]
マルチモーダルリモートセンシング(RS)画像における非時間変化検出(UCD)は難しい課題である。近年のVisual Foundation Models(VFM)とContrastive Learning(CL)方法論の進歩に触発されて,表現中の暗黙的な知識を変化に翻訳するCL方法論の開発を目指す。
論文参考訳（メタデータ） (2025-02-18T07:34:54Z)
Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文参考訳（メタデータ） (2024-11-28T13:04:45Z)
StealthDiffusion: Towards Evading Diffusion Forensic Detection through Diffusion Model [62.25424831998405]
StealthDiffusionは、AI生成した画像を高品質で受け入れがたい敵の例に修正するフレームワークである。ホワイトボックスとブラックボックスの設定の両方で有効であり、AI生成した画像を高品質な敵の偽造に変換する。
論文参考訳（メタデータ） (2024-08-11T01:22:29Z)
RIGID: A Training-free and Model-Agnostic Framework for Robust AI-Generated Image Detection [60.960988614701414]
RIGIDは、堅牢なAI生成画像検出のためのトレーニング不要でモデルに依存しない方法である。 RIGIDは、既存のトレーニングベースおよびトレーニング不要な検出器を著しく上回っている。
論文参考訳（メタデータ） (2024-05-30T14:49:54Z)
Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文参考訳（メタデータ） (2024-03-19T09:28:19Z)
LDTrack: Dynamic People Tracking by Service Robots using Diffusion Models [6.049096929667388]
本稿では、条件付き潜伏拡散モデル(LDTrack)を用いて、複数の動的人物をクラス内変動下で追跡する新しいディープラーニングアーキテクチャを提案する。集団実験により, クラス内変動下での雑多で混在する人中心環境において, LDTrackの他の最先端追跡法に対する効果が示された。
論文参考訳（メタデータ） (2024-02-13T20:16:31Z)
On Sensitivity and Robustness of Normalization Schemes to Input Distribution Shifts in Automatic MR Image Diagnosis [58.634791552376235]
深層学習(DL)モデルは、再構成画像を入力として、複数の疾患の診断において最先端のパフォーマンスを達成した。 DLモデルは、トレーニングとテストフェーズ間の入力データ分布の変化につながるため、さまざまなアーティファクトに敏感である。本稿では,グループ正規化やレイヤ正規化といった他の正規化手法を用いて,画像のさまざまなアーチファクトに対して,モデル性能にロバスト性を注入することを提案する。
論文参考訳（メタデータ） (2023-06-23T03:09:03Z)
DCdetector: Dual Attention Contrastive Representation Learning for Time Series Anomaly Detection [26.042898544127503]
時系列異常検出は幅広い用途において重要である。時系列の通常のサンプル分布から逸脱したサンプルを識別することを目的としている。マルチスケールな二重注意コントラスト表現学習モデルであるDCdetectorを提案する。
論文参考訳（メタデータ） (2023-06-17T13:40:15Z)
Progressive Multi-view Human Mesh Recovery with Self-Supervision [68.60019434498703]
既存のソリューションは通常、新しい設定への一般化性能の低下に悩まされる。マルチビューヒューマンメッシュリカバリのためのシミュレーションに基づく新しいトレーニングパイプラインを提案する。
論文参考訳（メタデータ） (2022-12-10T06:28:29Z)
Improving Deep Facial Phenotyping for Ultra-rare Disorder Verification Using Model Ensembles [52.77024349608834]
我々は、DCNNを最先端の顔認識手法であるiResNetとArcFaceに置き換える影響を分析する。提案するアンサンブルモデルにより,目視と目視の両障害に対する最先端のパフォーマンスが達成される。
論文参考訳（メタデータ） (2022-11-12T23:28:54Z)
Margin-Aware Intra-Class Novelty Identification for Medical Images [2.647674705784439]
ノベルティ検出のためのハイブリッドモデル-変換に基づく埋め込み学習(TEND)を提案する。事前訓練されたオートエンコーダを画像特徴抽出器として、TENDは変換されたオートエンコーダから分布内データの特徴埋め込みを偽のアウト・オブ・ディストリビューション入力として識別する。
論文参考訳（メタデータ） (2021-07-31T00:10:26Z)
Multi-Modal Anomaly Detection for Unstructured and Uncertain Environments [5.677685109155077]
現代のロボットは、最小限の人間の監督で異常や故障を検出して回復する能力を必要とします。本稿では,非構造的かつ不確実な環境での障害識別のための教師付き変分オートエンコーダ(SVAE)を提案する。実地ロボットデータを用いた実験では,ベースライン法よりも障害同定性能が優れており,解釈可能な表現を学習できる。
論文参考訳（メタデータ） (2020-12-15T21:59:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。