論文の概要: MMD-ReID: A Simple but Effective Solution for Visible-Thermal Person
ReID
- arxiv url: http://arxiv.org/abs/2111.05059v1
- Date: Tue, 9 Nov 2021 11:33:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-10 15:08:54.255136
- Title: MMD-ReID: A Simple but Effective Solution for Visible-Thermal Person
ReID
- Title(参考訳): MMD-ReID : 可視的人体リIDの簡易かつ効果的な解法
- Authors: Chaitra Jambigi, Ruchit Rawal, Anirban Chakraborty
- Abstract要約: 本稿では,モダリティギャップを明示的な差分低減制約によって低減する,シンプルで効果的なMDD-ReIDを提案する。
我々はMDD-ReIDの有効性を定性的かつ定量的に実証するための広範囲な実験を行った。
提案手法は,SYSU-MM01およびRegDBデータセットにおける最先端の手法よりも優れている。
- 参考スコア(独自算出の注目度): 20.08880264104061
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning modality invariant features is central to the problem of
Visible-Thermal cross-modal Person Reidentification (VT-ReID), where query and
gallery images come from different modalities. Existing works implicitly align
the modalities in pixel and feature spaces by either using adversarial learning
or carefully designing feature extraction modules that heavily rely on domain
knowledge. We propose a simple but effective framework, MMD-ReID, that reduces
the modality gap by an explicit discrepancy reduction constraint. MMD-ReID
takes inspiration from Maximum Mean Discrepancy (MMD), a widely used
statistical tool for hypothesis testing that determines the distance between
two distributions. MMD-ReID uses a novel margin-based formulation to match
class-conditional feature distributions of visible and thermal samples to
minimize intra-class distances while maintaining feature discriminability.
MMD-ReID is a simple framework in terms of architecture and loss formulation.
We conduct extensive experiments to demonstrate both qualitatively and
quantitatively the effectiveness of MMD-ReID in aligning the marginal and class
conditional distributions, thus learning both modality-independent and
identity-consistent features. The proposed framework significantly outperforms
the state-of-the-art methods on SYSU-MM01 and RegDB datasets. Code will be
released at https://github.com/vcl-iisc/MMD-ReID
- Abstract(参考訳): モダリティの学習 不変特徴は、クエリとギャラリーイメージが異なるモダリティから来る可視-熱的クロスモーダル人同一化(vt-reid)の問題の中心である。
既存の作品は、逆学習を使うか、ドメイン知識に大きく依存する特徴抽出モジュールを慎重に設計することによって、ピクセルと特徴空間のモダリティを暗黙的に整列させる。
本研究では, 単純かつ効果的なフレームワークmmd-reidを提案し, モーダリティギャップを明示的不一致低減制約により低減する。
MMD-ReIDは、2つの分布間の距離を決定する仮説テストのための広く使われている統計ツールであるMaximum Mean Discrepancy (MMD)からインスピレーションを得ている。
MMD-ReIDは、特徴識別性を保ちながらクラス内距離を最小限に抑えるために、可視および熱サンプルのクラス条件特徴分布に適合する新しいマージンベースの定式化を用いる。
MMD-ReIDはアーキテクチャと損失定式化の点で単純なフレームワークである。
我々は, MMD-ReIDの限界条件分布とクラス条件分布の整合性を定性的に, 定量的に両立させる実験を行った。
提案手法は,SYSU-MM01およびRegDBデータセットにおける最先端の手法よりも優れている。
コードはhttps://github.com/vcl-iisc/MMD-ReIDでリリースされる
関連論文リスト
- Unsupervised Modality Adaptation with Text-to-Image Diffusion Models for Semantic Segmentation [54.96563068182733]
セグメンテーションタスクのためのテキスト・ツー・イメージ拡散モデル(MADM)を用いたモダリティ適応を提案する。
MADMは、広範囲な画像とテキストのペアで事前訓練されたテキストと画像の拡散モデルを使用して、モデルの相互モダリティ能力を向上する。
我々は,MADMが画像から深度,赤外線,イベントのモダリティといった様々なモダリティタスクにまたがって,最先端の適応性能を実現することを示す。
論文 参考訳(メタデータ) (2024-10-29T03:49:40Z) - Robust Multimodal Learning via Representation Decoupling [6.7678581401558295]
マルチモーダル学習はその実用性から注目を集めている。
既存の手法は、異なるモダリティの組み合わせに対して共通の部分空間表現を学習することで、この問題に対処する傾向がある。
本稿では,頑健なマルチモーダル学習を支援するために,DMRNet(Decoupled Multimodal Representation Network)を提案する。
論文 参考訳(メタデータ) (2024-07-05T12:09:33Z) - An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - VERITE: A Robust Benchmark for Multimodal Misinformation Detection
Accounting for Unimodal Bias [17.107961913114778]
マルチモーダルの誤報は ソーシャルメディアのプラットフォームで 増え続けている問題です
本研究では,広範に使用されているMDDベンチマークにおいて,一様偏差の存在を調査・同定する。
リアルな合成学習データを生成するための新しい手法であるCrossmodal HArd Synthetic MisAlignment (CHASMA)を導入する。
論文 参考訳(メタデータ) (2023-04-27T12:28:29Z) - Learning Progressive Modality-shared Transformers for Effective
Visible-Infrared Person Re-identification [27.75907274034702]
我々は,能率VI-ReIDのためのPMT(Progressive Modality-Shared Transformer)という新しいディープラーニングフレームワークを提案する。
モダリティギャップの負の効果を低減するために、まず、グレースケールの画像を補助的なモダリティとして捉え、進歩的な学習戦略を提案する。
クラス内差が大きく,クラス間差が少ない問題に対処するために,識別中心損失を提案する。
論文 参考訳(メタデータ) (2022-12-01T02:20:16Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z) - Multi-Agent Reinforcement Learning via Adaptive Kalman Temporal
Difference and Successor Representation [32.80370188601152]
本稿では,マルチエージェント適応カルマン時間差分(MAK-TD)フレームワークとその継承表現に基づく変種(MAK-SR)を提案する。
提案するMAK-TD/SRフレームワークは,高次元マルチエージェント環境に関連付けられたアクション空間の連続的な性質を考察する。
論文 参考訳(メタデータ) (2021-12-30T18:21:53Z) - Leaning Compact and Representative Features for Cross-Modality Person
Re-Identification [18.06382007908855]
本稿では,クロスモダリティ可視赤外人物再識別(vi re-id)タスクに注目する。
提案手法は他の最も先進的な手法よりも印象的な性能で優れている。
論文 参考訳(メタデータ) (2021-03-26T01:53:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。