論文の概要: DeMo: Decoupled Feature-Based Mixture of Experts for Multi-Modal Object Re-Identification
- arxiv url: http://arxiv.org/abs/2412.10650v1
- Date: Sat, 14 Dec 2024 02:36:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:57:52.208520
- Title: DeMo: Decoupled Feature-Based Mixture of Experts for Multi-Modal Object Re-Identification
- Title(参考訳): DeMo: マルチモーダルオブジェクト再識別の専門家の分離した特徴ベース混合
- Authors: Yuhao Wang, Yang Liu, Aihua Zheng, Pingping Zhang,
- Abstract要約: マルチモーダルオブジェクトReIDentificationは、複数のモーダルから補完情報を組み合わせることで、特定のオブジェクトを検索することを目的としている。
本稿では,マルチモーダルオブジェクトReIDのためのDeMoと呼ばれる新しい特徴学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 25.781336502845395
- License:
- Abstract: Multi-modal object Re-IDentification (ReID) aims to retrieve specific objects by combining complementary information from multiple modalities. Existing multi-modal object ReID methods primarily focus on the fusion of heterogeneous features. However, they often overlook the dynamic quality changes in multi-modal imaging. In addition, the shared information between different modalities can weaken modality-specific information. To address these issues, we propose a novel feature learning framework called DeMo for multi-modal object ReID, which adaptively balances decoupled features using a mixture of experts. To be specific, we first deploy a Patch-Integrated Feature Extractor (PIFE) to extract multi-granularity and multi-modal features. Then, we introduce a Hierarchical Decoupling Module (HDM) to decouple multi-modal features into non-overlapping forms, preserving the modality uniqueness and increasing the feature diversity. Finally, we propose an Attention-Triggered Mixture of Experts (ATMoE), which replaces traditional gating with dynamic attention weights derived from decoupled features. With these modules, our DeMo can generate more robust multi-modal features. Extensive experiments on three multi-modal object ReID benchmarks fully verify the effectiveness of our methods. The source code is available at https://github.com/924973292/DeMo.
- Abstract(参考訳): ReID(Multi-modal object Re-IDentification)は、複数のモーダルから補完情報を組み合わせることで、特定のオブジェクトを検索することを目的としている。
既存のマルチモーダルオブジェクトReIDメソッドは、主に異種機能の融合に焦点を当てている。
しかし、彼らはしばしばマルチモーダルイメージングにおける動的品質の変化を見落としている。
さらに、異なるモダリティ間の共有情報は、モダリティ固有の情報を弱めることができる。
これらの課題に対処するために,多モードオブジェクトReIDのためのDeMoと呼ばれる新しい特徴学習フレームワークを提案する。
具体的には、まずPatch-Integrated Feature Extractor (PIFE)をデプロイし、多粒度および多モードの特徴を抽出する。
次に,階層型デカップリングモジュール(HDM)を導入し,マルチモーダルな特徴を重複しない形式に分離し,モダリティの独自性を保ち,特徴量の多様性を高める。
最後に,従来のゲーティングを切り離した特徴から得られる動的注意重みに置き換えるATMoEを提案する。
これらのモジュールによって、DeMoはより堅牢なマルチモーダル機能を生成することができます。
3つのマルチモーダルオブジェクトReIDベンチマークの大規模な実験により,提案手法の有効性が検証された。
ソースコードはhttps://github.com/924973292/DeMoで入手できる。
関連論文リスト
- Part-Whole Relational Fusion Towards Multi-Modal Scene Understanding [51.96911650437978]
マルチモーダル融合はマルチモーダルシーン理解において重要な役割を担っている。
既存のほとんどの手法は、2つのモダリティを含むクロスモーダル融合に焦点を当てており、しばしばより複雑なマルチモーダル融合を見落としている。
マルチモーダルシーン理解のためのPWRF(Relational Part-Whole Fusion)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-19T02:27:30Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - Magic Tokens: Select Diverse Tokens for Multi-modal Object Re-Identification [64.36210786350568]
マルチモーダルオブジェクトReIDのための視覚変換器から多様なトークンを選択するための,textbfEDITORという新しい学習フレームワークを提案する。
我々のフレームワークはマルチモーダルオブジェクトReIDに対してより差別的な機能を生成することができる。
論文 参考訳(メタデータ) (2024-03-15T12:44:35Z) - Multi-modal Semantic Understanding with Contrastive Cross-modal Feature
Alignment [11.897888221717245]
マルチモーダルな特徴アライメントを実現するためのCLIP誘導型コントラスト学習型アーキテクチャを提案する。
我々のモデルはタスク固有の外部知識を使わずに実装が簡単であり、そのため、他のマルチモーダルタスクに容易に移行できる。
論文 参考訳(メタデータ) (2024-03-11T01:07:36Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Deep Multi-Modal Sets [29.983311598563542]
ディープ・マルチモーダル・セット(Deep Multi-Modal Sets)は、1つの長く成長する固定サイズのベクトルではなく、非順序集合として特徴の集合を表現する技法である。
さまざまなタイプのタスクを学習するために,さまざまなモダリティを理由として,スケーラブルでマルチモーダルなフレームワークを実証する。
論文 参考訳(メタデータ) (2020-03-03T15:48:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。