論文の概要: Deep Multimodal Collaborative Learning for Polyp Re-Identification
- arxiv url: http://arxiv.org/abs/2408.05914v2
- Date: Tue, 24 Sep 2024 14:35:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 11:49:24.864702
- Title: Deep Multimodal Collaborative Learning for Polyp Re-Identification
- Title(参考訳): ポリプ再同定のためのDeep Multimodal Collaborative Learning
- Authors: Suncheng Xiang, Jincheng Li, Zhengjie Zhang, Shilun Cai, Jiale Guan, Dahong Qian,
- Abstract要約: 大腸内視鏡によるポリープ再同定は、大きなギャラリーの同じポリープと異なるカメラで撮影された異なるビューの画像とを一致させることを目的としている。
ImageNetデータセットでトレーニングされたCNNモデルを直接適用する従来のオブジェクトReIDの手法は、不満足な検索性能をもたらす。
本稿では,ポリプ再同定のためのDMCLという新しい多モーダル協調学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 4.4028428688691905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Colonoscopic Polyp Re-Identification aims to match the same polyp from a large gallery with images from different views taken using different cameras, which plays an important role in the prevention and treatment of colorectal cancer in computer-aided diagnosis. However, traditional methods for object ReID directly adopting CNN models trained on the ImageNet dataset usually produce unsatisfactory retrieval performance on colonoscopic datasets due to the large domain gap. Worsely, these solutions typically learn unimodal modal representations on the basis of visual samples, which fails to explore complementary information from other different modalities. To address this challenge, we propose a novel Deep Multimodal Collaborative Learning framework named DMCL for polyp re-identification, which can effectively encourage modality collaboration and reinforce generalization capability in medical scenarios. On the basis of it, a dynamic multimodal feature fusion strategy is introduced to leverage the optimized multimodal representations for multimodal fusion via end-to-end training. Experiments on the standard benchmarks show the benefits of the multimodal setting over state-of-the-art unimodal ReID models, especially when combined with the specialized multimodal fusion strategy, from which we have proved that learning representation with multiple-modality can be competitive to methods based on unimodal representation learning. We also hope that our method will shed light on some related researches to move forward, especially for multimodal collaborative learning. The code is publicly available at https://github.com/JeremyXSC/DMCL.
- Abstract(参考訳): 大腸内視鏡的ポリープ再同定は, 大腸がんの予防と治療において重要な役割を担う, 異なるカメラを用いて異なる視点から撮影した画像と大きなギャラリーの同一のポリープとを一致させることを目的としている。
しかし、ImageNetデータセットでトレーニングされたCNNモデルを直接適用する従来のオブジェクトReIDでは、ドメインギャップが大きいため、通常は大腸内視鏡的データセットで満足のいく検索性能が得られない。
さらに悪いことに、これらの解は通常、視覚的なサンプルに基づいて単調なモーダル表現を学習し、他の異なるモーダルから補完的な情報を探索することができない。
この課題に対処するために, DMCL という新しい多目的協調学習フレームワークを提案し, 医療シナリオにおけるモダリティ協調を効果的に促進し, 一般化能力を増強する。
その基礎として、エンドツーエンドのトレーニングによるマルチモーダルフュージョンのための最適化されたマルチモーダル表現を活用するために、動的マルチモーダル特徴融合戦略を導入する。
標準ベンチマークでの実験では、最先端のユニモーダルReIDモデルに対するマルチモーダル設定の利点が示され、特に特殊マルチモーダル融合戦略と組み合わせることで、マルチモーダル表現による学習表現が、非モーダル表現学習に基づく手法と競合できることが証明された。
また,本手法は,特にマルチモーダル・コラボレーティブ・ラーニングにおいて,いくつかの関連研究に光を当てることも期待している。
コードはhttps://github.com/JeremyXSC/DMCLで公開されている。
関連論文リスト
- MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Multi-modal Semantic Understanding with Contrastive Cross-modal Feature
Alignment [11.897888221717245]
マルチモーダルな特徴アライメントを実現するためのCLIP誘導型コントラスト学習型アーキテクチャを提案する。
我々のモデルはタスク固有の外部知識を使わずに実装が簡単であり、そのため、他のマルチモーダルタスクに容易に移行できる。
論文 参考訳(メタデータ) (2024-03-11T01:07:36Z) - Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - HEALNet: Multimodal Fusion for Heterogeneous Biomedical Data [10.774128925670183]
本稿では,フレキシブルなマルチモーダル融合アーキテクチャであるHybrid Early-fusion Attention Learning Network (HEALNet)を提案する。
The Cancer Genome Atlas (TCGA) の4つのがんデータセットにおける全スライド画像と多モードデータを用いたマルチモーダルサバイバル解析を行った。
HEALNetは、他のエンドツーエンドの訓練された融合モデルと比較して最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-15T17:06:26Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Towards Discriminative Representation with Meta-learning for
Colonoscopic Polyp Re-Identification [2.78481408391119]
大腸内視鏡によるポリープ再同定は、大きなギャラリーの同じポリープと異なるカメラで撮影された異なるビューの画像とを一致させることを目的としている。
ImageNetデータセットでトレーニングされたCNNモデルを直接適用する従来のオブジェクトReIDの手法は、不満足な検索性能をもたらす。
我々は、モデルがより一般的で差別的な知識を学習するのに役立つ、Colo-ReIDという、シンプルで効果的なトレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-02T04:10:14Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Multi-task Paired Masking with Alignment Modeling for Medical
Vision-Language Pre-training [55.56609500764344]
本稿では,マルチタスク・ペアド・マスキング・アライメント(MPMA)に基づく統合フレームワークを提案する。
また, メモリ拡張クロスモーダルフュージョン (MA-CMF) モジュールを導入し, 視覚情報を完全統合し, レポート再構築を支援する。
論文 参考訳(メタデータ) (2023-05-13T13:53:48Z) - Using Multiple Instance Learning to Build Multimodal Representations [3.354271620160378]
画像テキストによるマルチモーダル表現学習は、モダリティ間でデータを整列させ、重要な医療応用を可能にする。
本稿では,既存の多モーダル表現学習手法を特例として,置換不変スコア関数を構築するための汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-11T18:01:11Z) - Hi-Net: Hybrid-fusion Network for Multi-modal MR Image Synthesis [143.55901940771568]
マルチモーダルMR画像合成のためのHybrid-fusion Network(Hi-Net)を提案する。
当社のHi-Netでは,各モーダリティの表現を学習するために,モーダリティ特化ネットワークを用いている。
マルチモーダル合成ネットワークは、潜在表現と各モーダルの階層的特徴を密結合するように設計されている。
論文 参考訳(メタデータ) (2020-02-11T08:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。