論文の概要: Deep Multimodal Collaborative Learning for Polyp Re-Identification
- arxiv url: http://arxiv.org/abs/2408.05914v1
- Date: Mon, 12 Aug 2024 04:05:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 14:45:05.079083
- Title: Deep Multimodal Collaborative Learning for Polyp Re-Identification
- Title(参考訳): ポリプ再同定のためのDeep Multimodal Collaborative Learning
- Authors: Suncheng Xiang, Jincheng Li, Zhengjie Zhang, Shilun Cai, Jiale Guan, Dahong Qian,
- Abstract要約: 大腸内視鏡によるポリープ再同定は、大きなギャラリーの同じポリープと異なるカメラで撮影された異なるビューの画像とを一致させることを目的としている。
ImageNetデータセットでトレーニングされたCNNモデルを直接適用する従来のオブジェクトReIDの手法は、不満足な検索性能をもたらす。
本稿では,ポリプ再同定のためのDMCLという新しい多モーダル協調学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 4.4028428688691905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Colonoscopic Polyp Re-Identification aims to match the same polyp from a large gallery with images from different views taken using different cameras and plays an important role in the prevention and treatment of colorectal cancer in computer-aided diagnosis. However, traditional methods for object ReID directly adopting CNN models trained on the ImageNet dataset usually produce unsatisfactory retrieval performance on colonoscopic datasets due to the large domain gap. Worsely, these solutions typically learn unimodal modal representations on the basis of visual samples, which fails to explore complementary information from different modalities. To address this challenge, we propose a novel Deep Multimodal Collaborative Learning framework named DMCL for polyp re-identification, which can effectively encourage modality collaboration and reinforce generalization capability in medical scenarios. On the basis of it, a dynamic multimodal feature fusion strategy is introduced to leverage the optimized multimodal representations for multimodal fusion via end-to-end training. Experiments on the standard benchmarks show the benefits of the multimodal setting over state-of-the-art unimodal ReID models, especially when combined with the specialized multimodal fusion strategy.
- Abstract(参考訳): 大腸内視鏡的ポリープ再同定は,大腸がんの予防と治療に重要な役割を担っている。
しかし、ImageNetデータセットでトレーニングされたCNNモデルを直接適用する従来のオブジェクトReIDでは、ドメインギャップが大きいため、通常は大腸内視鏡的データセットで満足のいく検索性能が得られない。
さらに悪いことに、これらの解は通常、視覚的なサンプルに基づいて単調なモーダル表現を学習し、異なるモーダルから補完的な情報を探索することができない。
この課題に対処するために, DMCL という新しい多目的協調学習フレームワークを提案し, 医療シナリオにおけるモダリティ協調を効果的に促進し, 一般化能力を増強する。
その基礎として、エンドツーエンドのトレーニングによるマルチモーダルフュージョンのための最適化されたマルチモーダル表現を活用するために、動的マルチモーダル特徴融合戦略を導入する。
標準ベンチマークの実験では、特に特殊なマルチモーダル融合戦略と組み合わせた場合、最先端のユニモーダルReIDモデルに対するマルチモーダル設定の利点が示されている。
関連論文リスト
- MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - HEALNet -- Hybrid Multi-Modal Fusion for Heterogeneous Biomedical Data [12.109041184519281]
本稿では, フレキシブルなマルチモーダル融合アーキテクチャであるHybrid Early-fusion Attention Learning Network (HEALNet)を提案する。
The Cancer Genome Atlas (TCGA) の4つの癌コホートにおける全スライド画像と多モードデータの多モード生存解析を行った。
HEALNetは最先端のパフォーマンスを実現し、ユニモーダルベースラインと最近のマルチモーダルベースラインの両方を大幅に改善した。
論文 参考訳(メタデータ) (2023-11-15T17:06:26Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Towards Discriminative Representation with Meta-learning for
Colonoscopic Polyp Re-Identification [2.78481408391119]
大腸内視鏡によるポリープ再同定は、大きなギャラリーの同じポリープと異なるカメラで撮影された異なるビューの画像とを一致させることを目的としている。
ImageNetデータセットでトレーニングされたCNNモデルを直接適用する従来のオブジェクトReIDの手法は、不満足な検索性能をもたらす。
我々は、モデルがより一般的で差別的な知識を学習するのに役立つ、Colo-ReIDという、シンプルで効果的なトレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-02T04:10:14Z) - Multi-task Paired Masking with Alignment Modeling for Medical
Vision-Language Pre-training [55.56609500764344]
本稿では,マルチタスク・ペアド・マスキング・アライメント(MPMA)に基づく統合フレームワークを提案する。
また, メモリ拡張クロスモーダルフュージョン (MA-CMF) モジュールを導入し, 視覚情報を完全統合し, レポート再構築を支援する。
論文 参考訳(メタデータ) (2023-05-13T13:53:48Z) - A Learnable Variational Model for Joint Multimodal MRI Reconstruction
and Synthesis [4.056490719080639]
マルチモーダルMRIの関節再構成と合成のための新しいディープラーニングモデルを提案する。
本モデルの出力は、ソースのモダリティの再構成画像と、ターゲットのモダリティで合成された高品質な画像を含む。
論文 参考訳(メタデータ) (2022-04-08T01:35:19Z) - Multi-modal Aggregation Network for Fast MR Imaging [85.25000133194762]
我々は,完全サンプル化された補助モダリティから補完表現を発見できる,MANetという新しいマルチモーダル・アグリゲーション・ネットワークを提案する。
我々のMANetでは,完全サンプリングされた補助的およびアンアンサンプされた目標モダリティの表現は,特定のネットワークを介して独立に学習される。
私たちのMANetは、$k$-spaceドメインの周波数信号を同時に回復できるハイブリッドドメイン学習フレームワークに従います。
論文 参考訳(メタデータ) (2021-10-15T13:16:59Z) - Self-Supervised Multimodal Domino: in Search of Biomarkers for
Alzheimer's Disease [19.86082635340699]
自己監督型表現学習アルゴリズムを編成する合理的な方法の分類法を提案する。
まず,おもちゃのマルチモーダルMNISTデータセットのモデルを評価し,アルツハイマー病患者を用いたマルチモーダル・ニューロイメージングデータセットに適用した。
提案手法は,従来の自己教師付きエンコーダデコーダ法よりも優れていた。
論文 参考訳(メタデータ) (2020-12-25T20:28:13Z) - Robust Multimodal Brain Tumor Segmentation via Feature Disentanglement
and Gated Fusion [71.87627318863612]
画像モダリティの欠如に頑健な新しいマルチモーダルセグメンテーションフレームワークを提案する。
我々のネットワークは、入力モードをモダリティ固有の外観コードに分解するために、特徴不整合を用いる。
我々は,BRATSチャレンジデータセットを用いて,重要なマルチモーダル脳腫瘍セグメンテーション課題に対する本手法の有効性を検証した。
論文 参考訳(メタデータ) (2020-02-22T14:32:04Z) - Hi-Net: Hybrid-fusion Network for Multi-modal MR Image Synthesis [143.55901940771568]
マルチモーダルMR画像合成のためのHybrid-fusion Network(Hi-Net)を提案する。
当社のHi-Netでは,各モーダリティの表現を学習するために,モーダリティ特化ネットワークを用いている。
マルチモーダル合成ネットワークは、潜在表現と各モーダルの階層的特徴を密結合するように設計されている。
論文 参考訳(メタデータ) (2020-02-11T08:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。