Fugu-MT 論文翻訳(概要): Deep Multimodal Collaborative Learning for Polyp Re-Identification

論文の概要: Deep Multimodal Collaborative Learning for Polyp Re-Identification

arxiv url: http://arxiv.org/abs/2408.05914v1
Date: Mon, 12 Aug 2024 04:05:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-13 14:45:05.079083
Title: Deep Multimodal Collaborative Learning for Polyp Re-Identification
Title（参考訳）: ポリプ再同定のためのDeep Multimodal Collaborative Learning
Authors: Suncheng Xiang, Jincheng Li, Zhengjie Zhang, Shilun Cai, Jiale Guan, Dahong Qian,
Abstract要約: 大腸内視鏡によるポリープ再同定は、大きなギャラリーの同じポリープと異なるカメラで撮影された異なるビューの画像とを一致させることを目的としている。 ImageNetデータセットでトレーニングされたCNNモデルを直接適用する従来のオブジェクトReIDの手法は、不満足な検索性能をもたらす。本稿では,ポリプ再同定のためのDMCLという新しい多モーダル協調学習フレームワークを提案する。
参考スコア（独自算出の注目度）: 4.4028428688691905
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Colonoscopic Polyp Re-Identification aims to match the same polyp from a large gallery with images from different views taken using different cameras and plays an important role in the prevention and treatment of colorectal cancer in computer-aided diagnosis. However, traditional methods for object ReID directly adopting CNN models trained on the ImageNet dataset usually produce unsatisfactory retrieval performance on colonoscopic datasets due to the large domain gap. Worsely, these solutions typically learn unimodal modal representations on the basis of visual samples, which fails to explore complementary information from different modalities. To address this challenge, we propose a novel Deep Multimodal Collaborative Learning framework named DMCL for polyp re-identification, which can effectively encourage modality collaboration and reinforce generalization capability in medical scenarios. On the basis of it, a dynamic multimodal feature fusion strategy is introduced to leverage the optimized multimodal representations for multimodal fusion via end-to-end training. Experiments on the standard benchmarks show the benefits of the multimodal setting over state-of-the-art unimodal ReID models, especially when combined with the specialized multimodal fusion strategy.
Abstract（参考訳）: 大腸内視鏡的ポリープ再同定は,大腸がんの予防と治療に重要な役割を担っている。しかし、ImageNetデータセットでトレーニングされたCNNモデルを直接適用する従来のオブジェクトReIDでは、ドメインギャップが大きいため、通常は大腸内視鏡的データセットで満足のいく検索性能が得られない。さらに悪いことに、これらの解は通常、視覚的なサンプルに基づいて単調なモーダル表現を学習し、異なるモーダルから補完的な情報を探索することができない。この課題に対処するために, DMCL という新しい多目的協調学習フレームワークを提案し, 医療シナリオにおけるモダリティ協調を効果的に促進し, 一般化能力を増強する。その基礎として、エンドツーエンドのトレーニングによるマルチモーダルフュージョンのための最適化されたマルチモーダル表現を活用するために、動的マルチモーダル特徴融合戦略を導入する。標準ベンチマークの実験では、特に特殊なマルチモーダル融合戦略と組み合わせた場合、最先端のユニモーダルReIDモデルに対するマルチモーダル設定の利点が示されている。

関連論文リスト

GPF-Net: Gated Progressive Fusion Learning for Polyp Re-Identification [16.17476305564124]
大腸内視鏡によるポリープ再同定は、同じポリープと異なるカメラで撮影された異なるビューの画像とを一致させることを目的としている。特定のポリプの高次特徴の粗い分解は、しばしば小さな対象に対して劣る結果をもたらす。 Gated Progressive Fusion Network と呼ばれる新しいアーキテクチャを提案し、ゲートを用いて複数のレベルから特徴を選択的にフューズする。
論文参考訳（メタデータ） (2025-12-25T02:40:46Z)
Multimodal Medical Image Classification via Synergistic Learning Pre-training [20.818508328120974]
マルチモーダルな半教師付き医用画像分類のための新しいフレームワークを提案する。 1つのモダリティを他のモダリティの強化サンプルとして扱うことにより、自己教師付き学習事前訓練を実装した。微調整の段階では、異なるエンコーダを設定し、元のモダリティから特徴を抽出する。
論文参考訳（メタデータ） (2025-09-22T08:21:19Z)
Multimodal Causal-Driven Representation Learning for Generalizable Medical Image Segmentation [56.52520416420957]
医用画像セグメンテーションにおける領域一般化に取り組むために, MCDRL(Multimodal Causal-Driven Representation Learning)を提案する。 MCDRLは競合する手法より一貫して優れ、セグメンテーション精度が優れ、堅牢な一般化性を示す。
論文参考訳（メタデータ） (2025-08-07T03:41:41Z)
PeRL: Permutation-Enhanced Reinforcement Learning for Interleaved Vision-Language Reasoning [50.21619363035618]
本稿では,マルチモーダルタスクのインターリーブに適した汎用強化学習手法PeRLを提案する。空間的および位置的多様性を探索するために、様々な位置関係をシミュレートするために、画像列の置換を導入する。実験の結果,PeRLのトレーニングモデルは,VLMベースラインを大きなマージンで,R1関連およびインターリーブしたVLMベースラインを一貫して上回っていることがわかった。
論文参考訳（メタデータ） (2025-06-17T18:25:56Z)
MIND: Modality-Informed Knowledge Distillation Framework for Multimodal Clinical Prediction Tasks [50.98856172702256]
マルチモーダルモデル圧縮手法である MIND (Modality-Informed Knowledge Distillation) フレームワークを提案する。 MINDは、様々なサイズの事前訓練されたディープニューラルネットワークのアンサンブルから、より小さなマルチモーダルの学生に知識を伝達する。時系列データと胸部X線画像を用いた2値および複数ラベルの臨床予測タスクにおけるMINDの評価を行った。
論文参考訳（メタデータ） (2025-02-03T08:50:00Z)
MIFNet: Learning Modality-Invariant Features for Generalizable Multimodal Image Matching [54.740256498985026]
キーポイントの検出と記述方法は、しばしばマルチモーダルデータと競合する。マルチモーダル画像マッチングにおけるキーポイント記述に対するモダリティ不変特徴量を計算するためのモダリティ不変特徴量学習ネットワーク(MIFNet)を提案する。
論文参考訳（メタデータ） (2025-01-20T06:56:30Z)
MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。 SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文参考訳（メタデータ） (2024-04-13T13:39:26Z)
Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment [11.897888221717245]
マルチモーダルな特徴アライメントを実現するためのCLIP誘導型コントラスト学習型アーキテクチャを提案する。我々のモデルはタスク固有の外部知識を使わずに実装が簡単であり、そのため、他のマルチモーダルタスクに容易に移行できる。
論文参考訳（メタデータ） (2024-03-11T01:07:36Z)
Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。 MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文参考訳（メタデータ） (2023-11-17T18:57:40Z)
HEALNet: Multimodal Fusion for Heterogeneous Biomedical Data [10.774128925670183]
本稿では,フレキシブルなマルチモーダル融合アーキテクチャであるHybrid Early-fusion Attention Learning Network (HEALNet)を提案する。 The Cancer Genome Atlas (TCGA) の4つのがんデータセットにおける全スライド画像と多モードデータを用いたマルチモーダルサバイバル解析を行った。 HEALNetは、他のエンドツーエンドの訓練された融合モデルと比較して最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-11-15T17:06:26Z)
Exploiting Modality-Specific Features For Multi-Modal Manipulation Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文参考訳（メタデータ） (2023-09-22T06:55:41Z)
Towards Discriminative Representation with Meta-learning for Colonoscopic Polyp Re-Identification [2.78481408391119]
大腸内視鏡によるポリープ再同定は、大きなギャラリーの同じポリープと異なるカメラで撮影された異なるビューの画像とを一致させることを目的としている。 ImageNetデータセットでトレーニングされたCNNモデルを直接適用する従来のオブジェクトReIDの手法は、不満足な検索性能をもたらす。我々は、モデルがより一般的で差別的な知識を学習するのに役立つ、Colo-ReIDという、シンプルで効果的なトレーニング手法を提案する。
論文参考訳（メタデータ） (2023-08-02T04:10:14Z)
Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文参考訳（メタデータ） (2023-06-22T10:53:10Z)
Multi-task Paired Masking with Alignment Modeling for Medical Vision-Language Pre-training [55.56609500764344]
本稿では,マルチタスク・ペアド・マスキング・アライメント(MPMA)に基づく統合フレームワークを提案する。また, メモリ拡張クロスモーダルフュージョン (MA-CMF) モジュールを導入し, 視覚情報を完全統合し, レポート再構築を支援する。
論文参考訳（メタデータ） (2023-05-13T13:53:48Z)
Using Multiple Instance Learning to Build Multimodal Representations [3.354271620160378]
画像テキストによるマルチモーダル表現学習は、モダリティ間でデータを整列させ、重要な医療応用を可能にする。本稿では,既存の多モーダル表現学習手法を特例として,置換不変スコア関数を構築するための汎用フレームワークを提案する。
論文参考訳（メタデータ） (2022-12-11T18:01:11Z)
Robust Multimodal Brain Tumor Segmentation via Feature Disentanglement and Gated Fusion [71.87627318863612]
画像モダリティの欠如に頑健な新しいマルチモーダルセグメンテーションフレームワークを提案する。我々のネットワークは、入力モードをモダリティ固有の外観コードに分解するために、特徴不整合を用いる。我々は,BRATSチャレンジデータセットを用いて,重要なマルチモーダル脳腫瘍セグメンテーション課題に対する本手法の有効性を検証した。
論文参考訳（メタデータ） (2020-02-22T14:32:04Z)
Hi-Net: Hybrid-fusion Network for Multi-modal MR Image Synthesis [143.55901940771568]
マルチモーダルMR画像合成のためのHybrid-fusion Network(Hi-Net)を提案する。当社のHi-Netでは,各モーダリティの表現を学習するために,モーダリティ特化ネットワークを用いている。マルチモーダル合成ネットワークは、潜在表現と各モーダルの階層的特徴を密結合するように設計されている。
論文参考訳（メタデータ） (2020-02-11T08:26:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。