Fugu-MT 論文翻訳(概要): Multi-dimensional Fusion and Consistency for Semi-supervised Medical Image Segmentation

論文の概要: Multi-dimensional Fusion and Consistency for Semi-supervised Medical Image Segmentation

arxiv url: http://arxiv.org/abs/2309.06618v1
Date: Tue, 12 Sep 2023 22:21:14 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-14 16:12:44.479285
Title: Multi-dimensional Fusion and Consistency for Semi-supervised Medical Image Segmentation
Title（参考訳）: 半教師型医用画像分割のための多次元融合と整合性
Authors: Yixing Lu, Zhaoxin Fan, Min Xu
Abstract要約: 医用画像セグメンテーションに適した新しい半教師付き学習フレームワークを提案する。我々のアプローチの中心は、革新的なマルチスケールテキスト対応のViT-CNN Fusionスキームである。広く使われているいくつかのデータセットに対する実験は、我々のアプローチの有効性を不当に実証している。
参考スコア（独自算出の注目度）: 10.628250457432499
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we introduce a novel semi-supervised learning framework tailored for medical image segmentation. Central to our approach is the innovative Multi-scale Text-aware ViT-CNN Fusion scheme. This scheme adeptly combines the strengths of both ViTs and CNNs, capitalizing on the unique advantages of both architectures as well as the complementary information in vision-language modalities. Further enriching our framework, we propose the Multi-Axis Consistency framework for generating robust pseudo labels, thereby enhancing the semi-supervised learning process. Our extensive experiments on several widely-used datasets unequivocally demonstrate the efficacy of our approach.
Abstract（参考訳）: 本稿では,医用画像セグメンテーションに適した新しい半教師付き学習フレームワークを提案する。我々のアプローチの中心は、革新的なマルチスケールテキスト対応のViT-CNN Fusionスキームである。このスキームはvitsとcnnの両方の強みをうまく組み合わせ、両アーキテクチャの独特な利点と視覚言語のモダリティにおける補完的な情報に乗じている。さらに,ロバストな擬似ラベルを生成するための多軸一貫性フレームワークを提案し,半教師付き学習プロセスを強化する。広く使われているいくつかのデータセットに関する広範な実験は、我々のアプローチの有効性を明白に実証している。

関連論文リスト

Enhancing Multimodal Recommendations with Vision-Language Models and Information-Aware Fusion [11.914081442317494]
VIRALは、Vision-Language and Information-Aware Recommendationフレームワークである。意味的に整合した画像表現のための、きめ細かいタイトル誘導記述を生成する。 3つのAmazonデータセットの実験によると、VIRALは強いマルチモーダルベースラインを一貫して上回っている。
論文参考訳（メタデータ） (2025-11-03T23:01:27Z)
Query-Kontext: An Unified Multimodal Model for Image Generation and Editing [53.765351127477224]
統一マルチモーダルモデル(UMM)はテキスト・ツー・イメージ生成(T2I)と編集(TI2I)において顕著な性能を示した。本稿では,マルチモーダル入力から符号化されたセマンティックキューと粗粒度画像条件からなるマルチモーダルコンテクス」を用いて,VLMと拡散モデルをブリッジする新しいアプローチであるQuery-Kontextを紹介する。実験により,本手法は強い統一ベースラインと一致し,いくつかのケースにおいてタスク固有の最先端手法よりも優れていた。
論文参考訳（メタデータ） (2025-09-30T17:59:46Z)
UniAlignment: Semantic Alignment for Unified Image Generation, Understanding, Manipulation and Perception [54.53657134205492]
UniAlignmentは単一の拡散変換器内での統一されたマルチモーダル生成フレームワークである。固有モード意味アライメントとクロスモーダル意味アライメントの両方を組み込むことで、モデルのクロスモーダル一貫性と命令追従ロバスト性を高める。本稿では、複雑なテキスト命令下でのマルチモーダルなセマンティック一貫性を評価するために設計された新しいベンチマークであるSemGen-Benchを紹介する。
論文参考訳（メタデータ） (2025-09-28T09:11:30Z)
OmniSegmentor: A Flexible Multi-Modal Learning Framework for Semantic Segmentation [74.55725909072903]
我々はOmniSegmentorと呼ばれる新しいマルチモーダル学習フレームワークを提案する。 ImageNetに基づいて、ImageNeXtと呼ばれるマルチモーダル事前学習のための大規模なデータセットを組み立てる。様々なシナリオにまたがってモデルの知覚能力を一貫して増幅する、普遍的なマルチモーダル事前学習フレームワークを導入する。
論文参考訳（メタデータ） (2025-09-18T15:52:44Z)
A Multimodal Approach Combining Structural and Cross-domain Textual Guidance for Weakly Supervised OCT Segmentation [12.948027961485536]
Weakly Supervised Semantic (WSSS) アプローチを提案する。本手法は診断精度の向上と医用画像の効率向上に資する技術である。
論文参考訳（メタデータ） (2024-11-19T16:20:27Z)
Multimodality Helps Few-shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。テキストラベルと潜在的に利用可能な2次元画像モダリティを利用したマルチモーダルFS-PCS構成を提案する。トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダル(TACC)技術を提案する。
論文参考訳（メタデータ） (2024-10-29T19:28:41Z)
MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model [49.931663904599205]
MaVEnは、マルチモーダル大言語モデル(MLLM)のマルチモーダル推論能力を高めるために設計された革新的なフレームワークである。 MaVEnは複雑なマルチイメージのシナリオにおけるMLLMの理解を著しく向上するとともに,単一イメージのコンテキストにおけるパフォーマンスも向上することを示す。
論文参考訳（メタデータ） (2024-08-22T11:57:16Z)
Leveraging Entity Information for Cross-Modality Correlation Learning: The Entity-Guided Multimodal Summarization [49.08348604716746]
Multimodal Summarization with Multimodal Output (MSMO) は、テキストと関連する画像の両方を統合するマルチモーダル要約を作成することを目的としている。本稿では,Entity-Guided Multimodal Summarization Model (EGMS)を提案する。我々のモデルは,BART上に構築され,共有重み付きデュアルマルチモーダルエンコーダを用いて,テキスト画像とエンティティ画像情報を並列に処理する。
論文参考訳（メタデータ） (2024-08-06T12:45:56Z)
Multi-Scale Cross Contrastive Learning for Semi-Supervised Medical Image Segmentation [14.536384387956527]
医用画像の構造を分割するマルチスケールクロススーパービジョンコントラスト学習フレームワークを開発した。提案手法は,頑健な特徴表現を抽出するために,地上構造と横断予測ラベルに基づくマルチスケール特徴と対比する。 Diceでは最先端の半教師あり手法を3.0%以上上回っている。
論文参考訳（メタデータ） (2023-06-25T16:55:32Z)
Hierarchical Aligned Multimodal Learning for NER on Tweet Posts [12.632808712127291]
マルチモーダルなエンティティ認識(MNER)が注目されている。画像とテキストのシーケンスを動的に調整する新しい手法を提案する。 2つのオープンデータセットで実験を行い、その結果と詳細な分析により、我々のモデルの利点を実証した。
論文参考訳（メタデータ） (2023-05-15T06:14:36Z)
When CNN Meet with ViT: Towards Semi-Supervised Learning for Multi-Class Medical Image Semantic Segmentation [13.911947592067678]
本稿では,一貫性を意識した擬似ラベルに基づく自己認識手法を提案する。我々のフレームワークは、ViTとCNNによって相互に強化された特徴学習モジュールと、一貫性を意識した目的のために堅牢なガイダンスモジュールから構成されている。実験により,提案手法は,公開ベンチマークデータセット上での最先端性能を実現することを示す。
論文参考訳（メタデータ） (2022-08-12T18:21:22Z)
Encoder Fusion Network with Co-Attention Embedding for Referring Image Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。 EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。 4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文参考訳（メタデータ） (2021-05-05T02:27:25Z)
Embedded Deep Bilinear Interactive Information and Selective Fusion for Multi-view Learning [70.67092105994598]
本稿では,上記の2つの側面に着目した,新しい多視点学習フレームワークを提案する。特に、さまざまな深層ニューラルネットワークをトレーニングして、様々なビュー内表現を学習する。 6つの公開データセットの実験により,提案手法の有効性が示された。
論文参考訳（メタデータ） (2020-07-13T01:13:23Z)
Learning the Compositional Visual Coherence for Complementary Recommendations [62.60648815930101]
補完的なレコメンデーションは、ユーザーが獲得したアイテムと補完的で互換性のある製品提案を提供することを目的としている。本研究では,グローバルコンテンツとセマンティックコンテンツの両方に包括的コンポジションコヒーレンスをモデル化する新しいコンテント注意ニューラルネットワーク(CANN)を提案する。
論文参考訳（メタデータ） (2020-06-08T06:57:18Z)
Unpaired Multi-modal Segmentation via Knowledge Distillation [77.39798870702174]
本稿では,不対向画像分割のための新しい学習手法を提案する。提案手法では,CTおよびMRI間での畳み込みカーネルの共有により,ネットワークパラメータを多用する。我々は2つの多クラスセグメンテーション問題に対するアプローチを広範囲に検証した。
論文参考訳（メタデータ） (2020-01-06T20:03:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。