論文の概要: VOILA: Complexity-Aware Universal Segmentation of CT images by Voxel Interacting with Language
- arxiv url: http://arxiv.org/abs/2501.03482v1
- Date: Tue, 07 Jan 2025 03:00:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-08 15:49:38.576896
- Title: VOILA: Complexity-Aware Universal Segmentation of CT images by Voxel Interacting with Language
- Title(参考訳): VOILA:Voxel Interacting with LanguageによるCT画像の複雑度を考慮したユニバーサルセグメンテーション
- Authors: Zishuo Wan, Yu Gao, Wanyuan Pang, Dawei Ding,
- Abstract要約: LAnguage法(VOILA)を用いた汎用CT画像分割のためのVOxel Interactingを提案する。
ボクセルと言語を共有表現空間に整列し、コサイン類似性に基づいてボクセルを分類する。
我々は,フォアグラウンドとバックグラウンドの相違やターゲットボリュームの変化によるクラス不均衡の影響を軽減するために,Voxel-Language Interactionフレームワークを開発した。
- 参考スコア(独自算出の注目度): 3.562621045863125
- License:
- Abstract: Satisfactory progress has been achieved recently in universal segmentation of CT images. Following the success of vision-language methods, there is a growing trend towards utilizing text prompts and contrastive learning to develop universal segmentation models. However, there exists a significant imbalance in information density between 3D images and text prompts. Moreover, the standard fully connected layer segmentation approach faces significant challenges in handling multiple classes and exhibits poor generalizability. To address these challenges, we propose the VOxel Interacting with LAnguage method (VOILA) for universal CT image segmentation. Initially, we align voxels and language into a shared representation space and classify voxels on the basis of cosine similarity. Subsequently, we develop the Voxel-Language Interaction framework to mitigate the impact of class imbalance caused by foreground-background discrepancies and variations in target volumes. Furthermore, a Complexity-Aware Sampling method is proposed to focus on region hard to segment, achieved by generating pseudo-heatmaps from a trainable Gaussian mixture distribution. Our results indicate the proposed VOILA is capable to achieve improved performance with reduced parameters and computational cost during training. Furthermore, it demonstrates significant generalizability across diverse datasets without additional fine-tuning.
- Abstract(参考訳): 近年,CT画像の普遍的セグメンテーションにおいて満足度の向上が達成されている。
視覚言語手法の成功を受けて、テキストプロンプトとコントラスト学習を利用してユニバーサルセグメンテーションモデルを開発する傾向が高まっている。
しかし、3D画像とテキストプロンプトの間には、情報密度のかなりの不均衡が存在する。
さらに、標準の完全連結層セグメンテーションアプローチは、複数のクラスを扱う上で大きな課題に直面し、一般化性に欠ける。
これらの課題に対処するために,汎用CT画像分割のためのLAnguage法(VOILA)を用いたVOxel Interactingを提案する。
最初は、ボクセルと言語を共有表現空間に整列させ、コサイン類似性に基づいてボクセルを分類する。
その後,フォクセル・ランゲージ・インタラクション・フレームワークを開発し,前景と背景の相違やターゲットボリュームの変動によるクラス不均衡の影響を緩和する。
さらに, 訓練可能なガウス混合分布から擬熱マップを生成することにより, セグメント化が難しい領域に焦点を合わせるために, 複雑度対応サンプリング法を提案する。
提案するVOILAは,トレーニング中のパラメータと計算コストを削減して,性能の向上を実現することができることを示す。
さらに、追加の微調整なしで、多様なデータセット間で大きな一般化性を示す。
関連論文リスト
- MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection [64.29452783056253]
フォトリアリスティック・フェイスジェネレーション手法の急速な発展は、社会やアカデミックにおいて大きな関心を集めている。
既存のアプローチは主に画像モダリティを用いて顔の偽造パターンをキャプチャするが、きめ細かいノイズやテキストのような他のモダリティは完全には探索されていない。
そこで本研究では,画像ノイズの多点にわたる包括的かつきめ細かなフォージェリートレースをマイニングする,MFCLIP(MF-modal Fine-fine-fine-fine-fine-fine CLIP)モデルを提案する。
論文 参考訳(メタデータ) (2024-09-15T13:08:59Z) - Dual Advancement of Representation Learning and Clustering for Sparse and Noisy Images [14.836487514037994]
SNI(Sparse and Noisy Image)は、効果的な表現学習とクラスタリングに重要な課題を提起する。
本稿では、マスク画像モデリングから得られた表現を強化するために、DARLC(Dual Advancement of Representation Learning and Clustering)を提案する。
我々のフレームワークは、局所的な認識性、特異性、関係意味論の理解を高めることによって、表現の学習を改善する包括的なアプローチを提供する。
論文 参考訳(メタデータ) (2024-09-03T10:52:27Z) - Hybrid Convolutional and Attention Network for Hyperspectral Image Denoising [54.110544509099526]
ハイパースペクトル画像(HSI)は、ハイパースペクトルデータの効果的な解析と解釈に重要である。
ハイブリット・コンボリューション・アテンション・ネットワーク(HCANet)を提案する。
主流HSIデータセットに対する実験結果は,提案したHCANetの合理性と有効性を示している。
論文 参考訳(メタデータ) (2024-03-15T07:18:43Z) - Dual-scale Enhanced and Cross-generative Consistency Learning for Semi-supervised Medical Image Segmentation [49.57907601086494]
医用画像のセグメンテーションはコンピュータ支援診断において重要な役割を担っている。
半教師型医用画像(DEC-Seg)のための新しいDual-scale Enhanced and Cross-generative consistency learning frameworkを提案する。
論文 参考訳(メタデータ) (2023-12-26T12:56:31Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Self-supervised Semantic Segmentation: Consistency over Transformation [3.485615723221064]
Inception Large Kernel Attention (I-LKA) モジュールをベースとしたロバストなフレームワークを統合した新しい自己教師型アルゴリズム textbfS$3$-Net を提案する。
我々は、変形可能な畳み込みを積分成分として利用し、優れた物体境界定義のための歪み変形を効果的に捕捉し、デライン化する。
皮膚病変および肺臓器の分節タスクに関する実験結果から,SOTA法と比較して,本手法の優れた性能を示した。
論文 参考訳(メタデータ) (2023-08-31T21:28:46Z) - DCN-T: Dual Context Network with Transformer for Hyperspectral Image
Classification [109.09061514799413]
複雑な撮像条件による空間変動のため,HSI分類は困難である。
本稿では,HSIを高品質な三スペクトル画像に変換する三スペクトル画像生成パイプラインを提案する。
提案手法は,HSI分類における最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-04-19T18:32:52Z) - Cross-modal tumor segmentation using generative blending augmentation and self training [1.6440045168835438]
本稿では,新しいデータ拡張手法によって強化された従来の画像合成に基づくクロスモーダルセグメンテーション手法を提案する。
Generative Blending Augmentation (GBA)は、単一のトレーニング画像から代表的生成特徴を学習し、腫瘍の外観を現実的に多様化させる。
提案手法は,MICCAI CrossMoDA 2022 チャレンジの検証および試験段階において,前庭神経ショーノマ(VS)セグメンテーションにおいて第1位となった。
論文 参考訳(メタデータ) (2023-04-04T11:01:46Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。