論文の概要: BiCLIP: Bidirectional and Consistent Language-Image Processing for Robust Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2603.00156v1
- Date: Wed, 25 Feb 2026 18:11:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.065488
- Title: BiCLIP: Bidirectional and Consistent Language-Image Processing for Robust Medical Image Segmentation
- Title(参考訳): BiCLIP:ロバストな医用画像分割のための双方向かつ一貫性のある言語画像処理
- Authors: Saivan Talaei, Fatemeh Daneshfar, Abdulhady Abas Abdullah, Mustaqeem Khan,
- Abstract要約: BiCLIPは、医療セグメンテーションの堅牢性を高めるために設計されたフレームワークである。
双方向のマルチモーダル融合機構を備えており、視覚的特徴によってテキスト表現を反復的に洗練することができる。
運動のぼやけや低用量CTノイズなど、臨床的アーティファクトに対する大きな耐性を示す。
- 参考スコア(独自算出の注目度): 3.7276397365086233
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical image segmentation is a cornerstone of computer-assisted diagnosis and treatment planning. While recent multimodal vision-language models have shown promise in enhancing semantic understanding through textual descriptions, their resilience in "in-the-wild" clinical settings-characterized by scarce annotations and hardware-induced image degradations-remains under-explored. We introduce BiCLIP (Bidirectional and Consistent Language-Image Processing), a framework engineered to bolster robustness in medical segmentation. BiCLIP features a bidirectional multimodal fusion mechanism that enables visual features to iteratively refine textual representations, ensuring superior semantic alignment. To further stabilize learning, we implement an augmentation consistency objective that regularizes intermediate representations against perturbed input views. Evaluation on the QaTa-COV19 and MosMedData+ benchmarks demonstrates that BiCLIP consistently surpasses state-of-the-art image-only and multimodal baselines. Notably, BiCLIP maintains high performance when trained on as little as 1% of labeled data and exhibits significant resistance to clinical artifacts, including motion blur and low-dose CT noise.
- Abstract(参考訳): 医用画像のセグメンテーションはコンピュータによる診断と治療計画の基礎となる。
近年のマルチモーダル視覚言語モデルでは、テキスト記述による意味理解の強化が期待されているが、そのレジリエンスは、希少なアノテーションとハードウェアによる画像劣化が未発見の残像に特徴付けられている。
BiCLIP(Bidirectional and Consistent Language- Image Processing)は,医療セグメンテーションにおけるロバスト性を高めるために開発されたフレームワークである。
BiCLIPは双方向のマルチモーダル融合機構を備えており、視覚的特徴がテキスト表現を反復的に洗練し、より優れたセマンティックアライメントを確保することができる。
さらに学習を安定させるために、摂動型入力ビューに対する中間表現を規則化する拡張整合目標を実装した。
QaTa-COV19とMosMedData+ベンチマークの評価は、BiCLIPが最先端の画像のみのベースラインとマルチモーダルベースラインを一貫して上回っていることを示している。
とくにBiCLIPは、ラベル付きデータの1%以下のトレーニングで高いパフォーマンスを維持し、運動ぼけや低用量CTノイズなどの臨床アーチファクトに対して大きな耐性を示す。
関連論文リスト
- MedCLIPSeg: Probabilistic Vision-Language Adaptation for Data-Efficient and Generalizable Medical Image Segmentation [8.913012426353154]
MedCLIPSegは、CLIPを堅牢で、データ効率が高く、不確実性を認識した医療画像セグメンテーションに適応する新しいフレームワークである。
提案手法では,確率的クロスモーダルアテンションによるパッチレベルのCLIP埋め込みを活用し,画像とテキストトークン間の双方向インタラクションを実現する。
論文 参考訳(メタデータ) (2026-02-23T23:46:05Z) - Cite-While-You-Generate: Training-Free Evidence Attribution for Multimodal Clinical Summarization [32.47484883374212]
信頼できる臨床要約には、それぞれの声明の出所に関する流動的な生成と透明性が必要である。
本稿では,デコーダの注意を生かしてテキストスパンや画像を直接引用する,生成時ソース属性のトレーニングフリーフレームワークを提案する。
画像パッチの注意を直接利用する生画像モードと、生成したキャプションに代えてテキストベースのアライメントを可能にするキャプション・アズ・スパンモードの2つの戦略を導入する。
論文 参考訳(メタデータ) (2026-01-23T02:01:43Z) - Multi-Level CLS Token Fusion for Contrastive Learning in Endoscopy Image Classification [2.5995006632251516]
ENT内視鏡画像解析に適した統合視覚言語フレームワークを提案する。
同時に、画像分類、画像から画像への検索、テキストから画像への検索の3つの臨床的タスクに取り組む。
95%の精度とF1スコア,画像画像検索用Recall@1,画像画像検索用0.93,テキスト画像検索用0.92,MRRスコア0.97,0.96。
論文 参考訳(メタデータ) (2025-08-31T09:03:39Z) - Multimodal Causal-Driven Representation Learning for Generalizable Medical Image Segmentation [56.52520416420957]
医用画像セグメンテーションにおける領域一般化に取り組むために, MCDRL(Multimodal Causal-Driven Representation Learning)を提案する。
MCDRLは競合する手法より一貫して優れ、セグメンテーション精度が優れ、堅牢な一般化性を示す。
論文 参考訳(メタデータ) (2025-08-07T03:41:41Z) - BiPVL-Seg: Bidirectional Progressive Vision-Language Fusion with Global-Local Alignment for Medical Image Segmentation [9.262045402495225]
BiPVL-Segは、視覚言語融合と埋め込みアライメントを統合するエンドツーエンドフレームワークである。
BiPVL-Segはアーキテクチャにプログレッシブ融合を導入し、視覚とテキストエンコーダの段階的な情報交換を容易にする。
これは、クラスレベルと概念レベルの両方でテキストと視覚の埋め込みをアライメントすることで、テキストエンコーダの理解を高める訓練目的である。
論文 参考訳(メタデータ) (2025-03-30T17:34:39Z) - MedCLIP-SAMv2: Towards Universal Text-Driven Medical Image Segmentation [2.2585213273821716]
MedCLIP-SAMv2はCLIPとSAMモデルを統合して臨床スキャンのセグメンテーションを行う新しいフレームワークである。
提案手法は,DHN-NCE(Decoupled Hard Negative Noise Contrastive Estimation)によるBiomedCLIPモデルの微調整を含む。
また,ゼロショットセグメンテーションラベルを弱教師付きパラダイム内で使用することにより,セグメンテーション品質をさらに向上する。
論文 参考訳(メタデータ) (2024-09-28T23:10:37Z) - ViKL: A Mammography Interpretation Framework via Multimodal Aggregation of Visual-knowledge-linguistic Features [54.37042005469384]
MVKLは,マルチビュー画像,詳細な表示,報告を含む最初のマルチモーダルマンモグラフィーデータセットである。
このデータセットに基づいて、教師なし事前学習のチャラリングタスクに焦点を当てる。
視覚,知識,言語機能を相乗化するフレームワークであるViKLを提案する。
論文 参考訳(メタデータ) (2024-09-24T05:01:23Z) - CLIP in Medical Imaging: A Survey [59.429714742927956]
コントラスト言語-画像事前学習は、視覚モデルにテキスト管理を導入することに成功している。
CLIPの使用は最近、医療画像領域への関心が高まっている。
論文 参考訳(メタデータ) (2023-12-12T15:21:57Z) - C^2M-DoT: Cross-modal consistent multi-view medical report generation
with domain transfer network [67.97926983664676]
ドメイン転送ネットワーク(C2M-DoT)を用いたクロスモーダルなマルチビュー医療レポート生成を提案する。
C2M-DoTは、すべてのメトリクスで最先端のベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2023-10-09T02:31:36Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Cross-level Contrastive Learning and Consistency Constraint for
Semi-supervised Medical Image Segmentation [46.678279106837294]
半教師型医用画像セグメンテーションにおける局所特徴の表現能力を高めるためのクロスレベルコンストラシティブ学習手法を提案する。
クロスレベルなコントラスト学習と一貫性制約の助けを借りて、非ラベル付きデータを効果的に探索してセグメンテーション性能を向上させることができる。
論文 参考訳(メタデータ) (2022-02-08T15:12:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。