Fugu-MT 論文翻訳(概要): Bi-VLGM : Bi-Level Class-Severity-Aware Vision-Language Graph Matching for Text Guided Medical Image Segmentation

論文の概要: Bi-VLGM : Bi-Level Class-Severity-Aware Vision-Language Graph Matching for Text Guided Medical Image Segmentation

arxiv url: http://arxiv.org/abs/2305.12231v1
Date: Sat, 20 May 2023 16:50:45 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-23 23:38:08.391241
Title: Bi-VLGM : Bi-Level Class-Severity-Aware Vision-Language Graph Matching for Text Guided Medical Image Segmentation
Title（参考訳）: Bi-VLGM : テキストガイド医用画像セグメンテーションのためのバイレベルクラス重症度認識型視覚言語グラフマッチング
Authors: Chen Wenting, Liu Jie and Yuan Yixuan
Abstract要約: テキストガイド型医用画像分割のためのBi-VLGM(Bi-Severity-aware Vision-Language Graph Matching)を提案する。局所的な(グローバル)特徴とクラス(重大性)特徴の関係を利用して、セグメンテーションモデルは、クラス認識および重大性認識情報を選択的に学習することができる。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Medical reports with substantial information can be naturally complementary to medical images for computer vision tasks, and the modality gap between vision and language can be solved by vision-language matching (VLM). However, current vision-language models distort the intra-model relation and mainly include class information in prompt learning that is insufficient for segmentation task. In this paper, we introduce a Bi-level class-severity-aware Vision-Language Graph Matching (Bi-VLGM) for text guided medical image segmentation, composed of a word-level VLGM module and a sentence-level VLGM module, to exploit the class-severity-aware relation among visual-textual features. In word-level VLGM, to mitigate the distorted intra-modal relation during VLM, we reformulate VLM as graph matching problem and introduce a vision-language graph matching (VLGM) to exploit the high-order relation among visual-textual features. Then, we perform VLGM between the local features for each class region and class-aware prompts to bridge their gap. In sentence-level VLGM, to provide disease severity information for segmentation task, we introduce a severity-aware prompting to quantify the severity level of retinal lesion, and perform VLGM between the global features and the severity-aware prompts. By exploiting the relation between the local (global) and class (severity) features, the segmentation model can selectively learn the class-aware and severity-aware information to promote performance. Extensive experiments prove the effectiveness of our method and its superiority to existing methods. Source code is to be released.
Abstract（参考訳）: 重要な情報を持つ医療報告は、コンピュータビジョンタスクの医療画像と自然に補完でき、視覚と言語の間のモダリティギャップは、視覚言語マッチング(VLM)によって解決できる。しかし、現在の視覚言語モデルはモデル内関係を歪め、主にセグメンテーションタスクに不十分な素早い学習におけるクラス情報を含む。本稿では,単語レベルのvlgmモジュールと文レベルのvlgmモジュールからなるテキスト誘導医用画像分割のためのbi-level class-severity-aware vision-language graph matching (bi-vlgm)を提案する。単語レベルのVLGMでは、VLM中の歪んだモーダル間の関係を緩和するため、VLMをグラフマッチング問題として再定義し、視覚・テクスチャの特徴間の高次関係を利用するために視覚言語グラフマッチング(VLGM)を導入する。次に、各クラス領域のローカル特徴とクラス認識プロンプトの間でVLGMを行い、そのギャップを埋める。文レベルVLGMでは,セグメンテーションタスクの重症度情報を提供するために,網膜病変の重症度レベルを定量化するための重度認識プロンプトを導入し,大域的特徴と重度認識プロンプトの間にVLGMを実行する。局所的な(グローバル)特徴とクラス(重大)特徴の関係を利用して、セグメンテーションモデルは、クラス認識および重大度認識情報を選択的に学習し、パフォーマンスを促進する。広範な実験により,本手法の有効性と既存手法との優位性が証明された。ソースコードはリリースされます。

関連論文リスト

GMAT: Grounded Multi-Agent Clinical Description Generation for Text Encoder in Vision-Language MIL for Whole Slide Image Classification [4.922864692096282]
多重インスタンス学習(MIL)は、全スライド画像(WSI)分類における主要なアプローチである。最近の研究は、医療知識を取り入れたビジョン言語モデル(VLM)をMILパイプラインに導入している。本稿では2つの重要なコントリビューションを持つビジョン言語MILフレームワークを提案する。
論文参考訳（メタデータ） (2025-08-02T09:59:39Z)
A Vision-Language Model for Focal Liver Lesion Classification [0.0]
Contrastive Language-Image Pre-Training Model (CLIP) などの視覚言語モデル(VLM)が画像分類に適用されている。局所肝病変(FLL)分類に特化して設計されたモデルであるLiver-VLMを提案する。
論文参考訳（メタデータ） (2025-05-06T09:19:12Z)
From Gaze to Insight: Bridging Human Visual Attention and Vision Language Model Explanation for Weakly-Supervised Medical Image Segmentation [46.99748372216857]
視覚言語モデル(VLM)は、テキスト記述を通して意味的コンテキストを提供するが、説明精度は欠如している。本稿では,その補完的強みを活かし,視線と言語指導を統合した教師教育フレームワークを提案する。本手法は,8.78%,80.53%,84.22%のDiceスコアをそれぞれ達成し,アノテーション負担を増大させることなく視線ベースラインよりも3.5%向上した。
論文参考訳（メタデータ） (2025-04-15T16:32:15Z)
BiPVL-Seg: Bidirectional Progressive Vision-Language Fusion with Global-Local Alignment for Medical Image Segmentation [9.262045402495225]
BiPVL-Segは、視覚言語融合と埋め込みアライメントを統合するエンドツーエンドフレームワークである。 BiPVL-Segはアーキテクチャにプログレッシブ融合を導入し、視覚とテキストエンコーダの段階的な情報交換を容易にする。これは、クラスレベルと概念レベルの両方でテキストと視覚の埋め込みをアライメントすることで、テキストエンコーダの理解を高める訓練目的である。
論文参考訳（メタデータ） (2025-03-30T17:34:39Z)
Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。 LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文参考訳（メタデータ） (2025-01-03T17:56:28Z)
CL-HOI: Cross-Level Human-Object Interaction Distillation from Vision Large Language Models [10.62320998365966]
視覚言語モデル(VLLM)は、本質的には画像レベルでの相互作用を認識・推論できるが、計算的に重く、インスタンスレベルのHOI検出には設計されていない。手動のアノテーションを必要とせずに,VLLMのイメージレベルの理解からインスタンスレベルのHOIを蒸留するクロスレベルHOI蒸留(CL-HOI)フレームワークを提案する。本手法は,視覚情報から言語情報への変換を行う文脈蒸留と,対話認知ネットワーク(ICN)が空間的,視覚的,文脈的関係を推論する相互作用蒸留の2段階を含む。
論文参考訳（メタデータ） (2024-10-21T05:51:51Z)
LoGra-Med: Long Context Multi-Graph Alignment for Medical Vision-Language Model [55.80651780294357]
最新の医療用マルチモーダル大規模言語モデル(med-MLLM)は、事前訓練において命令追従データを活用する。 LoGra-Medは新しいマルチグラフアライメントアルゴリズムで、画像のモダリティ、会話ベースの記述、拡張キャプション間でのトリプルト相関を強制する。以上の結果から,LoGra-Medは医療用VQAの600K画像テキスト対に対してLAVA-Medと一致し,その10%でトレーニングした場合に有意に優れていた。
論文参考訳（メタデータ） (2024-10-03T15:52:03Z)
ViKL: A Mammography Interpretation Framework via Multimodal Aggregation of Visual-knowledge-linguistic Features [54.37042005469384]
MVKLは,マルチビュー画像,詳細な表示,報告を含む最初のマルチモーダルマンモグラフィーデータセットである。このデータセットに基づいて、教師なし事前学習のチャラリングタスクに焦点を当てる。視覚,知識,言語機能を相乗化するフレームワークであるViKLを提案する。
論文参考訳（メタデータ） (2024-09-24T05:01:23Z)
MLIP: Enhancing Medical Visual Representation with Divergence Encoder and Knowledge-guided Contrastive Learning [48.97640824497327]
本稿では、画像テキストのコントラスト学習を通じて、言語情報を視覚領域に統合するための案内信号として、ドメイン固有の医療知識を活用する新しいフレームワークを提案する。我々のモデルには、設計した分散エンコーダによるグローバルコントラスト学習、局所トークン・知識・パッチアライメントコントラスト学習、知識誘導型カテゴリレベルのコントラスト学習、エキスパートナレッジによるコントラスト学習が含まれる。特に、MLIPは、限られた注釈付きデータであっても最先端の手法を超越し、医療表現学習の進歩におけるマルチモーダル事前学習の可能性を強調している。
論文参考訳（メタデータ） (2024-02-03T05:48:50Z)
Enhancing medical vision-language contrastive learning via inter-matching relation modelling [14.777259981193726]
医用視覚言語コントラスト学習(mVLCL)による医用画像表現の学習最近のmVLCL法は、画像サブリージョンとレポートキーワードを局所マッチングとして整列しようとする。本稿では,Relation-enhanced contrastive learning framework(RECLF)を用いた局所マッチング間のマッチング関係をモデル化するmVLCL法を提案する。
論文参考訳（メタデータ） (2024-01-19T05:28:51Z)
Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models [50.653838482083614]
本稿では,IT-LVLMの基本的なコンピュータビジョンタスクにおける能力を評価するために,スケーラブルなテストベッドを提案する。 MERLIMには300K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
論文参考訳（メタデータ） (2023-12-03T16:39:36Z)
SemiVL: Semi-Supervised Semantic Segmentation with Vision-Language Guidance [97.00445262074595]
半教師付きセマンティックセマンティックセグメンテーションに視覚言語モデルからの豊富な事前情報を統合することを提案する。我々は、視覚と言語を共同で推論する言語誘導デコーダを設計する。 4つのセマンティックセグメンテーションデータセット上でSemiVLを評価する。
論文参考訳（メタデータ） (2023-11-27T19:00:06Z)
LION : Empowering Multimodal Large Language Model with Dual-Level Visual Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文参考訳（メタデータ） (2023-11-20T15:56:44Z)
Exploring Transfer Learning in Medical Image Segmentation using Vision-Language Models [0.8878802873945023]
本研究では,視覚言語モデルから2次元医用画像への移行に関する最初の体系的研究を紹介する。 VLSMは画像のみのセグメンテーションモデルと比較して競合性能を示すが、全てのVLSMは言語プロンプトから追加情報を利用するわけではない。
論文参考訳（メタデータ） (2023-08-15T11:28:21Z)
Learning to Exploit Temporal Structure for Biomedical Vision-Language Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文参考訳（メタデータ） (2023-01-11T16:35:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。