論文の概要: HYDEN: Hyperbolic Density Representations for Medical Images and Reports
- arxiv url: http://arxiv.org/abs/2408.09715v1
- Date: Mon, 19 Aug 2024 06:06:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 17:34:18.816764
- Title: HYDEN: Hyperbolic Density Representations for Medical Images and Reports
- Title(参考訳): ハイデン:医療画像の高ボリック密度表現と報告
- Authors: Zhi Qiao, Linbin Han, Xiantong Zhen, Jia-Hong Gao, Zhen Qian,
- Abstract要約: ハイパーボリック密度埋め込みに基づく画像テキスト表現学習アプローチは、特定の医学領域のデータに適合する。
カプセル化損失関数を用いて画像-テキスト密度分布間の部分順序関係をモデル化する。
実験により,本手法の解釈可能性とその性能について,ベースライン法と比較して検証した。
- 参考スコア(独自算出の注目度): 23.771144148149432
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In light of the inherent entailment relations between images and text, hyperbolic point vector embeddings, leveraging the hierarchical modeling advantages of hyperbolic space, have been utilized for visual semantic representation learning. However, point vector embedding approaches fail to address the issue of semantic uncertainty, where an image may have multiple interpretations, and text may refer to different images, a phenomenon particularly prevalent in the medical domain. Therefor, we propose \textbf{HYDEN}, a novel hyperbolic density embedding based image-text representation learning approach tailored for specific medical domain data. This method integrates text-aware local features alongside global features from images, mapping image-text features to density features in hyperbolic space via using hyperbolic pseudo-Gaussian distributions. An encapsulation loss function is employed to model the partial order relations between image-text density distributions. Experimental results demonstrate the interpretability of our approach and its superior performance compared to the baseline methods across various zero-shot tasks and different datasets.
- Abstract(参考訳): 画像とテキストの係り受け関係から、双曲点ベクトル埋め込みは双曲空間の階層的モデリングの利点を生かし、視覚意味表現学習に利用されてきた。
しかし、ポイントベクトル埋め込みアプローチは、画像が複数の解釈を持つ可能性があるセマンティック不確実性の問題に対処できず、テキストは異なる画像を参照することができる。
そこで我々は, 特定の医療領域データに適した, ハイパーボリック密度埋め込みに基づく画像テキスト表現学習手法である \textbf{HYDEN} を提案する。
本手法は,ハイパーボリックな擬ガウス分布を用いて,画像のグローバルな特徴,画像のテキスト特徴と双曲空間の密度特徴とをマッピングする。
カプセル化損失関数を用いて画像-テキスト密度分布間の部分順序関係をモデル化する。
実験により, ゼロショットタスクと異なるデータセット間のベースライン手法と比較して, 提案手法の解釈可能性, 性能に優れることを示した。
関連論文リスト
- Enhancing Label-efficient Medical Image Segmentation with Text-guided Diffusion Models [5.865983529245793]
TextDiffは、安価な医療用テキストアノテーションを通じて意味表現を改善する。
その結果,TextDiffは,少数のトレーニングサンプルのみで,最先端のマルチモーダルセグメンテーション手法よりもはるかに優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-07T10:21:08Z) - Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。
本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。
文献における既存手法に対して,本手法は良好な性能を発揮する。
論文 参考訳(メタデータ) (2024-04-01T17:48:15Z) - EmerDiff: Emerging Pixel-level Semantic Knowledge in Diffusion Models [52.3015009878545]
我々は、追加の訓練をすることなく、きめ細かなセグメンテーションマップを生成できる画像セグメンタを開発した。
低次元特徴写像の空間的位置と画像画素間の意味的対応を同定する。
大規模な実験では、生成したセグメンテーションマップがよく説明され、画像の細部を捉えることが示されている。
論文 参考訳(メタデータ) (2024-01-22T07:34:06Z) - MLIP: Medical Language-Image Pre-training with Masked Local
Representation Learning [20.33625985769796]
既存のコントラスト言語画像事前学習は、豊富な画像とテキストのペアをマッチングすることで、共同表現を学習することを目的としている。
本稿では,限られた画像テキストの医療データをより効率的に活用する医用言語-画像事前学習フレームワークを提案する。
評価の結果、MLIPはゼロ/フェーショット分類や少数ショット分割タスクにおいて、従来よりも大きなマージンで性能が向上していることがわかった。
論文 参考訳(メタデータ) (2024-01-03T07:54:13Z) - Learned representation-guided diffusion models for large-image generation [58.192263311786824]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。
我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。
実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文 参考訳(メタデータ) (2023-12-12T14:45:45Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z) - Marginal Contrastive Correspondence for Guided Image Generation [58.0605433671196]
例題に基づく画像翻訳は、条件入力と2つの異なる領域からの例題間の密接な対応を確立する。
既存の作業は、2つのドメインにまたがる機能的距離を最小化することで、ドメイン間の通信を暗黙的に構築する。
本稿では,MCL-Net(Marginal Contrastive Learning Network)の設計を行った。
論文 参考訳(メタデータ) (2022-04-01T13:55:44Z) - BI-GCN: Boundary-Aware Input-Dependent Graph Convolution Network for
Biomedical Image Segmentation [21.912509900254364]
セグメント化タスクにグラフ畳み込みを適用し,改良されたtextitLaplacianを提案する。
本手法は,大腸内視鏡像におけるポリープの分画と光ディスク,光カップのカラーファンドス画像における画期的なアプローチよりも優れていた。
論文 参考訳(メタデータ) (2021-10-27T21:12:27Z) - Graph Neural Networks for UnsupervisedDomain Adaptation of
Histopathological ImageAnalytics [22.04114134677181]
組織像解析のための教師なし領域適応のための新しい手法を提案する。
特徴空間に画像を埋め込むバックボーンと、ラベルで画像の監視信号をプロパゲートするグラフニューラルネットワーク層に基づいている。
実験では、4つの公開データセット上での最先端のパフォーマンスを評価する。
論文 参考訳(メタデータ) (2020-08-21T04:53:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。