論文の概要: LILE: Look In-Depth before Looking Elsewhere -- A Dual Attention Network
using Transformers for Cross-Modal Information Retrieval in Histopathology
Archives
- arxiv url: http://arxiv.org/abs/2203.01445v2
- Date: Fri, 4 Mar 2022 06:08:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-07 12:14:41.257738
- Title: LILE: Look In-Depth before Looking Elsewhere -- A Dual Attention Network
using Transformers for Cross-Modal Information Retrieval in Histopathology
Archives
- Title(参考訳): LILE: 未来を見渡す前に深く見る - 病理学アーカイブのクロスモーダル情報検索のためのトランスフォーマーを用いたデュアルアテンションネットワーク
- Authors: Danial Maleki, H.R Tizhoosh
- Abstract要約: クロスモダリティデータ検索は多くの分野や研究分野の要件となっている。
本研究では,共同潜在空間における画像やテキストの表現を支援するために,新たな損失項を持つ新しいアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 0.7614628596146599
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The volume of available data has grown dramatically in recent years in many
applications. Furthermore, the age of networks that used multiple modalities
separately has practically ended. Therefore, enabling bidirectional
cross-modality data retrieval capable of processing has become a requirement
for many domains and disciplines of research. This is especially true in the
medical field, as data comes in a multitude of types, including various types
of images and reports as well as molecular data. Most contemporary works apply
cross attention to highlight the essential elements of an image or text in
relation to the other modalities and try to match them together. However,
regardless of their importance in their own modality, these approaches usually
consider features of each modality equally. In this study, self-attention as an
additional loss term will be proposed to enrich the internal representation
provided into the cross attention module. This work suggests a novel
architecture with a new loss term to help represent images and texts in the
joint latent space. Experiment results on two benchmark datasets, i.e. MS-COCO
and ARCH, show the effectiveness of the proposed method.
- Abstract(参考訳): 近年、多くのアプリケーションで利用可能なデータの量は劇的に増加している。
さらに、複数のモダリティを別々に使ったネットワークの時代は事実上終わった。
したがって、処理可能な双方向の相互モーダリティデータ検索を可能にすることが、多くの分野や研究分野の要件となっている。
これは医療の分野では特に当てはまり、データは様々な種類の画像やレポート、分子データを含む多種多様なタイプで行われるため、特に当てはまる。
現代の作品の多くは、他のモダリティに関連して、画像やテキストの本質的な要素を強調し、それらを一致させようとする。
しかしながら、それらのモジュラリティの重要性にかかわらず、これらのアプローチは通常、各モジュラリティの特徴を等しく考慮する。
本研究では、クロスアテンションモジュールに提供される内部表現を強化するために、追加の損失項としての自己注意を提案する。
この研究は、共同潜在空間における画像とテキストの表現を支援する新しい損失項を持つ新しいアーキテクチャを示唆している。
MS-COCOとARCHという2つのベンチマークデータセットの実験結果から,提案手法の有効性が示された。
関連論文リスト
- Unlocking the Power of Spatial and Temporal Information in Medical Multimodal Pre-training [99.2891802841936]
我々は,空間的・時間的微粒なモデリングのためのMed-STフレームワークを提案する。
空間モデリングでは、Med-STはMixture of View Expert (MoVE)アーキテクチャを使用して、正面と横の両方のビューから異なる視覚的特徴を統合する。
時間的モデリングのために,フォワードマッピング分類 (FMC) とリバースマッピング回帰 (RMR) による新たな双方向サイクル整合性目標を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:15:09Z) - Multimodal Information Interaction for Medical Image Segmentation [24.024848382458767]
革新的マルチモーダル情報クロストランス(MicFormer)について紹介する。
あるモダリティから特徴を問合せし、対応する応答を別のモダリティから取り出し、バイモーダル特徴間の効果的なコミュニケーションを容易にする。
他のマルチモーダルセグメンテーション手法と比較して,本手法はそれぞれ2.83と4.23のマージンで優れていた。
論文 参考訳(メタデータ) (2024-04-25T07:21:14Z) - Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。
我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文 参考訳(メタデータ) (2024-03-19T03:59:14Z) - EDIS: Entity-Driven Image Search over Multimodal Web Content [95.40238328527931]
textbfEntity-textbfDriven textbfImage textbfSearch (EDIS)は、ニュース領域におけるクロスモーダル画像検索のためのデータセットである。
EDISは、実際の検索エンジンの結果から100万のWebイメージとキュレートされたデータセットで構成され、各イメージはテキスト記述と組み合わせられている。
論文 参考訳(メタデータ) (2023-05-23T02:59:19Z) - Few-shot Medical Image Segmentation via Cross-Reference Transformer [3.2634122554914]
Few-shot segmentation(FSS)は、少数のラベル付きサンプルから新しいカテゴリを学習することで、これらの課題に対処する可能性がある。
そこで本研究では,クロス参照変換器を用いた画像分割ネットワークを提案する。
実験の結果,CTデータセットとMRIデータセットの両方で良好な結果が得られた。
論文 参考訳(メタデータ) (2023-04-19T13:05:18Z) - Few Shot Medical Image Segmentation with Cross Attention Transformer [30.54965157877615]
我々は、CAT-Netと呼ばれる、数ショットの医用画像セグメンテーションのための新しいフレームワークを提案する。
提案するネットワークは,サポート画像とクエリ画像の相関関係を抽出し,有用なフォアグラウンド情報のみに限定する。
提案手法を,Abd-CT,Abd-MRI,Card-MRIの3つの公開データセットで検証した。
論文 参考訳(メタデータ) (2023-03-24T09:10:14Z) - Modeling Entities as Semantic Points for Visual Information Extraction
in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。
我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。
提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-03-23T08:21:16Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Cross-Modality Sub-Image Retrieval using Contrastive Multimodal Image
Representations [3.3754780158324564]
異なるモダリティによってキャプチャされた類似(または同じ)コンテンツのイメージは、共通の構造をほとんど共有しないため、モダリティ間の画像検索は困難である。
本稿では,モダリティ間の逆(サブ)画像検索のためのアプリケーション非依存のコンテンツベース画像検索システムを提案する。
論文 参考訳(メタデータ) (2022-01-10T19:04:28Z) - MD-CSDNetwork: Multi-Domain Cross Stitched Network for Deepfake
Detection [80.83725644958633]
現在のディープフェイク生成法では、偽画像やビデオの周波数スペクトルに識別的アーティファクトが残されている。
MD-CSDNetwork(MD-CSDNetwork)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-09-15T14:11:53Z) - Domain Siamese CNNs for Sparse Multispectral Disparity Estimation [15.065764374430783]
そこで本研究では,異なるスペクトルの画像間の不均一性を推定できる新しいCNNアーキテクチャを提案する。
LITIV 2014およびLITIV 2018データセットを用いて実験を行った。
論文 参考訳(メタデータ) (2020-04-30T20:29:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。