論文の概要: Tell2Reg: Establishing spatial correspondence between images by the same language prompts
- arxiv url: http://arxiv.org/abs/2502.03118v1
- Date: Wed, 05 Feb 2025 12:25:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:28:10.302064
- Title: Tell2Reg: Establishing spatial correspondence between images by the same language prompts
- Title(参考訳): Tell2Reg: 同じ言語プロンプトによる画像間の空間対応を確立する
- Authors: Wen Yan, Qianye Yang, Shiqi Huang, Yipei Wang, Shonit Punwani, Mark Emberton, Vasilis Stavrinides, Yipeng Hu, Dean Barratt,
- Abstract要約: 2つの異なる画像上で同じ言語プロンプトで対応する領域ペアを予測可能であることを示す。
これにより、完全に自動化され、トレーニング不要な登録アルゴリズムが実現される。
Tell2Regはトレーニング不要で、データキュレーションとラベル付けのコストと時間のかかる必要がなくなる。
- 参考スコア(独自算出の注目度): 7.064676360230362
- License:
- Abstract: Spatial correspondence can be represented by pairs of segmented regions, such that the image registration networks aim to segment corresponding regions rather than predicting displacement fields or transformation parameters. In this work, we show that such a corresponding region pair can be predicted by the same language prompt on two different images using the pre-trained large multimodal models based on GroundingDINO and SAM. This enables a fully automated and training-free registration algorithm, potentially generalisable to a wide range of image registration tasks. In this paper, we present experimental results using one of the challenging tasks, registering inter-subject prostate MR images, which involves both highly variable intensity and morphology between patients. Tell2Reg is training-free, eliminating the need for costly and time-consuming data curation and labelling that was previously required for this registration task. This approach outperforms unsupervised learning-based registration methods tested, and has a performance comparable to weakly-supervised methods. Additional qualitative results are also presented to suggest that, for the first time, there is a potential correlation between language semantics and spatial correspondence, including the spatial invariance in language-prompted regions and the difference in language prompts between the obtained local and global correspondences. Code is available at https://github.com/yanwenCi/Tell2Reg.git.
- Abstract(参考訳): 画像登録ネットワークは、変位場や変換パラメータを予測するのではなく、対応する領域を分割することを目的としている。
本研究では,FundingDINOとSAMをベースとした,事前学習された大規模マルチモーダルモデルを用いて,同じ言語プロンプトを用いて,対応する領域ペアを2つの異なる画像上で予測できることを示す。
これにより、完全に自動化され、トレーニング不要な登録アルゴリズムが実現され、幅広い画像登録タスクに一般化される可能性がある。
本稿では, 患者間の強度と形態を両立させた, 前立腺間MR画像の登録において, 課題の1つを用いた実験結果を示す。
Tell2Regはトレーニング不要で、これまでこの登録タスクに必要だった、費用と時間を要するデータキュレーションとラベル付けの必要性を排除している。
このアプローチは、教師なし学習に基づく登録手法よりも優れており、弱い教師付き手法に匹敵する性能を有する。
さらに, 言語意味論と空間的対応の間には, 言語プロンプト領域における空間的不変性や, 得られた局所的・大域的対応の言語プロンプトの違いなど, 潜在的な相関関係があることが示唆された。
コードはhttps://github.com/yanwenCi/Tell2Reg.gitで入手できる。
関連論文リスト
- MsMorph: An Unsupervised pyramid learning network for brain image registration [4.000367245594772]
MsMorphは、イメージペアを登録する手動プロセスの模倣を目的とした、イメージ登録フレームワークである。
異なるスケールで意味情報をデコードし、予測された変形場に対して連続的に合成する。
提案手法は,画像ペアとその近傍の異なる領域に着目し,手動による登録手法をシミュレートする。
論文 参考訳(メタデータ) (2024-10-23T19:20:57Z) - SAMReg: SAM-enabled Image Registration with ROI-based Correspondence [12.163299991979574]
本稿では,医療用画像登録のための対の関心領域(ROI)に基づく新しい空間対応表現について述べる。
我々は,トレーニング(あるいはトレーニングデータ)や勾配に基づく微調整,即時的なエンジニアリングを必要としない新しい登録アルゴリズムSAMRegを開発した。
提案手法は,試験指標間でのインテンシティベース反復アルゴリズムとDDF予測学習ベースネットワークより優れている。
論文 参考訳(メタデータ) (2024-10-17T23:23:48Z) - WIDIn: Wording Image for Domain-Invariant Representation in Single-Source Domain Generalization [63.98650220772378]
We present WIDIn, Wording Images for Domain-Invariant representation, to disentangleative discriminative visual representation。
まず、ドメイン固有の言語を適応的に識別し、削除するために使用可能な、きめ細かいアライメントを組み込んだ言語を推定する。
WIDInは、CLIPのような事前訓練された視覚言語モデルと、MoCoやBERTのような個別訓練されたユニモーダルモデルの両方に適用可能であることを示す。
論文 参考訳(メタデータ) (2024-05-28T17:46:27Z) - One registration is worth two segmentations [12.163299991979574]
画像登録の目的は、2つ以上の画像間の空間的対応を確立することである。
そこで我々は,より直感的な対応表現として,対応する関心領域(ROI)ペアの集合を提案する。
提案したSAMRegは複数のROIペアのセグメンテーションとマッチングが可能であることを示す。
論文 参考訳(メタデータ) (2024-05-17T16:14:32Z) - MENTOR: Multilingual tExt detectioN TOward leaRning by analogy [59.37382045577384]
本研究では,シーンイメージ内の視覚領域と見えない言語領域の両方を検出し,識別するフレームワークを提案する。
mentOR」は、ゼロショット学習と少数ショット学習の学習戦略を多言語シーンテキスト検出のために実現した最初の作品である。
論文 参考訳(メタデータ) (2024-03-12T03:35:17Z) - CLIM: Contrastive Language-Image Mosaic for Region Representation [58.05870131126816]
Contrastive Language-Image Mosaic (CLIM) は、領域とテキストの表現を整合させる新しいアプローチである。
CLIMは、異なるオープン語彙オブジェクト検出方法を一貫して改善する。
視覚言語モデルの領域表現を効果的に強化することができる。
論文 参考訳(メタデータ) (2023-12-18T17:39:47Z) - Spatial Correspondence between Graph Neural Network-Segmented Images [1.807691213023136]
医用画像分割のためのグラフニューラルネットワーク(GNN)が提案されている。
本研究は,空間対応を確立するための共通トポロジを用いて,これらのGNNのポテンシャルについて検討する。
CT画像における局所椎体サブリージョンの登録例を例に,GNNをベースとしたセグメンテーションが正確かつ信頼性の高いローカライゼーションを実現することを示す実験結果を得た。
論文 参考訳(メタデータ) (2023-03-12T03:25:01Z) - Joint segmentation and discontinuity-preserving deformable registration:
Application to cardiac cine-MR images [74.99415008543276]
多くの深層学習に基づく登録法は、変形場は画像領域の至る所で滑らかで連続的であると仮定する。
本研究では,この課題に対処するために,不連続かつ局所的に滑らかな変形場を確保するための新しい不連続保存画像登録手法を提案する。
入力画像の構造的相関を学習するために,ネットワークのセグメンテーション成分にコアテンションブロックを提案する。
大規模心磁気共鳴画像系列を用いた物体内時間画像登録の課題について検討した。
論文 参考訳(メタデータ) (2022-11-24T23:45:01Z) - Dense Siamese Network [86.23741104851383]
本稿では,Dense Siamese Network(DenseSiam)を提案する。
画像の2つのビュー間の類似性を最大化し、ピクセルの一貫性と領域の一貫性という2種類の一貫性を学習する。
最先端のセグメンテーション手法を2.1 mIoUで28%のトレーニングコストで上回っている。
論文 参考訳(メタデータ) (2022-03-21T15:55:23Z) - Few-shot image segmentation for cross-institution male pelvic organs
using registration-assisted prototypical learning [13.567073992605797]
本研究は,医用画像のための最初の3D画像間セグメンテーションネットワークを提案する。
興味のある8つの領域を持つ前立腺がん患者のラベル付き多施設データセットを使用する。
内蔵登録機構は、被験者間の一貫性のある解剖学の事前知識を効果的に活用することができる。
論文 参考訳(メタデータ) (2022-01-17T11:44:10Z) - RegionCLIP: Region-based Language-Image Pretraining [94.29924084715316]
画像テキストペアを用いたコントラスト言語画像事前学習(CLIP)は,画像分類において顕著な結果を得た。
そこで我々は,CLIPを拡張して領域レベルの視覚表現を学習するRegionalCLIPという手法を提案する。
提案手法は,COCOデータセットとLVISデータセットの新たなカテゴリに対して,3.8 AP50と2.2 APの精度を著しく向上させる。
論文 参考訳(メタデータ) (2021-12-16T18:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。