論文の概要: Learning Discriminative Visual-Text Representation for Polyp
Re-Identification
- arxiv url: http://arxiv.org/abs/2307.10625v1
- Date: Thu, 20 Jul 2023 06:47:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 14:29:57.209304
- Title: Learning Discriminative Visual-Text Representation for Polyp
Re-Identification
- Title(参考訳): ポリプ再同定のための識別的視覚テキスト表現の学習
- Authors: Suncheng Xiang, Cang Liu, Sijia Du, Dahong Qian
- Abstract要約: 大腸内視鏡によるポリープ再同定は、カメラとビューの異なる大きなギャラリーで特定のポリープと一致させることを目的としている。
伝統的な手法は主に視覚的表現学習に焦点を合わせ、訓練中の意味的特徴の可能性を探求することを無視している。
本稿では,高レベルなセマンティック情報を交換することで,ポリプビデオの表現を著しく強化できるVT-ReIDを提案する。
- 参考スコア(独自算出の注目度): 3.4269112703886955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Colonoscopic Polyp Re-Identification aims to match a specific polyp in a
large gallery with different cameras and views, which plays a key role for the
prevention and treatment of colorectal cancer in the computer-aided diagnosis.
However, traditional methods mainly focus on the visual representation
learning, while neglect to explore the potential of semantic features during
training, which may easily leads to poor generalization capability when adapted
the pretrained model into the new scenarios. To relieve this dilemma, we
propose a simple but effective training method named VT-ReID, which can
remarkably enrich the representation of polyp videos with the interchange of
high-level semantic information. Moreover, we elaborately design a novel
clustering mechanism to introduce prior knowledge from textual data, which
leverages contrastive learning to promote better separation from abundant
unlabeled text data. To the best of our knowledge, this is the first attempt to
employ the visual-text feature with clustering mechanism for the colonoscopic
polyp re-identification. Empirical results show that our method significantly
outperforms current state-of-the art methods with a clear margin.
- Abstract(参考訳): 大腸内視鏡的ポリープ再同定は大腸がんの予防と治療に重要な役割を果たす大きなギャラリー内の特定のポリープと異なるカメラとビューをマッチングすることを目的としている。
しかし、伝統的な手法は主に視覚的表現学習に焦点をあてるが、トレーニング中に意味的特徴の可能性を探究することを無視し、新しいシナリオに事前学習されたモデルを適用すると、容易に一般化能力が低下する可能性がある。
このジレンマを解消するために,高レベルのセマンティック情報を交換することで,ポリプビデオの表現を著しく強化する,VT-ReIDというシンプルで効果的なトレーニング手法を提案する。
さらに,テキストデータからの事前知識を導入するための新しいクラスタリング機構を精巧に設計した。
我々の知る限りでは、大腸内視鏡的ポリープ再同定のためのクラスタリング機構を備えたビジュアルテキスト機能を利用する最初の試みである。
実験結果から,本手法は現在の最先端の手法を著しく上回っており,その差は明らかである。
関連論文リスト
- Predicting Stroke through Retinal Graphs and Multimodal Self-supervised Learning [0.46835339362676565]
脳卒中の早期発見は介入に不可欠であり、信頼できるモデルを必要とする。
臨床情報とともに効率的な網膜像表現法を提案し,心血管の健康状態の包括的把握を試みた。
論文 参考訳(メタデータ) (2024-11-08T14:40:56Z) - Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis [65.7968515029306]
PGPIS(Pose-Guided Person Image Synthesis)のためのCFLD(Coarse-to-Fine Latent Diffusion)法を提案する。
認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。
論文 参考訳(メタデータ) (2024-02-28T06:07:07Z) - MLIP: Enhancing Medical Visual Representation with Divergence Encoder
and Knowledge-guided Contrastive Learning [48.97640824497327]
本稿では、画像テキストのコントラスト学習を通じて、言語情報を視覚領域に統合するための案内信号として、ドメイン固有の医療知識を活用する新しいフレームワークを提案する。
我々のモデルには、設計した分散エンコーダによるグローバルコントラスト学習、局所トークン・知識・パッチアライメントコントラスト学習、知識誘導型カテゴリレベルのコントラスト学習、エキスパートナレッジによるコントラスト学習が含まれる。
特に、MLIPは、限られた注釈付きデータであっても最先端の手法を超越し、医療表現学習の進歩におけるマルチモーダル事前学習の可能性を強調している。
論文 参考訳(メタデータ) (2024-02-03T05:48:50Z) - Towards Discriminative Representation with Meta-learning for
Colonoscopic Polyp Re-Identification [2.78481408391119]
大腸内視鏡によるポリープ再同定は、大きなギャラリーの同じポリープと異なるカメラで撮影された異なるビューの画像とを一致させることを目的としている。
ImageNetデータセットでトレーニングされたCNNモデルを直接適用する従来のオブジェクトReIDの手法は、不満足な検索性能をもたらす。
我々は、モデルがより一般的で差別的な知識を学習するのに役立つ、Colo-ReIDという、シンプルで効果的なトレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-02T04:10:14Z) - Few-Shot Classification of Skin Lesions from Dermoscopic Images by
Meta-Learning Representative Embeddings [1.957558771641347]
稀な疾患と新規疾患の診断のための注釈付き画像と根拠真理は乏しい。
少ないショットラーニングとメタラーニングは、低いデータレシエーションでうまく機能することを目指して、これらの問題を克服することを目的としている。
本稿では,皮膚内視鏡画像の分類におけるメタラーニングの改善に焦点をあてる。
論文 参考訳(メタデータ) (2022-10-30T21:27:15Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Unsupervised Representation Learning from Pathology Images with
Multi-directional Contrastive Predictive Coding [0.33148826359547523]
本稿では,デジタル病理パッチを用いたcpcフレームワークの修正について述べる。
これは潜在コンテキストを構築するための代替マスクを導入することで実現される。
提案法は, 組織学的パッチの深部分類を改良できることを示す。
論文 参考訳(メタデータ) (2021-05-11T21:17:13Z) - Proactive Pseudo-Intervention: Causally Informed Contrastive Learning
For Interpretable Vision Models [103.64435911083432]
PPI(Proactive Pseudo-Intervention)と呼ばれる新しい対照的な学習戦略を提案する。
PPIは、因果関係のない画像の特徴を保護するために積極的に介入する。
また,重要な画像画素を識別するための,因果的に通知された新たなサリエンスマッピングモジュールを考案し,モデル解釈の容易性を示す。
論文 参考訳(メタデータ) (2020-12-06T20:30:26Z) - Heterogeneous Contrastive Learning: Encoding Spatial Information for
Compact Visual Representations [183.03278932562438]
本稿では,エンコーディング段階に空間情報を加えることで,対照的な目的と強いデータ拡張操作の間の学習の不整合を緩和する効果的な手法を提案する。
提案手法は,視覚表現の効率を向上し,自己指導型視覚表現学習の今後の研究を刺激する鍵となるメッセージを提供する。
論文 参考訳(メタデータ) (2020-11-19T16:26:25Z) - Joint Deep Learning of Facial Expression Synthesis and Recognition [97.19528464266824]
顔表情の合成と認識を効果的に行うための新しい統合深層学習法を提案する。
提案手法は, 2段階の学習手順を伴い, まず, 表情の異なる顔画像を生成するために, 表情合成生成対向ネットワーク (FESGAN) を事前訓練する。
実画像と合成画像間のデータバイアスの問題を軽減するために,新しい実データ誘導バックプロパゲーション(RDBP)アルゴリズムを用いたクラス内損失を提案する。
論文 参考訳(メタデータ) (2020-02-06T10:56:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。