論文の概要: Transferable Visual Words: Exploiting the Semantics of Anatomical
Patterns for Self-supervised Learning
- arxiv url: http://arxiv.org/abs/2102.10680v1
- Date: Sun, 21 Feb 2021 20:44:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-23 14:44:30.596429
- Title: Transferable Visual Words: Exploiting the Semantics of Anatomical
Patterns for Self-supervised Learning
- Title(参考訳): 移動可能な視覚単語:自己監督学習のための解剖学的パターンのセマンティクスを探求する
- Authors: Fatemeh Haghighi, Mohammad Reza Hosseinzadeh Taher, Zongwei Zhou,
Michael B. Gotway, Jianming Liang
- Abstract要約: Transferable Visual Word (TransVW) は、医学的画像解析における深層学習のためのアノテーション効率の実現を目指している。
自己発見による解剖学的整合性に応じて,これらの視覚的単語を自動抽出できることが示される。
TransVWのアノテーション効率を実証し、より高性能で高速な収束を実現し、アノテーションコストを削減します。
- 参考スコア(独自算出の注目度): 6.569456721086925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a new concept called "transferable visual words"
(TransVW), aiming to achieve annotation efficiency for deep learning in medical
image analysis. Medical imaging--focusing on particular parts of the body for
defined clinical purposes--generates images of great similarity in anatomy
across patients and yields sophisticated anatomical patterns across images,
which are associated with rich semantics about human anatomy and which are
natural visual words. We show that these visual words can be automatically
harvested according to anatomical consistency via self-discovery, and that the
self-discovered visual words can serve as strong yet free supervision signals
for deep models to learn semantics-enriched generic image representation via
self-supervision (self-classification and self-restoration). Our extensive
experiments demonstrate the annotation efficiency of TransVW by offering higher
performance and faster convergence with reduced annotation cost in several
applications. Our TransVW has several important advantages, including (1)
TransVW is a fully autodidactic scheme, which exploits the semantics of visual
words for self-supervised learning, requiring no expert annotation; (2) visual
word learning is an add-on strategy, which complements existing self-supervised
methods, boosting their performance; and (3) the learned image representation
is semantics-enriched models, which have proven to be more robust and
generalizable, saving annotation efforts for a variety of applications through
transfer learning. Our code, pre-trained models, and curated visual words are
available at https://github.com/JLiangLab/TransVW.
- Abstract(参考訳): 本稿では,医学画像解析における深層学習のためのアノテーション効率を実現するために,transportable visual words(transvw)という新しい概念を提案する。
医療画像 - 定義された臨床目的のために身体の特定の部分に焦点を合わせ、患者間で解剖学的に非常に類似した画像を生成し、画像間で洗練された解剖学的パターンを生成する。
これらの視覚単語は自己発見を通じて解剖学的一貫性に従って自動的に収穫され、自己発見された視覚単語は、自己分類と自己修復(self-supervision and self-restoration)を通じて意味論に富んだ汎用画像表現を学ぶための、深いモデルにとって強力で自由な監督信号として機能する。
我々は,複数のアプリケーションにおいて,より高い性能とより高速なコンバージェンスとアノテーションコストの低減により,transvwのアノテーション効率を実証する。
Our TransVW has several important advantages, including (1) TransVW is a fully autodidactic scheme, which exploits the semantics of visual words for self-supervised learning, requiring no expert annotation; (2) visual word learning is an add-on strategy, which complements existing self-supervised methods, boosting their performance; and (3) the learned image representation is semantics-enriched models, which have proven to be more robust and generalizable, saving annotation efforts for a variety of applications through transfer learning.
私たちのコード、事前訓練されたモデル、およびキュレートされたビジュアルワードはhttps://github.com/JLiangLab/TransVW.orgで利用可能です。
関連論文リスト
- Decoding Visual Experience and Mapping Semantics through Whole-Brain Analysis Using fMRI Foundation Models [10.615012396285337]
我々は脳全体の活性化マップを組み込むことで視覚過程の理解を高めるアルゴリズムを開発した。
まず,視覚処理を復号化するための最先端手法と比較し,予測意味精度を43%向上させた。
論文 参考訳(メタデータ) (2024-11-11T16:51:17Z) - Using Multimodal Deep Neural Networks to Disentangle Language from Visual Aesthetics [8.749640179057469]
我々は、自然画像の人間の美的評価を予測するために、ユニモーダル視覚、ユニモーダル言語、マルチモーダルディープニューラルネットワーク(DNN)モデルの学習表現に対する線形復号を用いる。
言語対応型視覚モデル(SLIPなど)は, 単言語型視覚モデル(SimCLRなど)では, 言語対応の視覚モデル(SLIPなど)では, 単言語型視覚と比較して小さな利得が得られている。
まとめると、これらの結果は、最終的に我々が美の体験を説明するために見つかるであろう言葉が何であれ、フィードフォワードの知覚の計算は、その経験に十分な基礎を与えるかもしれないことを示唆している。
論文 参考訳(メタデータ) (2024-10-31T03:37:21Z) - Autoregressive Sequence Modeling for 3D Medical Image Representation [48.706230961589924]
本稿では, 自己回帰シーケンス事前学習フレームワークを用いて, 3次元医用画像表現を学習するための先駆的手法を提案する。
我々は,空間的,コントラスト的,意味的相関に基づく様々な3次元医用画像にアプローチし,トークンシーケンス内の相互接続された視覚トークンとして扱う。
論文 参考訳(メタデータ) (2024-09-13T10:19:10Z) - Hierarchical Text-to-Vision Self Supervised Alignment for Improved Histopathology Representation Learning [64.1316997189396]
病理組織像のための新しい言語型自己教師学習フレームワーク,階層型言語型自己監督(HLSS)を提案する。
その結果,OpenSRH と TCGA の2つの医用画像ベンチマークにおいて,最先端の性能が得られた。
論文 参考訳(メタデータ) (2024-03-21T17:58:56Z) - MindGPT: Interpreting What You See with Non-invasive Brain Recordings [24.63828455553959]
我々は,fMRI信号から知覚された視覚刺激を自然言語に解釈する,MindGPTと呼ばれる非侵襲的ニューラルデコーダを導入する。
実験の結果, 生成した単語列は, 目に見える刺激で伝達される視覚情報を真に表現していることがわかった。
論文 参考訳(メタデータ) (2023-09-27T15:35:20Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - Multi-Modal Masked Autoencoders for Medical Vision-and-Language
Pre-Training [62.215025958347105]
マルチモーダルマスク付きオートエンコーダを用いた自己教師型学習パラダイムを提案する。
我々は、ランダムにマスキングされた画像やテキストから欠落したピクセルやトークンを再構成することで、クロスモーダルなドメイン知識を学習する。
論文 参考訳(メタデータ) (2022-09-15T07:26:43Z) - K-LITE: Learning Transferable Visual Models with External Knowledge [242.3887854728843]
K-LITE (Knowledge-augmented Language- Image Training and Evaluation) は、外部知識を活用して伝達可能な視覚システムを構築する戦略である。
トレーニングでは、WordNetとWiktionaryの知識で自然言語のエンティティを豊かにする。
評価において、自然言語は外部知識で拡張され、学習された視覚概念を参照するために使用される。
論文 参考訳(メタデータ) (2022-04-20T04:47:01Z) - Learning Semantics-enriched Representation via Self-discovery,
Self-classification, and Self-restoration [12.609383051645887]
医用画像下の解剖学の自己発見、自己分類、自己復元により、セマンティックに富んだ視覚表現を学ぶために、深層モデルを訓練する。
セマンティック・ジェネシス(Semantic Genesis)は、6つの異なる目標タスクにおいて、自己監督または完全な監督によって、一般に利用可能なすべての事前訓練されたモデルで検証する。
実験の結果,セマンティック・ジェネシスは2次元画像ネットワークを用いたデファクト・トランスファー・ラーニングと同様に,その3次元の全てをはるかに上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T10:36:10Z) - Learning Representations by Predicting Bags of Visual Words [55.332200948110895]
自己教師付き表現学習ターゲットは、ラベルなしデータから畳み込みに基づく画像表現を学習する。
この分野におけるNLP手法の成功に触発された本研究では,空間的に高密度な画像記述に基づく自己教師型アプローチを提案する。
論文 参考訳(メタデータ) (2020-02-27T16:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。