論文の概要: Masked strategies for images with small objects
- arxiv url: http://arxiv.org/abs/2504.17935v1
- Date: Thu, 24 Apr 2025 20:52:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.575464
- Title: Masked strategies for images with small objects
- Title(参考訳): 小さい物体を持つ画像に対するマスケード戦略
- Authors: H. Martin Gillis, Ming Hill, Paul Hollensen, Alan Fine, Thomas Trappenberg,
- Abstract要約: 小さな血液成分の検出と分類に使用される血液学分析は重要な課題である。
事前訓練した重み付き教師付きモデルを用いたディープラーニングアプローチは多くのアプリケーションで成功している。
しかし、学習した表現領域外の画像に適用すると、これらの手法は許容できる性能よりも低い結果になることが多い。
- 参考スコア(独自算出の注目度): 1.0485739694839669
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The hematology analytics used for detection and classification of small blood components is a significant challenge. In particular, when objects exists as small pixel-sized entities in a large context of similar objects. Deep learning approaches using supervised models with pre-trained weights, such as residual networks and vision transformers have demonstrated success for many applications. Unfortunately, when applied to images outside the domain of learned representations, these methods often result with less than acceptable performance. A strategy to overcome this can be achieved by using self-supervised models, where representations are learned and weights are then applied for downstream applications. Recently, masked autoencoders have proven to be effective to obtain representations that captures global context information. By masking regions of an image and having the model learn to reconstruct both the masked and non-masked regions, weights can be used for various applications. However, if the sizes of the objects in images are less than the size of the mask, the global context information is lost, making it almost impossible to reconstruct the image. In this study, we investigated the effect of mask ratios and patch sizes for blood components using a MAE to obtain learned ViT encoder representations. We then applied the encoder weights to train a U-Net Transformer for semantic segmentation to obtain both local and global contextual information. Our experimental results demonstrates that both smaller mask ratios and patch sizes improve the reconstruction of images using a MAE. We also show the results of semantic segmentation with and without pre-trained weights, where smaller-sized blood components benefited with pre-training. Overall, our proposed method offers an efficient and effective strategy for the segmentation and classification of small objects.
- Abstract(参考訳): 小さな血液成分の検出と分類に使用される血液学分析は重要な課題である。
特に、オブジェクトが小さなピクセルサイズのエンティティとして、類似したオブジェクトの大きなコンテキストに存在する場合。
残差ネットワークや視覚変換器など、事前訓練した重み付き教師付きモデルを用いたディープラーニングアプローチは、多くのアプリケーションで成功している。
残念なことに、学習した表現領域外の画像に適用すると、これらの手法は許容範囲未満のパフォーマンスをもたらすことが多い。
これを克服するための戦略は、表現を学習し、重みを下流のアプリケーションに適用する自己教師付きモデルを使用することで達成できる。
近年、マスク付きオートエンコーダは、グローバルな文脈情報をキャプチャする表現を得るのに有効であることが証明されている。
画像の領域をマスキングし、マスクされた領域と非マスクされた領域の両方を再構築することを学ぶことで、様々な用途に重みを使用できる。
しかし、画像中のオブジェクトのサイズがマスクのサイズより小さい場合、グローバルコンテキスト情報は失われ、画像の再構成はほぼ不可能である。
本研究では,MAEを用いた血液成分に対するマスク比とパッチサイズの影響を検討した。
次に、エンコーダ重みを適用し、意味的セグメンテーションのためのU-Net Transformerを訓練し、局所的およびグローバルな文脈情報を取得する。
実験の結果,マスク率とパッチサイズの両方がMAEを用いて画像の再構成を改善することがわかった。
また,より小型の血液成分を前訓練で有意な有意な有意差で有意なセグメンテーションを行ったところ,有意差は認められなかった。
提案手法は,小物体の分割と分類を効果的かつ効果的に行う方法である。
関連論文リスト
- From Pixels to Components: Eigenvector Masking for Visual Representation Learning [55.567395509598065]
画像の可視部分からマスクを予測することは、視覚表現学習のための強力な自己教師型アプローチである。
本稿では,生のピクセルではなく,適切なデータ変換を行うマスキング戦略を提案する。
論文 参考訳(メタデータ) (2025-02-10T10:06:46Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - CtxMIM: Context-Enhanced Masked Image Modeling for Remote Sensing Image Understanding [38.53988682814626]
リモートセンシング画像理解のためのコンテキスト強化マスク画像モデリング手法(CtxMIM)を提案する。
CtxMIMは、オリジナルのイメージパッチを再構成テンプレートとして定式化し、2セットのイメージパッチを操作するために、Siameseフレームワークを使用している。
シンプルでエレガントな設計により、CtxMIMは、大規模データセットでオブジェクトレベルまたはピクセルレベルの機能を学ぶための事前トレーニングモデルを奨励する。
論文 参考訳(メタデータ) (2023-09-28T18:04:43Z) - Disruptive Autoencoders: Leveraging Low-level features for 3D Medical
Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。
ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。
提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-31T17:59:42Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Interpretable Small Training Set Image Segmentation Network Originated
from Multi-Grid Variational Model [5.283735137946097]
深層学習法 (DL) が提案され, 画像分割に広く利用されている。
DLメソッドは通常、トレーニングデータとして大量の手動セグメントデータを必要とし、解釈性に乏しい。
本稿では,MSモデルにおける手作り正則項をデータ適応型一般化可学習正則項に置き換える。
論文 参考訳(メタデータ) (2023-06-25T02:34:34Z) - De-coupling and De-positioning Dense Self-supervised Learning [65.56679416475943]
Dense Self-Supervised Learning (SSL)メソッドは、複数のオブジェクトでイメージを処理する際に、画像レベルの特徴表現を使用する際の制限に対処する。
本研究は, 層深度やゼロパディングに伴う受容野の増大によって生じる, 結合と位置バイアスに悩まされていることを示す。
我々はCOCOにおける本手法の利点と、オブジェクト分類、セマンティックセグメンテーション、オブジェクト検出のための新しい挑戦的ベンチマークであるOpenImage-MINIについて示す。
論文 参考訳(メタデータ) (2023-03-29T18:07:25Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - Object-wise Masked Autoencoders for Fast Pre-training [13.757095663704858]
現在のマスク付き画像符号化モデルは、単一のオブジェクト表現ではなく、シーン全体のすべてのオブジェクト間の基盤となる関係を学習することを示す。
興味のある領域マスクを用いて選択的な再構成を行うことで、オブジェクトの表現を学習するための非オブジェクトパッチをドロップする、新しいオブジェクト選択と分割戦略を導入する。
4つの一般的なデータセットの実験は、競争性能を達成しつつ計算コストを72%削減する上で、我々のモデルの有効性を実証している。
論文 参考訳(メタデータ) (2022-05-28T05:13:45Z) - Meta Corrupted Pixels Mining for Medical Image Segmentation [30.140008860735062]
医用画像のセグメンテーションでは、正確なピクセルレベルのアノテーションを取得するのは非常に困難で費用がかかる。
本稿では,メタマスクネットワークに基づく新しいMeta Corrupted Pixels Mining (MCPM)法を提案する。
本手法は,分割ネットワーク学習における各画素の重要性を評価するために,重み付けマップを自動的に推定することを目的としている。
論文 参考訳(メタデータ) (2020-07-07T15:12:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。