論文の概要: Masked Autoencoder Pretraining on Strong-Lensing Images for Joint Dark-Matter Model Classification and Super-Resolution
- arxiv url: http://arxiv.org/abs/2512.06642v1
- Date: Sun, 07 Dec 2025 03:25:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.444402
- Title: Masked Autoencoder Pretraining on Strong-Lensing Images for Joint Dark-Matter Model Classification and Super-Resolution
- Title(参考訳): 強線画像を用いたマスク付きオートエンコーダによる複合暗黒物質モデル分類と超解像
- Authors: Achmad Ardani Prasha, Clavino Ourizqi Rachmadi, Muhamad Fauzan Ibnu Syahlan, Naufal Rahfi Anugerah, Nanda Garin Raditya, Putri Amelia, Sabrina Laila Mutiara, Hilman Syachr Ramadhan,
- Abstract要約: DeepLense ML4SCIベンチマークによる高輝度画像のMasked Autoencoder(MAE)事前学習戦略
我々は、マスク画像モデリングの目的を用いてビジョントランスフォーマーエンコーダを事前訓練し、各タスクごとに個別に微調整する。
超高解像度(16x16から64x64)では、PSNR 33 dBとSSIM 0.961で画像を再構成し、スクラッチトレーニングよりもわずかに改善した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Strong gravitational lensing can reveal the influence of dark-matter substructure in galaxies, but analyzing these effects from noisy, low-resolution images poses a significant challenge. In this work, we propose a masked autoencoder (MAE) pretraining strategy on simulated strong-lensing images from the DeepLense ML4SCI benchmark to learn generalizable representations for two downstream tasks: (i) classifying the underlying dark matter model (cold dark matter, axion-like, or no substructure) and (ii) enhancing low-resolution lensed images via super-resolution. We pretrain a Vision Transformer encoder using a masked image modeling objective, then fine-tune the encoder separately for each task. Our results show that MAE pretraining, when combined with appropriate mask ratio tuning, yields a shared encoder that matches or exceeds a ViT trained from scratch. Specifically, at a 90% mask ratio, the fine-tuned classifier achieves macro AUC of 0.968 and accuracy of 88.65%, compared to the scratch baseline (AUC 0.957, accuracy 82.46%). For super-resolution (16x16 to 64x64), the MAE-pretrained model reconstructs images with PSNR ~33 dB and SSIM 0.961, modestly improving over scratch training. We ablate the MAE mask ratio, revealing a consistent trade-off: higher mask ratios improve classification but slightly degrade reconstruction fidelity. Our findings demonstrate that MAE pretraining on physics-rich simulations provides a flexible, reusable encoder for multiple strong-lensing analysis tasks.
- Abstract(参考訳): 強い重力レンズは銀河のダークマター構造の影響を明らかにすることができるが、ノイズの多い低解像度の画像からこれらの効果を分析することは大きな課題となる。
本稿では,DeepLense ML4SCIベンチマークを用いて,2つのダウンストリームタスクに対する一般化可能な表現を学習するための,強いレンズ画像のシミュレーションのためのマスク付きオートエンコーダ(MAE)事前学習手法を提案する。
一 暗黒物質モデル(コールドダークマター、アクシオン様又は非サブストラクチャ)の分類及び
(II)超解像による低解像度レンズ画像の高精細化。
我々は、マスク画像モデリングの目的を用いてビジョントランスフォーマーエンコーダを事前訓練し、各タスクごとに個別に微調整する。
以上の結果から,MAEプレトレーニングとマスク比調整を組み合わせることで,スクラッチからトレーニングしたViTと一致または超過する共有エンコーダが得られることがわかった。
具体的には、90%のマスク比で、微調整された分類器は、スクラッチベースライン(AUC 0.957、精度82.46%)と比較して、0.968のマクロAUCと88.65%の精度を達成する。
超高解像度(16x16から64x64)では、PSNR ~33dBとSSIM 0.961で画像を再構成し、スクラッチトレーニングよりもわずかに改善した。
我々はMAEマスク比を緩和し,高いマスク比で分類が向上するが,復元率をわずかに低下させるという一貫したトレードオフを明らかにした。
これらの結果から,MAEプリトレーニングを物理量の多いシミュレーションで行うことで,複数の強レンズ解析タスクに対して,柔軟で再利用可能なエンコーダが提供されることがわかった。
関連論文リスト
- Adapting LLaMA Decoder to Vision Transformer [65.47663195233802]
本研究は,LLaMAなどのデコーダのみのトランスフォーマーをコンピュータビジョン分野に適用できるかどうかを検討する。
まず、LLaMAのアーキテクチャと整合する標準的なViTを「LLaMAfy」と呼び、自己注意に因果マスクを直接適用することで、注意崩壊の問題が生じる。
我々は,訓練開始時の自己注意に因果マスクを徐々に導入し,最適化行動を容易にするソフトマスク戦略を開発する。
論文 参考訳(メタデータ) (2024-04-10T06:30:08Z) - DeepMIM: Deep Supervision for Masked Image Modeling [46.01916629713594]
深層学習の初期の画像分類において、深層管理が広く用いられた。
正規化技術と残差接続が出現すると、画像分類の深い監督は徐々に段階的に消えていった。
マスク・アンド・予測方式を用いてビジョン・トランスフォーマー(ViT)を事前訓練するマスクド・イメージ・モデリング(MIM)の深い監督について検討する。
論文 参考訳(メタデータ) (2023-03-15T17:59:55Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - Mimic before Reconstruct: Enhancing Masked Autoencoders with Feature
Mimicking [35.11620617064127]
Masked Autoencoders (MAE) は、大規模な視覚表現事前学習のパラダイムとして人気がある。
本稿では,事前学習中に干渉なく高次・低次表現を共同学習するMR-MAEを提案する。
ImageNet-1Kでは、400エポックで事前訓練されたMR-MAEベースが、微調整後の85.8%のトップ1の精度を実現している。
論文 参考訳(メタデータ) (2023-03-09T18:28:18Z) - A simple, efficient and scalable contrastive masked autoencoder for
learning visual representations [21.440853288058452]
視覚表現の自己教師型学習のための,シンプルで効率的かつスケーラブルな手法であるCANを紹介する。
我々のフレームワークは、(C)コントラスト学習、(A)マスク付きオートエンコーダ、(N)拡散モデルで使用されるノイズ予測アプローチの最小かつ概念的にクリーンな合成である。
論文 参考訳(メタデータ) (2022-10-30T16:21:22Z) - SdAE: Self-distillated Masked Autoencoder [95.3684955370897]
本稿では,自己蒸留マスク付きオートエンコーダネットワークSdAEを提案する。
300エポックの事前トレーニングで、バニラViT-BaseモデルはImageNet-1k分類において84.1%の微調整精度を達成する。
論文 参考訳(メタデータ) (2022-07-31T15:07:25Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。