論文の概要: Multi-Modal Masked Autoencoders for Learning Image-Spectrum Associations for Galaxy Evolution and Cosmology
- arxiv url: http://arxiv.org/abs/2510.22527v1
- Date: Sun, 26 Oct 2025 04:29:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.232345
- Title: Multi-Modal Masked Autoencoders for Learning Image-Spectrum Associations for Galaxy Evolution and Cosmology
- Title(参考訳): 銀河進化と宇宙論のための画像スペクトルアソシエーション学習のためのマルチモーダルマスクオートエンコーダ
- Authors: Morgan Himes, Samiksha Krishnamurthy, Andrew Lizarraga, Srinath Saikrishnan, Vikram Seenivasan, Jonathan Soriano, Ying Nian Wu, Tuan Do,
- Abstract要約: 我々は134,533個の銀河画像(HSC-PDR2)とスペクトル(DESI-DR1)のデータセットを構築した。
マルチモーダルマスク付きオートエンコーダを用いて、画像とスペクトルの両方を共有表現に埋め込む。
このモデルを用いて、重くマスキングされたデータからのスペクトルと画像再構成と、画像のみからの赤方偏移の3つのアプリケーションをテストする。
- 参考スコア(独自算出の注目度): 29.09392720573202
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Upcoming surveys will produce billions of galaxy images but comparatively few spectra, motivating models that learn cross-modal representations. We build a dataset of 134,533 galaxy images (HSC-PDR2) and spectra (DESI-DR1) and adapt a Multi-Modal Masked Autoencoder (MMAE) to embed both images and spectra in a shared representation. The MMAE is a transformer-based architecture, which we train by masking 75% of the data and reconstructing missing image and spectral tokens. We use this model to test three applications: spectral and image reconstruction from heavily masked data and redshift regression from images alone. It recovers key physical features, such as galaxy shapes, atomic emission line peaks, and broad continuum slopes, though it struggles with fine image details and line strengths. For redshift regression, the MMAE performs comparably or better than prior multi-modal models in terms of prediction scatter even when missing spectra in testing. These results highlight both the potential and limitations of masked autoencoders in astrophysics and motivate extensions to additional modalities, such as text, for foundation models.
- Abstract(参考訳): 今後の調査では、数十億もの銀河の画像が生成されるが、比較的少数のスペクトルが生成され、クロスモーダル表現を学習するモデルがモチベーションとなる。
我々は、134,533個の銀河画像(HSC-PDR2)とスペクトル(DESI-DR1)のデータセットを構築し、マルチモーダルマスク付きオートエンコーダ(MMAE)を適用し、画像とスペクトルの両方を共有表現に埋め込む。
MMAEはトランスフォーマーベースのアーキテクチャで、データの75%を隠蔽し、欠落した画像やスペクトルトークンを再構築することでトレーニングします。
このモデルを用いて、重くマスキングされたデータからのスペクトルと画像再構成と、画像のみからの赤方偏移の3つのアプリケーションをテストする。
銀河の形状、原子放出線ピーク、幅広い連続体斜面などの重要な物理的特徴を回復するが、微細な画像の詳細や線強度に苦しむ。
レッドシフト回帰では、MMAEは、テストでスペクトルが欠如している場合でも、予測散乱の観点から、以前のマルチモーダルモデルよりも可逆的または良好に機能する。
これらの結果は、天体物理学におけるマスク付きオートエンコーダの可能性と限界の両方を強調し、基礎モデルのためのテキストのような追加のモダリティへの拡張を動機付けている。
関連論文リスト
- SpectralAR: Spectral Autoregressive Visual Generation [74.48368364895387]
本稿では、スペクトルの観点から視覚系列の因果性を実現するためのスペクトル自己回帰視覚生成フレームワークを提案する。
我々のSpectralARは、画像のさまざまな詳細レベルを考慮し、配列因果性とトークン効率の両方をベルとホイッスルなしで達成します。
論文 参考訳(メタデータ) (2025-06-12T17:57:44Z) - HyperspectralMAE: The Hyperspectral Imagery Classification Model using Fourier-Encoded Dual-Branch Masked Autoencoder [0.04332259966721321]
ハイパースペクトル画像は、豊富なスペクトルの詳細を提供するが、空間領域とスペクトル領域の両方において、その高次元性のためにユニークな課題を提起する。
テキストマスキング戦略を用いたハイパースペクトルデータのためのトランスフォーマーベースモデルであるtextitHyperspectralMAE を提案する。
ハイパースペクトルMAEは、二重次元事前学習が頑健なスペクトル空間表現をもたらすことを確認し、インドパインズの最先端の伝達学習精度を達成する。
論文 参考訳(メタデータ) (2025-05-09T01:16:42Z) - SpectralGPT: Spectral Remote Sensing Foundation Model [60.023956954916414]
SpectralGPTという名前のユニバーサルRS基盤モデルは、新しい3D生成事前学習変換器(GPT)を用いてスペクトルRS画像を処理するために構築されている。
既存の基礎モデルと比較して、SpectralGPTは、様々なサイズ、解像度、時系列、領域をプログレッシブトレーニング形式で対応し、広範なRSビッグデータのフル活用を可能にする。
我々の評価では、事前訓練されたスペクトルGPTモデルによる顕著な性能向上が強調され、地球科学分野におけるスペクトルRSビッグデータ応用の進展に有意な可能性を示唆している。
論文 参考訳(メタデータ) (2023-11-13T07:09:30Z) - SSG2: A new modelling paradigm for semantic segmentation [0.0]
セグメンテーションにおける最先端モデルは、単一の静的イメージで動作し、対応するセグメンテーションマスクを生成する。
セマンティック・チェンジ検出の研究から着想を得て,各静的な入力画像に対して生成した可観測物のシーケンスを活用する手法を提案する。
この「時間的」次元を追加することで、シーケンス内の連続した観測間の強い信号相関を利用してエラー率を減少させる。
オーストラリア・ダーウィンのUrbanMonitorは5つのスペクトルバンドと0.2mの空間解像度を持つ正像タイルを特徴とし、ISPRS Potsdamは複数のスペクトルバンドと5cmの地中サンプリングを含む真の正像画像を含む。
論文 参考訳(メタデータ) (2023-10-12T19:08:03Z) - AstroCLIP: A Cross-Modal Foundation Model for Galaxies [40.43521617393482]
AstroCLIPは、銀河の画像とスペクトルを個別に埋め込むため、トランスフォーマーベースの画像とスペクトルエンコーダを自己監督設定で事前訓練する。
教師付きベースラインと比較しても、下流のタスクで顕著なパフォーマンスが得られます。
提案手法は、銀河の画像とスペクトルの自己教師型変換器に基づく最初のアーキテクチャである。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - Not All Image Regions Matter: Masked Vector Quantization for
Autoregressive Image Generation [78.13793505707952]
既存の自己回帰モデルは、まず画像再構成のための潜伏空間のコードブックを学習し、学習したコードブックに基づいて自己回帰的に画像生成を完了する2段階生成パラダイムに従っている。
そこで本研究では,Masked Quantization VAE (MQ-VAE) Stackモデルを用いた2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T02:15:53Z) - Stare at What You See: Masked Image Modeling without Reconstruction [154.74533119863864]
Masked Autoencoders (MAE) は、大規模な視覚表現事前学習のパラダイムとして広く普及している。
近年の手法では, 画像特徴を再構成対象として抽出するために, セマンティック・リッチな教師モデルが適用されており, 性能が向上している。
強力な教師モデルによって抽出された特徴は、画像中の領域間のリッチなセマンティックな相関を既にエンコードしていると論じる。
論文 参考訳(メタデータ) (2022-11-16T12:48:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。