論文の概要: MARMOT: Masked Autoencoder for Modeling Transient Imaging
- arxiv url: http://arxiv.org/abs/2506.08470v1
- Date: Tue, 10 Jun 2025 05:49:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:41.573103
- Title: MARMOT: Masked Autoencoder for Modeling Transient Imaging
- Title(参考訳): MARMOT:過渡イメージングのモデリングのためのマスク付きオートエンコーダ
- Authors: Siyuan Shen, Ziheng Wang, Xingyue Peng, Suan Xia, Ruiqian Li, Shiying Li, Jingyi Yu,
- Abstract要約: 我々は、非視線(NLOS)アプリケーションを容易にするために、過渡イメージング(MARMOT)をモデル化するためのマスク付きオートエンコーダを提案する。
私たちのMARMOTは、大規模で多様なNLOSトランジェントデータセットを前提とした自己教師型モデルです。
- 参考スコア(独自算出の注目度): 30.865812827455326
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Pretrained models have demonstrated impressive success in many modalities such as language and vision. Recent works facilitate the pretraining paradigm in imaging research. Transients are a novel modality, which are captured for an object as photon counts versus arrival times using a precisely time-resolved sensor. In particular for non-line-of-sight (NLOS) scenarios, transients of hidden objects are measured beyond the sensor's direct line of sight. Using NLOS transients, the majority of previous works optimize volume density or surfaces to reconstruct the hidden objects and do not transfer priors learned from datasets. In this work, we present a masked autoencoder for modeling transient imaging, or MARMOT, to facilitate NLOS applications. Our MARMOT is a self-supervised model pretrianed on massive and diverse NLOS transient datasets. Using a Transformer-based encoder-decoder, MARMOT learns features from partially masked transients via a scanning pattern mask (SPM), where the unmasked subset is functionally equivalent to arbitrary sampling, and predicts full measurements. Pretrained on TransVerse-a synthesized transient dataset of 500K 3D models-MARMOT adapts to downstream imaging tasks using direct feature transfer or decoder finetuning. Comprehensive experiments are carried out in comparisons with state-of-the-art methods. Quantitative and qualitative results demonstrate the efficiency of our MARMOT.
- Abstract(参考訳): 事前訓練されたモデルは言語や視覚など多くのモダリティにおいて顕著な成功を収めている。
近年の研究は、画像研究における事前訓練のパラダイムを促進する。
トランジェント(Transients)は、光子数と到着時間とを正確に時間分解されたセンサーで捉えた、新しいモダリティである。
特に非視線(NLOS)のシナリオでは、隠れた物体の過渡度はセンサーの視線を超えて測定される。
NLOSトランジェントを使用して、以前の研究の大部分は、ボリューム密度や表面を最適化して、隠れたオブジェクトを再構築し、データセットから学んだ事前を転送しない。
本研究では,NLOSの応用を促進するために,過渡イメージング(MARMOT)をモデル化するためのマスク付きオートエンコーダを提案する。
私たちのMARMOTは、大規模で多様なNLOSトランジェントデータセットを前提とした自己教師型モデルです。
トランスフォーマーベースのエンコーダデコーダを用いて、MARMOTはスキャンパターンマスク(SPM)を介して部分的にマスクされたトランジェントから特徴を学習する。
TransVerse-500Kの3DモデルのトランジェントデータセットをトレーニングしたMARMOTは、直接特徴伝達やデコーダの微調整を使用して下流の撮像タスクに適応する。
総合的な実験は最先端の手法と比較して行った。
MARMOTの有効性を示す定量的および定性的な結果を得た。
関連論文リスト
- MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining [73.81862342673894]
ファンデーションモデルは、様々な画像解釈タスクを強化することで、リモートセンシング(RS)のランドスケープを再構築した。
事前訓練されたモデルを下流のタスクに転送することは、イメージ分類やオブジェクト識別タスクとして事前訓練の定式化によるタスクの相違に遭遇する可能性がある。
SAMRSデータセット上で、セマンティックセグメンテーション、インスタンスセグメンテーション、回転オブジェクト検出を含むマルチタスクによる事前トレーニングを行う。
我々のモデルは、シーン分類、水平・回転物体検出、セマンティックセグメンテーション、変化検出など、様々なRS下流タスクに基づいて微調整される。
論文 参考訳(メタデータ) (2024-03-20T09:17:22Z) - Rethinking Transformers Pre-training for Multi-Spectral Satellite
Imagery [78.43828998065071]
教師なし学習の最近の進歩は、下流タスクにおける有望な結果を達成するための大きな視覚モデルの可能性を示している。
このような事前学習技術は、大量の未学習データが利用可能であることから、リモートセンシング領域でも最近研究されている。
本稿では,マルチモーダルで効果的に活用されるマルチスケール情報の事前学習と活用について述べる。
論文 参考訳(メタデータ) (2024-03-08T16:18:04Z) - Morphing Tokens Draw Strong Masked Image Models [28.356863521946607]
Masked Image Modeling (MIM) は、視覚変換器(ViT)の事前訓練のための有望なアプローチとして登場した。
動的トークンモルフィング(DTM)は,コンテキストを保存しながら動的にトークンを集約し,コンテキスト化されたターゲットを生成する手法である。
DTMはさまざまなSSLフレームワークと互換性があります。
論文 参考訳(メタデータ) (2023-12-30T14:53:09Z) - ParGANDA: Making Synthetic Pedestrians A Reality For Object Detection [2.7648976108201815]
本稿では,GAN(Generative Adversarial Network)を用いて,実データと合成データのギャップを埋めることを提案する。
我々のアプローチは、視覚的に可視なサンプルを生成するだけでなく、実際のドメインのラベルも必要としない。
論文 参考訳(メタデータ) (2023-07-21T05:26:32Z) - Multitask AET with Orthogonal Tangent Regularity for Dark Object
Detection [84.52197307286681]
暗黒環境下でのオブジェクト検出を強化するために,新しいマルチタスク自動符号化変換(MAET)モデルを提案する。
自己超越的な方法で、MAETは、現実的な照明劣化変換を符号化して復号することで、本質的な視覚構造を学習する。
我々は,合成および実世界のデータセットを用いて最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2022-05-06T16:27:14Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - TransMOT: Spatial-Temporal Graph Transformer for Multiple Object
Tracking [74.82415271960315]
映像内の物体間の空間的・時間的相互作用を効率的にモデル化するソリューションであるTransMOTを提案する。
TransMOTは従来のTransformerよりも計算効率が高いだけでなく、トラッキング精度も向上している。
提案手法は、MOT15、MOT16、MOT17、MOT20を含む複数のベンチマークデータセット上で評価される。
論文 参考訳(メタデータ) (2021-04-01T01:49:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。