論文の概要: Particle Trajectory Representation Learning with Masked Point Modeling
- arxiv url: http://arxiv.org/abs/2502.02558v3
- Date: Sun, 06 Jul 2025 03:13:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.213037
- Title: Particle Trajectory Representation Learning with Masked Point Modeling
- Title(参考訳): マスケプポイントモデリングによる粒子軌道表現学習
- Authors: Sam Young, Yeon-jae Jwa, Kazuhiro Terao,
- Abstract要約: 液体アルゴン時間射影チャンバー(LArTPC)は基礎物理学のための高解像度3Dイメージングを提供する。
本稿では,LARTPC画像にマスク付きポイントモデリングを適用した,ポイントベースLiquid Argon Masked Autoencoder (PoLAr-MAE)を提案する。
このSSLアプローチは,データから直接物理的に意味のある軌道表現を学習する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective self-supervised learning (SSL) techniques have been key to unlocking large datasets for representation learning. While many promising methods have been developed using online corpora and captioned photographs, their application to scientific domains, where data encodes highly specialized knowledge, remains a challenge. Liquid Argon Time Projection Chambers (LArTPCs) provide high-resolution 3D imaging for fundamental physics, but analysis of their sparse, complex point cloud data often relies on supervised methods trained on large simulations, introducing potential biases. We introduce the Point-based Liquid Argon Masked Autoencoder (PoLAr-MAE), applying masked point modeling to unlabeled LArTPC images using domain-specific volumetric tokenization and energy prediction. We show this SSL approach learns physically meaningful trajectory representations directly from data. This yields remarkable data efficiency: fine-tuning on just 100 labeled events achieves track/shower semantic segmentation performance comparable to the state-of-the-art supervised baseline trained on $>$100,000 events. Furthermore, internal attention maps exhibit emergent instance segmentation of particle trajectories. While challenges remain, particularly for fine-grained features, we make concrete SSL's potential for building a foundation model for LArTPC image analysis capable of serving as a common base for all data reconstruction tasks. To facilitate further progress, we release PILArNet-M, a large dataset of 1M LArTPC events. Project site: https://youngsm.com/polarmae.
- Abstract(参考訳): 効率的な自己教師付き学習(SSL)技術は、表現学習のために大規模なデータセットをアンロックする鍵となった。
オンラインコーパスとキャプション付き写真を用いて多くの有望な手法が開発されているが、データに高度に専門知識をエンコードする科学分野への応用は依然として課題である。
液体アルゴン時間射影チャンバー(LArTPC)は、基本的な物理学のために高解像度の3Dイメージングを提供するが、その疎い複雑な点雲データの解析は、しばしば大きなシミュレーションで訓練された教師付き手法に依存し、潜在的なバイアスをもたらす。
我々は、ドメイン固有のボリュームトークン化とエネルギー予測を用いて、未ラベルのLArTPC画像にマスク付きポイントモデリングを適用する、ポイントベースLiquid Argon Masked Autoencoder (PoLAr-MAE)を紹介した。
このSSLアプローチは,データから直接物理的に意味のある軌道表現を学習する。
100以上のラベル付きイベントの微調整は、100,000ドルのイベントでトレーニングされた最先端の教師付きベースラインに匹敵するトラック/ショワーセマンティックセグメンテーションのパフォーマンスを達成する。
さらに、内部の注意マップは、粒子軌道の創発的なインスタンスセグメンテーションを示す。
特に細かな機能では課題が残るが、すべてのデータ再構成タスクの共通基盤として機能するLArTPC画像解析の基礎モデルを構築する上で、SSLの具体的な可能性を秘めている。
1M LArTPCイベントの大規模なデータセットであるPILArNet-Mをリリースする。
プロジェクトサイト: https://youngsm.com/polarmae.com
関連論文リスト
- PDM-SSD: Single-Stage Three-Dimensional Object Detector With Point Dilation [7.113034810057012]
現在のポイントベースの検出器は、提供されたポイントからしか学べない。
単段3次元検出のための新しい点拡散機構(PDM-SSD)を提案する。
PDM-SSDは,68フレームの推論速度を持つ単一モード法において,マルチクラス検出の最先端性を実現する。
論文 参考訳(メタデータ) (2025-02-10T12:41:13Z) - Unsupervised Machine Learning for Detecting and Locating Human-Made Objects in 3D Point Cloud [4.325161601374467]
本研究は,自然木構造中の人工物の検出と同定という,新しい課題を紹介する。
提案手法は, 地中フィルタリング, 局所情報抽出, クラスタリングの3段階からなる。
実験により,提案手法は従来の手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-10-25T23:20:57Z) - Parameter-Efficient Fine-Tuning in Spectral Domain for Point Cloud Learning [49.91297276176978]
私たちは小説を提案します。
ポイントGST (Point GST) と呼ばれる点雲の効率的な微細調整法。
ポイントGSTは事前トレーニングされたモデルを凍結し、スペクトル領域のパラメータを微調整するためのトレーニング可能なポイントクラウドスペクトルアダプタ(PCSA)を導入する。
挑戦的なポイントクラウドデータセットに関する大規模な実験は、ポイントGSTが完全に微調整されたデータセットを上回るだけでなく、トレーニング可能なパラメータを大幅に削減することを示した。
論文 参考訳(メタデータ) (2024-10-10T17:00:04Z) - PROMPT-IML: Image Manipulation Localization with Pre-trained Foundation
Models Through Prompt Tuning [35.39822183728463]
本稿では,改ざん画像を検出するための新しいPrompt-IMLフレームワークを提案する。
人間は、意味情報と高周波情報に基づいて、画像の真偽を識別する傾向がある。
我々のモデルは8つの典型的なフェイク画像データセットでより良い性能を得ることができる。
論文 参考訳(メタデータ) (2024-01-01T03:45:07Z) - Lidar Annotation Is All You Need [0.0]
本稿では,畳み込みニューラルネットワークを用いたマルチセンサ構成による画像分割の効率向上を目的とする。
当社のアプローチにおける重要な革新は、点雲からの粗い接地トラスマスクに対処する、マスク付き損失である。
ベンチマークデータセットに対するアプローチの実験的検証は、高品質の画像セグメンテーションモデルに匹敵する性能を示す。
論文 参考訳(メタデータ) (2023-11-08T15:55:18Z) - In-Domain Self-Supervised Learning Improves Remote Sensing Image Scene
Classification [5.323049242720532]
リモートセンシング画像分類のための有望なアプローチとして,自己教師付き学習が登場している。
そこで本研究では,14の下流データセットにまたがる自己教師型事前学習戦略について検討し,その効果を評価する。
論文 参考訳(メタデータ) (2023-07-04T10:57:52Z) - Delving Deeper into Data Scaling in Masked Image Modeling [145.36501330782357]
視覚認識のためのマスク付き画像モデリング(MIM)手法のスケーリング能力に関する実証的研究を行った。
具体的には、Webで収集したCoyo-700Mデータセットを利用する。
我々のゴールは、データとモデルのサイズの異なるスケールでダウンストリームタスクのパフォーマンスがどのように変化するかを調べることです。
論文 参考訳(メタデータ) (2023-05-24T15:33:46Z) - CSP: Self-Supervised Contrastive Spatial Pre-Training for
Geospatial-Visual Representations [90.50864830038202]
ジオタグ付き画像の自己教師型学習フレームワークであるContrastive Spatial Pre-Training(CSP)を提案する。
デュアルエンコーダを用いて画像とその対応する位置情報を別々に符号化し、コントラスト目的を用いて画像から効果的な位置表現を学習する。
CSPは、様々なラベル付きトレーニングデータサンプリング比と10~34%の相対的な改善で、モデル性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-05-01T23:11:18Z) - MAELi: Masked Autoencoder for Large-Scale LiDAR Point Clouds [13.426810473131642]
Masked AutoEncoder for LiDAR Point clouds (MAELi) は、復元中にエンコーダとデコーダの両方でLiDARポイントクラウドの空間性を直感的に活用する。
新たな再構築アプローチでは、MAELiは空空間と隠された空間を区別する。
これにより、MAELiは基礎となる3次元シーンの幾何学と意味論の理解を得る。
論文 参考訳(メタデータ) (2022-12-14T13:10:27Z) - LESS: Label-Efficient Semantic Segmentation for LiDAR Point Clouds [62.49198183539889]
我々は,LiDAR点雲を用いた屋外シーンのためのラベル効率のよいセマンティックセマンティックセマンティクスパイプラインを提案する。
本手法は,半弱教師付き学習を用いて,効率的なラベリング手法を設計する。
提案手法は,100%ラベル付き完全教師付き手法と比較して,さらに競争力が高い。
論文 参考訳(メタデータ) (2022-10-14T19:13:36Z) - Efficient entity-based reinforcement learning [3.867363075280544]
本稿では,集合表現の最近の進歩とスロットアテンションとグラフニューラルネットワークを組み合わせて構造化データを処理することを提案する。
トレーニング時間とロバスト性を大幅に改善できることを示し、構造化されたドメインと純粋に視覚的なドメインを扱う可能性を示す。
論文 参考訳(メタデータ) (2022-06-06T19:02:39Z) - CHALLENGER: Training with Attribution Maps [63.736435657236505]
ニューラルネットワークのトレーニングに属性マップを利用すると、モデルの正規化が向上し、性能が向上することを示す。
特に、我々の汎用的なドメインに依存しないアプローチは、ビジョン、自然言語処理、時系列タスクにおける最先端の結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-05-30T13:34:46Z) - Point-M2AE: Multi-scale Masked Autoencoders for Hierarchical Point Cloud
Pre-training [56.81809311892475]
Masked Autoencoders (MAE) は、言語と2次元画像変換器の自己教師付き事前学習において大きな可能性を示している。
我々は3次元点雲の階層的自己教師型学習のための強力なマルチスケールMAE事前学習フレームワークであるPoint-M2AEを提案する。
論文 参考訳(メタデータ) (2022-05-28T11:22:53Z) - Open-Set Semi-Supervised Learning for 3D Point Cloud Understanding [62.17020485045456]
半教師付き学習(SSL)では、ラベル付きデータと同じ分布からラベル付きデータが引き出されることが一般的である。
サンプル重み付けによりラベルなしデータを選択的に活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T16:09:17Z) - Multiscale Convolutional Transformer with Center Mask Pretraining for
Hyperspectral Image Classificationtion [14.33259265286265]
本稿では,空間スペクトル情報の効率的な抽出を実現するために,高スペクトル画像(HSI)のための高速多スケール畳み込みモジュールを提案する。
マスクオートエンコーダと同様に、我々の事前学習法は、エンコーダ内の中央画素の対応するトークンのみをマスクし、残りのトークンをデコーダに入力し、中央画素のスペクトル情報を再構成する。
論文 参考訳(メタデータ) (2022-03-09T14:42:26Z) - Learning Semantic Segmentation of Large-Scale Point Clouds with Random
Sampling [52.464516118826765]
我々はRandLA-Netを紹介した。RandLA-Netは、大規模ポイントクラウドのポイントごとの意味を推論する、効率的で軽量なニューラルネットワークアーキテクチャである。
我々のアプローチの鍵は、より複雑な点選択アプローチではなく、ランダムな点サンプリングを使用することである。
我々のRandLA-Netは、既存のアプローチよりも最大200倍高速な1回のパスで100万ポイントを処理できます。
論文 参考訳(メタデータ) (2021-07-06T05:08:34Z) - MST: Masked Self-Supervised Transformer for Visual Representation [52.099722121603506]
Transformerは自然言語処理(NLP)における自己教師型事前学習に広く利用されている。
我々は、画像の局所的コンテキストを明示的にキャプチャできる、MSTと呼ばれる新しいMasked Self-supervised Transformerアプローチを提案する。
MSTは、線形評価による300エポック事前トレーニングのみを使用して、DeiT-Sで76.9%のTop-1精度を達成する。
論文 参考訳(メタデータ) (2021-06-10T11:05:18Z) - Few-Cost Salient Object Detection with Adversarial-Paced Learning [95.0220555274653]
本稿では,少数のトレーニング画像にのみ手動アノテーションを応用して,効果的なサルエント物体検出モデルを学習することを提案する。
我々は,このタスクを,少額の有能な物体検出とみなし,少数のコストの学習シナリオを促進するために,APL(Adversarialpaced Learning)ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-05T14:15:49Z) - Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection
Consistency [114.02182755620784]
本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。
筆者らのフレームワークは,最先端の深度・動き推定法より優れていた。
論文 参考訳(メタデータ) (2021-02-04T14:26:42Z) - PGL: Prior-Guided Local Self-supervised Learning for 3D Medical Image
Segmentation [87.50205728818601]
本稿では,潜在特徴空間における局所的一貫性を学習するPGL(PresideedGuided Local)自己教師モデルを提案する。
我々のPGLモデルは、局所領域の特異な表現を学習し、したがって構造情報を保持できる。
論文 参考訳(メタデータ) (2020-11-25T11:03:11Z) - A Nearest Neighbor Network to Extract Digital Terrain Models from 3D
Point Clouds [1.6249267147413524]
本稿では,3Dポイントのクラウド上で動作し,エンド・ツー・エンドのアプローチを用いてシーンの基盤となるDTMを推定するアルゴリズムを提案する。
我々のモデルは近隣情報を学習し、これをポイントワイドでブロックワイドなグローバルな特徴とシームレスに統合する。
論文 参考訳(メタデータ) (2020-05-21T15:54:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。