論文の概要: BertsWin: Resolving Topological Sparsity in 3D Masked Autoencoders via Component-Balanced Structural Optimization
- arxiv url: http://arxiv.org/abs/2512.21769v1
- Date: Thu, 25 Dec 2025 19:32:40 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 11:56:21.037292
- Title: BertsWin: Resolving Topological Sparsity in 3D Masked Autoencoders via Component-Balanced Structural Optimization
- Title(参考訳): BertsWin: コンポーネントベース構造最適化による3次元マスケードオートエンコーダのトポロジカルスポーザリティの解消
- Authors: Evgeny Alves Limarenko, Anastasiia Studenikina,
- Abstract要約: BertsWinは、Swin Transformerウィンドウを使ったBERTスタイルのトークンマスキングを組み合わせたハイブリッドアーキテクチャである。
我々は、BertsWinが通常のViT-MAEベースラインに比べて5.8倍のセマンティック収束を本質的に加速することを示した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The application of self-supervised learning (SSL) and Vision Transformers (ViTs) approaches demonstrates promising results in the field of 2D medical imaging, but the use of these methods on 3D volumetric images is fraught with difficulties. Standard Masked Autoencoders (MAE), which are state-of-the-art solution for 2D, have a hard time capturing three-dimensional spatial relationships, especially when 75% of tokens are discarded during pre-training. We propose BertsWin, a hybrid architecture combining full BERT-style token masking using Swin Transformer windows, to enhance spatial context learning in 3D during SSL pre-training. Unlike the classic MAE, which processes only visible areas, BertsWin introduces a complete 3D grid of tokens (masked and visible), preserving the spatial topology. And to smooth out the quadratic complexity of ViT, single-level local Swin windows are used. We introduce a structural priority loss function and evaluate the results of cone beam computed tomography of the temporomandibular joints. The subsequent assessment includes TMJ segmentation on 3D CT scans. We demonstrate that the BertsWin architecture, by maintaining a complete three-dimensional spatial topology, inherently accelerates semantic convergence by a factor of 5.8x compared to standard ViT-MAE baselines. Furthermore, when coupled with our proposed GradientConductor optimizer, the full BertsWin framework achieves a 15-fold reduction in training epochs (44 vs 660) required to reach state-of-the-art reconstruction fidelity. Analysis reveals that BertsWin achieves this acceleration without the computational penalty typically associated with dense volumetric processing. At canonical input resolutions, the architecture maintains theoretical FLOP parity with sparse ViT baselines, resulting in a significant net reduction in total computational resources due to faster convergence.
- Abstract(参考訳): 自己教師付き学習(SSL)とビジョントランスフォーマー(ViTs)のアプローチの適用は、2D医療画像の分野で有望な成果を示しているが、3Dボリューム画像へのこれらの手法の使用は困難を伴っている。
標準的なMasked Autoencoders (MAE)は2Dのための最先端のソリューションであり、特に事前トレーニング中にトークンの75%が破棄された場合、三次元空間関係を捉えるのに苦労する。
本稿では,Swin Transformerウィンドウを用いたBERT方式のトークンマスキングを組み合わせたハイブリッドアーキテクチャであるBertsWinを提案する。
可視領域のみを処理する古典的なMAEとは異なり、BertsWinはトークンの完全な3Dグリッドを導入し、空間トポロジを保存する。
そして、ViTの二次的な複雑さを滑らかにするために、シングルレベルローカルSwinウィンドウが使用される。
構造優先損失関数を導入し, 顎関節のコーンビームCTの結果について検討した。
その後の評価には3次元CTスキャンでのTMJセグメンテーションが含まれる。
完全3次元空間トポロジを維持することにより,BertsWinアーキテクチャは,通常のVT-MAEベースラインに比べて5.8倍のセマンティックコンバージェンスを本質的に加速することを示した。
さらに,提案したGradientConductorオプティマイザと組み合わせることで,BertsWinフレームワークは,最先端の再構築忠実度に到達するために必要なトレーニングエポック(44対660)を15倍に削減する。
解析により、BertsWinは、高密度なボリューム処理と関連付けられた計算ペナルティなしで、この加速を達成することが明らかになった。
標準入力解像度では、このアーキテクチャは理論的なFLOPパリティを維持し、より高速な収束により全体の計算資源が大幅に減少する。
関連論文リスト
- HBSplat: Robust Sparse-View Gaussian Reconstruction with Hybrid-Loss Guided Depth and Bidirectional Warping [11.035994094874141]
HBSplatは、堅牢な構造的キュー、仮想ビュー制約、隠蔽された領域補完をシームレスに統合するフレームワークである。
HBSplatは21.13dBのPSNRと0.189LPIPSを達成し、リアルタイム推論を維持している。
論文 参考訳(メタデータ) (2025-09-29T15:03:31Z) - GSFF-SLAM: 3D Semantic Gaussian Splatting SLAM via Feature Field [17.57215792490409]
GSFF-SLAMは3次元ガウススプラッティングに基づく新しい意味論的SLAMシステムである。
提案手法は, 様々な2次元先行情報, 特にスパース信号と雑音信号を用いた意味的再構成を支援する。
2D基底真理を利用する場合、GSFF-SLAMは95.03% mIoUで最先端のセマンティックセグメンテーション性能を達成する。
論文 参考訳(メタデータ) (2025-04-28T01:21:35Z) - Advancing Dense Endoscopic Reconstruction with Gaussian Splatting-driven Surface Normal-aware Tracking and Mapping [12.027762278121052]
Endo-2DTAMは2次元ガウススプラッティング(2DGS)を用いたリアルタイム内視鏡SLAMシステムである
私たちのロバストなトラッキングモジュールは、ポイントツーポイントとポイントツープレーン距離のメトリクスを組み合わせています。
マッピングモジュールは, 通常の整合性および深さ歪みを利用して表面再構成品質を向上する。
論文 参考訳(メタデータ) (2025-01-31T17:15:34Z) - ALOcc: Adaptive Lifting-Based 3D Semantic Occupancy and Cost Volume-Based Flow Predictions [91.55655961014027]
シーン理解には3次元セマンティック占有とフロー予測が不可欠である。
本稿では,3つの改善点を目標とした視覚ベースのフレームワークを提案する。
我々の純粋な畳み込みアーキテクチャは、セマンティック占有率とジョイントセマンティックフロー予測の両方のために、複数のベンチマーク上で新しいSOTA性能を確立する。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - Simultaneous Alignment and Surface Regression Using Hybrid 2D-3D
Networks for 3D Coherent Layer Segmentation of Retinal OCT Images with Full
and Sparse Annotations [32.69359482975795]
本研究は, ハイブリッド2D-3D畳み込みニューラルネットワーク(CNN)を基盤として, OCTボリュームから連続した3次元網膜層表面を得るための新しい枠組みを提案する。
人工的データセットと3つのパブリックな臨床データセットの実験により、我々のフレームワークは、潜在的運動補正のためにBスキャンを効果的に調整できることを示した。
論文 参考訳(メタデータ) (2023-12-04T08:32:31Z) - RangeViT: Towards Vision Transformers for 3D Semantic Segmentation in
Autonomous Driving [80.14669385741202]
視覚変換器(ViT)は多くの画像ベースのベンチマークで最先端の結果を得た。
ViTはトレーニングが難しいことで知られており、強力な表現を学ぶために大量のトレーニングデータを必要とする。
提案手法はRangeViTと呼ばれ,nuScenes や Semantic KITTI において既存のプロジェクションベースの手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-24T18:50:48Z) - GLEAM: Greedy Learning for Large-Scale Accelerated MRI Reconstruction [50.248694764703714]
アンロールされたニューラルネットワークは、最近最先端の加速MRI再構成を達成した。
これらのネットワークは、物理ベースの一貫性とニューラルネットワークベースの正規化を交互に組み合わせることで、反復最適化アルゴリズムをアンロールする。
我々は,高次元画像設定のための効率的なトレーニング戦略である加速度MRI再構成のためのグレディ・ラーニングを提案する。
論文 参考訳(メタデータ) (2022-07-18T06:01:29Z) - Learning Deformable Tetrahedral Meshes for 3D Reconstruction [78.0514377738632]
学習に基づく3次元再構成に対応する3次元形状表現は、機械学習とコンピュータグラフィックスにおいてオープンな問題である。
ニューラル3D再構成に関するこれまでの研究は、利点だけでなく、ポイントクラウド、ボクセル、サーフェスメッシュ、暗黙の関数表現といった制限も示していた。
Deformable Tetrahedral Meshes (DefTet) を, ボリューム四面体メッシュを再構成問題に用いるパラメータ化として導入する。
論文 参考訳(メタデータ) (2020-11-03T02:57:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。