論文の概要: Rep3D: Re-parameterize Large 3D Kernels with Low-Rank Receptive Modeling for Medical Imaging
- arxiv url: http://arxiv.org/abs/2505.19603v1
- Date: Mon, 26 May 2025 07:12:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.236048
- Title: Rep3D: Re-parameterize Large 3D Kernels with Low-Rank Receptive Modeling for Medical Imaging
- Title(参考訳): Rep3D:医療画像のための低レベル受容モデルによる大規模3次元カーネルの再パラメータ化
- Authors: Ho Hin Lee, Quan Liu, Shunxing Bao, Yuankai Huo, Bennett A. Landman,
- Abstract要約: Rep3Dは、学習可能な空間ボリュームを大規模なカーネルトレーニングに組み込む3D畳み込みフレームワークである。
Rep3Dは、3D画像解析のための解釈可能でスケーラブルなソリューションを提供する。
- 参考スコア(独自算出の注目度): 15.142146104837005
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In contrast to vision transformers, which model long-range dependencies through global self-attention, large kernel convolutions provide a more efficient and scalable alternative, particularly in high-resolution 3D volumetric settings. However, naively increasing kernel size often leads to optimization instability and degradation in performance. Motivated by the spatial bias observed in effective receptive fields (ERFs), we hypothesize that different kernel elements converge at variable rates during training. To support this, we derive a theoretical connection between element-wise gradients and first-order optimization, showing that structurally re-parameterized convolution blocks inherently induce spatially varying learning rates. Building on this insight, we introduce Rep3D, a 3D convolutional framework that incorporates a learnable spatial prior into large kernel training. A lightweight two-stage modulation network generates a receptive-biased scaling mask, adaptively re-weighting kernel updates and enabling local-to-global convergence behavior. Rep3D adopts a plain encoder design with large depthwise convolutions, avoiding the architectural complexity of multi-branch compositions. We evaluate Rep3D on five challenging 3D segmentation benchmarks and demonstrate consistent improvements over state-of-the-art baselines, including transformer-based and fixed-prior re-parameterization methods. By unifying spatial inductive bias with optimization-aware learning, Rep3D offers an interpretable, and scalable solution for 3D medical image analysis. The source code is publicly available at https://github.com/leeh43/Rep3D.
- Abstract(参考訳): グローバルな自己アテンションを通じて長距離依存関係をモデル化するビジョントランスフォーマーとは対照的に、大規模なカーネル畳み込みは、特に高解像度の3Dボリューム設定において、より効率的でスケーラブルな代替手段を提供する。
しかし、カーネルサイズが急激に大きくなると、しばしば最適化の不安定性と性能の低下につながる。
実効受容場(ERF)で観測される空間バイアスにより、異なるカーネル要素がトレーニング中に変動速度で収束するという仮説を立てた。
これを支持するために、要素の勾配と一階の最適化の理論的関係を導出し、構造的に再パラメータ化された畳み込みブロックが本質的に空間的に異なる学習率を誘導することを示す。
この知見に基づいて,学習可能な空間を大規模なカーネルトレーニングに組み込んだ3D畳み込みフレームワークRep3Dを紹介する。
軽量な2段階変調ネットワークは、受信バイアス付きスケーリングマスクを生成し、カーネル更新を適応的に再重み付けし、局所的にグローバルな収束動作を可能にする。
Rep3Dは、多分岐構成のアーキテクチャ上の複雑さを回避し、奥行きの大きな畳み込みを持つ平易なエンコーダ設計を採用する。
我々は5つの挑戦的な3Dセグメンテーションベンチマーク上でRep3Dを評価し、トランスフォーマーベースや固定優先度再パラメータ化手法を含む最先端のベースラインに対して一貫した改善を示す。
Rep3Dは、空間帰納バイアスを最適化学習と統合することにより、3D画像解析のための解釈可能でスケーラブルなソリューションを提供する。
ソースコードはhttps://github.com/leeh43/Rep3Dで公開されている。
関連論文リスト
- Dynamic 3D KAN Convolution with Adaptive Grid Optimization for Hyperspectral Image Classification [12.168520751389622]
Kanetは改良された3D-DenseNetモデルであり、3D Kan Convとアダプティブグリッド更新機構で構成されている。
Kanetはネットワークの深さや幅を増大させることなく、3D動的専門家畳み込みシステムを通じてモデル表現能力を向上させる。
提案手法は、IN, UP, KSCデータセット上での優れた性能を示し、主流のハイパースペクトル画像分類手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2025-04-21T14:57:48Z) - 3D Equivariant Pose Regression via Direct Wigner-D Harmonics Prediction [50.07071392673984]
既存の方法は、角度や四元数を用いて空間領域でパラメータ化された3次元回転を学習する。
本稿では,3次元回転回帰のためのWigner-D係数を直接予測する周波数領域アプローチを提案する。
提案手法は, ModelNet10-SO(3) や PASCAL3D+ などのベンチマーク上での最先端結果を実現する。
論文 参考訳(メタデータ) (2024-11-01T12:50:38Z) - Graph and Skipped Transformer: Exploiting Spatial and Temporal Modeling Capacities for Efficient 3D Human Pose Estimation [36.93661496405653]
我々は、簡潔なグラフとSkipped Transformerアーキテクチャを用いて、Transformer-temporal情報を活用するためのグローバルなアプローチを採っている。
具体的には、3Dポーズの段階では、粗粒の体部が展開され、完全なデータ駆動適応モデルが構築される。
実験はHuman3.6M、MPI-INF-3DHP、Human-Evaベンチマークで行われた。
論文 参考訳(メタデータ) (2024-07-03T10:42:09Z) - Fast-SNARF: A Fast Deformer for Articulated Neural Fields [92.68788512596254]
本稿では,標準空間とポーズ空間の正確な対応性を求める,ニューラルフィールドのための新しい調音モジュールFast-SNARFを提案する。
Fast-SNARFはこれまでの研究であるSNARFの代替であり、計算効率は大幅に向上した。
変形マップの学習は多くの3次元人間のアバター法において重要な要素であるため、この研究は3次元仮想人間の実現に向けた重要なステップであると考えている。
論文 参考訳(メタデータ) (2022-11-28T17:55:34Z) - Rethinking IoU-based Optimization for Single-stage 3D Object Detection [103.83141677242871]
本稿では回転分離型IoU(RDIoU)法を提案する。
我々のRDIoUは、回転変数を独立項として分離することで、回帰パラメータの複雑な相互作用を単純化する。
論文 参考訳(メタデータ) (2022-07-19T15:35:23Z) - The Devil is in the Pose: Ambiguity-free 3D Rotation-invariant Learning
via Pose-aware Convolution [18.595285633151715]
我々はPose-Aware Rotation Invariant Convolution(PaRI-Conv)を開発する。
本稿では,相対的なポーズ情報を完全エンコードするAPPF(Augmented Point Pair Feature)と,ポーズ対応カーネル生成のための動的カーネルについて述べる。
私たちのPaRI-Convは、よりコンパクトで効率的でありながら最先端のRI手法を超越しています。
論文 参考訳(メタデータ) (2022-05-30T16:11:55Z) - Learning Local Neighboring Structure for Robust 3D Shape Representation [143.15904669246697]
3Dメッシュの表現学習は多くのコンピュータビジョンやグラフィックスアプリケーションにおいて重要である。
局所構造認識型異方性畳み込み操作(LSA-Conv)を提案する。
本モデルでは,3次元形状復元において最先端の手法に比べて顕著な改善が得られた。
論文 参考訳(メタデータ) (2020-04-21T13:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。