論文の概要: VoxCor: Training-Free Volumetric Features for Multimodal Voxel Correspondence
- arxiv url: http://arxiv.org/abs/2605.13798v1
- Date: Wed, 13 May 2026 17:20:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:28.205131
- Title: VoxCor: Training-Free Volumetric Features for Multimodal Voxel Correspondence
- Title(参考訳): VoxCor:マルチモーダルVoxel対応のためのトレーニング不要ボリューム機能
- Authors: Guney Tombak, Ertunc Erdil, Ender Konukoglu,
- Abstract要約: クロスモーダルな3D医療画像解析には、画像コントラスト、スキャナー、取得プロトコル間で解剖学的に整合したボクセルワイズ表現が必要である。
最近の研究によると、凍結した2Dビジョントランスフォーマー(ViT)基盤モデルはそのような表現をサポートすることができるが、典型的なパイプラインは単一の軸に沿って特徴を抽出し、登録ソルバ内の特徴を一度に1つの画像対に適応させる。
凍結した2D ViT基礎モデルから再利用可能な容積特徴表現のためのトレーニング不要な適合変換法であるVoxCorを紹介する。
- 参考スコア(独自算出の注目度): 17.365323255129436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-modal 3D medical image analysis requires voxelwise representations that remain anatomically consistent across imaging contrasts, scanners, and acquisition protocols. Recent work has shown that frozen 2D Vision Transformer (ViT) foundation models can support such representations, but typical pipelines extract features along a single anatomical axis and adapt those features inside a registration solver for one image pair at a time, leaving complementary viewing directions unused and producing representations that do not transfer to new volumes. We introduce VoxCor, a training-free fit--transform method for reusable volumetric feature representations from frozen 2D ViT foundation models. During an offline fitting phase, VoxCor combines triplanar ViT inference with a compact closed-form weighted partial least squares (WPLS) projection that uses fitting-time voxel correspondences to select modality-stable anatomical directions in the triplanar feature space. At transform time, new volumes are mapped by triplanar ViT inference and linear projection alone, without fine-tuning or registration. Voxel correspondences can then be queried directly by nearest-neighbor search. We evaluate VoxCor on intra-subject Abdomen MR--CT and inter-subject HCP T2w--T1w tasks using deformable registration, voxelwise k-nearest-neighbor segmentation, and segmentation-center landmark localization. VoxCor improves the hardest cross-subject, cross-modality transfer settings, reduces encoder sensitivity for dense correspondence transfer, and yields registration performance competitive with handcrafted descriptors and learned 3D features. This positions VoxCor as a reusable feature layer for downstream multimodal analysis beyond pairwise registration. Code, configuration files, and implementation details are publicly available on GitHub at \href{https://github.com/guneytombak/VoxCor}{guneytombak/VoxCor}.
- Abstract(参考訳): クロスモーダルな3D医療画像解析には、画像コントラスト、スキャナー、取得プロトコル間で解剖学的に整合したボクセルワイズ表現が必要である。
近年の研究では、凍結した2Dビジョントランスフォーマー(ViT)基盤モデルがそのような表現をサポートできることが示されているが、典型的なパイプラインは単一の解剖学的軸に沿って特徴を抽出し、登録ソルバ内の特徴を一度に1つの画像対に適応させ、補完的な視方向を未使用のままにして、新しいボリュームに転送しない表現を生成する。
凍結した2D ViT基礎モデルから再利用可能な容積特徴表現のためのトレーニング不要な適合変換法であるVoxCorを紹介する。
オフラインのフィッティングフェーズにおいて、VoxCorは三面体ViT推論と、三面体特徴空間におけるモジュラリティ安定な解剖方向を選択するために、適合時間ボクセル対応を用いたコンパクトな閉形式重み付き部分最小二乗射影(WPLS)を組み合わせる。
変換時に、新しいボリュームは、微調整や登録なしに、三面体ViT推論と線形射影だけでマッピングされる。
次に、最寄りの検索によって、Voxel対応を直接クエリすることができる。
変形性登録,voxelwise k-nearest-nebor segmentation,およびセグメンテーション中心のランドマークローカライゼーションを用いて,サブジェクト内MR-CTおよびサブジェクト間HCP T2w-T1wタスクに対するVoxCorの評価を行った。
VoxCorは、最も難しいクロスオブジェクト、クロスモダリティ転送設定を改善し、密度の高い通信転送に対するエンコーダ感度を低減し、手作りのディスクリプタと競合する登録性能と3D特徴を学習する。
これにより、VoxCorは、ペア登録以上の下流マルチモーダル分析のための再利用可能な機能層として位置づけられる。
コード、設定ファイル、実装の詳細はGitHubで公開されており、こちらは \href{https://github.com/guneytombak/VoxCor}{guneytombak/VoxCor} で公開されている。
関連論文リスト
- Match4Annotate: Propagating Sparse Video Annotations via Implicit Neural Feature Matching [0.5459797813771498]
Match4Annotateは、ビデオ内および動画間の両方のポイントおよびマスクアノテーションの伝搬のためのフレームワークである。
本手法は,テスト時のDINOv3特徴に対するSIRENに基づく暗黙的表現に適合し,連続的かつ高時間的特徴場を生成する。
臨床用超音波データセットを3つ評価した。
論文 参考訳(メタデータ) (2026-03-06T16:56:46Z) - SigVLP: Sigmoid Volume-Language Pre-Training for Self-Supervised CT-Volume Adaptive Representation Learning [13.428693608916419]
我々は新しい視覚言語モデル、Sig Volumetricを導入する。
Sigボリュームでは、位置符号化法としてロータリー位置埋め込みを実装し、入力条件の正弦と正弦の重みをハエに生成する。
我々のモデルはミューオンを用いて訓練され、ゼロショット異常や臓器分類、セグメンテーション、検索タスクを含む様々な下流タスクに基づいて評価される。
論文 参考訳(メタデータ) (2026-02-25T09:44:27Z) - Few-Shot Video Object Segmentation in X-Ray Angiography Using Local Matching and Spatio-Temporal Consistency Loss [13.850743997507488]
探索空間を最も近いピクセルに制限する局所マッチング戦略を用いた新しいFSVOSモデルを提案する。
具体的には、動的に異なるサンプリング領域を実現できる非パラメトリックサンプリング機構を実装した。
この研究は、幅広い臨床応用のための強化されたポテンシャルを提供する。
論文 参考訳(メタデータ) (2026-01-02T21:26:28Z) - multimodars: A Rust-powered toolkit for multi-modality cardiac image fusion and registration [0.0]
血管内イメージングは、サブミリメートルの解像度を与えるが、全血管のコンテキストは制限されるが、CCTAは3D形状を提供するが、空間解像度とアーチファクトが制限される。
これまでの研究は血管内/CCTA融合を実証していたが、多状態解析に適したオープンで柔軟なツールキットは存在しなかった。
マルチモーダルは、決定論的アライメントアルゴリズム、コンパクトなNumPy中心のデータモデル、スケーラブルで再現可能な実験に適した最適化されたRustバックエンドによって、このギャップに対処する。
論文 参考訳(メタデータ) (2025-10-03T08:09:35Z) - CVT-xRF: Contrastive In-Voxel Transformer for 3D Consistent Radiance Fields from Sparse Inputs [65.80187860906115]
スパース入力によるNeRFの性能向上のための新しい手法を提案する。
まず, サンプル線が, 3次元空間内の特定のボクセルと交差することを保証するために, ボクセルを用いた放射線サンプリング戦略を採用する。
次に、ボクセル内の追加点をランダムにサンプリングし、トランスフォーマーを適用して各線上の他の点の特性を推測し、ボリュームレンダリングに組み込む。
論文 参考訳(メタデータ) (2024-03-25T15:56:17Z) - Differentiable Registration of Images and LiDAR Point Clouds with
VoxelPoint-to-Pixel Matching [58.10418136917358]
カメラからの2D画像とLiDARからの3Dポイントクラウドの間のクロスモダリティ登録は、コンピュータビジョンとロボットトレーニングにおいて重要な課題である。
ニューラルネットワークで学習した点パターンと画素パターンのマッチングによる2次元3次元対応の推定
我々は、異なる潜在画素空間を介して3次元特徴を表現するために、構造化されたモダリティマッチングソルバを学習する。
論文 参考訳(メタデータ) (2023-12-07T05:46:10Z) - Voxel or Pillar: Exploring Efficient Point Cloud Representation for 3D
Object Detection [49.324070632356296]
我々は3次元および2次元のスパース畳み込みにより点雲をボクセルと柱の特徴に符号化するスパース・ボクセル・ピラーエンコーダを開発した。
我々の効率的で完全なスパース法は、密度検出器とスパース検出器の両方にシームレスに統合できる。
論文 参考訳(メタデータ) (2023-04-06T05:00:58Z) - DSVT: Dynamic Sparse Voxel Transformer with Rotated Sets [95.84755169585492]
本研究では,屋外3次元知覚のためのシングルストライドウィンドウベースのボクセルトランスであるDynamic Sparse Voxel Transformer (DSVT)を提案する。
本モデルでは,3次元認識タスクを多岐にわたって行うことにより,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-01-15T09:31:58Z) - Voxel Transformer for 3D Object Detection [133.34678177431914]
Voxel Transformer(ヴォクセルトランスフォーマー、VoTr)は、点雲から3Dオブジェクトを検出するための、新鮮で効果的なボクセルベースのトランスフォーマーバックボーンである。
提案するVoTrは、KITTIデータセットとOpenデータセットの計算効率を維持しながら、畳み込みベースラインよりも一貫した改善を示す。
論文 参考訳(メタデータ) (2021-09-06T14:10:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。