論文の概要: SigVLP: Sigmoid Volume-Language Pre-Training for Self-Supervised CT-Volume Adaptive Representation Learning
- arxiv url: http://arxiv.org/abs/2602.21735v1
- Date: Wed, 25 Feb 2026 09:44:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.781188
- Title: SigVLP: Sigmoid Volume-Language Pre-Training for Self-Supervised CT-Volume Adaptive Representation Learning
- Title(参考訳): SigVLP: Sigmoid Volume-Language Pre-Training for Self-Supervised CT-Volume Adaptive Representation Learning
- Authors: Jiayi Wang, Hadrien Reynaud, Ibrahim Ethem Hamamci, Sezgin Er, Suprosanna Shit, Bjoern Menze, Bernhard Kainz,
- Abstract要約: 我々は新しい視覚言語モデル、Sig Volumetricを導入する。
Sigボリュームでは、位置符号化法としてロータリー位置埋め込みを実装し、入力条件の正弦と正弦の重みをハエに生成する。
我々のモデルはミューオンを用いて訓練され、ゼロショット異常や臓器分類、セグメンテーション、検索タスクを含む様々な下流タスクに基づいて評価される。
- 参考スコア(独自算出の注目度): 13.428693608916419
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale, volumetric medical imaging datasets typically aggregate scans from different vendors and devices, resulting in highly variable resolution, slice thicknesses, and numbers of slices per study. Consequently, training representation models usually requires cropping or interpolating along the z-axis to obtain fixed-size blocks, which inevitably causes information loss. We propose a new training approach to overcome this limitation. Instead of absolute position embeddings, we interpret volumes as sequences of 3D chunks and adopt Rotary Position Embeddings, allowing us to treat the z-axis as an unconstrained temporal dimensions. Building on this idea, we introduce a new vision-language model: SigVLP. In SigVLP, we implement Rotary Position Embedding as the positional encoding method, which is applied directly within the attention operation, generating input-conditioned sine and cosine weights on the fly. This design ensures consistent alignment between query and key projections and adapts to any input sizes. To allow for variable input size during training, we sample Computed Tomography volumes in chunks and pair them with localized organ-wise textual observations. Compared to using entire reports for conditioning, chunkwise alignment provides finer-grained supervision, enabling the model to establish stronger correlations between the text and volume representations, thereby improving the precision of text-to-volume alignment. Our models are trained with the Muon optimizer and evaluated on a diverse set of downstream tasks, including zero-shot abnormality and organ classification, segmentation, and retrieval tasks.
- Abstract(参考訳): 大規模で体積の大きい医療画像データセットは、通常、さまざまなベンダーやデバイスからのスキャンを集約し、高い可変解像度、スライス厚、研究毎のスライス数をもたらす。
したがって、訓練表現モデルは通常、情報損失を必然的に引き起こす固定サイズのブロックを得るために、z軸に沿って収穫または補間する必要がある。
この制限を克服する新たなトレーニング手法を提案する。
絶対位置埋め込みの代わりに、体積を3次元チャンクの列として解釈し、回転位置埋め込みを採用することにより、z軸を非拘束時間次元として扱うことができる。
このアイデアに基づいて、新しい視覚言語モデル、SigVLPを導入する。
SigVLPでは、位置符号化法として回転位置埋め込みを実装し、アテンション操作内で直接適用し、入力条件付き正弦およびコサイン重みをハエに生成する。
この設計により、クエリとキープロジェクションの整合性が保証され、任意の入力サイズに適応する。
トレーニング中の入力サイズの変化を可能にするため,CTボリュームをチャンクにサンプリングし,臓器の局所的なテキスト観察と組み合わせた。
コンディショニングにレポート全体を使用することと比較して、チャンクワイズアライメントはよりきめ細かな監督を提供し、テキストとボリューム表現の間に強い相関関係が確立され、それによってテキストとボリュームのアライメントの精度が向上する。
我々のモデルは,Muonオプティマイザを用いて訓練され,ゼロショット異常や臓器分類,セグメンテーション,検索タスクなど,さまざまな下流タスクに基づいて評価される。
関連論文リスト
- Beyond Self-Attention: Deformable Large Kernel Attention for Medical
Image Segmentation [3.132430938881454]
我々は,大コンボリューションカーネルを用いて,ボリュームコンテキストを十分に理解するための注意機構であるtextbfDeformable Large Kernel Attention (D-LKA Attention) の概念を紹介した。
提案するアテンション機構は, 変形可能な畳み込みの利点を生かして, サンプリンググリッドを柔軟にワープし, モデルが多様なデータパターンに適切に適応できるようにする。
論文 参考訳(メタデータ) (2023-08-31T20:21:12Z) - With a Little Help from your own Past: Prototypical Memory Networks for
Image Captioning [47.96387857237473]
我々は、他のトレーニングサンプルを処理しながら得られたアクティベーションに注意を向けるネットワークを考案した。
私たちのメモリは、プロトタイプベクトルの定義を通じて過去のキーと値の分布をモデル化します。
本研究では,エンコーダ・デコーダ変換器の性能を3.7 CIDErポイント向上できることを示す。
論文 参考訳(メタデータ) (2023-08-23T18:53:00Z) - Transformer-based end-to-end classification of variable-length
volumetric data [4.053910482393197]
可変長のデータを効率的に分類できるエンドツーエンドのTransformerベースのフレームワークを提案する。
網膜CTボリューム分類における提案手法の評価を行い,9クラス診断課題における平均改善率21.96%を達成した。
論文 参考訳(メタデータ) (2023-07-13T10:19:04Z) - MIS-FM: 3D Medical Image Segmentation using Foundation Models Pretrained
on a Large-Scale Unannotated Dataset [14.823114726604853]
本稿では,3次元セグメンテーションモデルを事前学習するための,VF(Volume Fusion)と呼ばれる新たな自己教師型学習戦略を提案する。
VFは、手動のアノテーションなしで自己教師付きセグメンテーションタスクとして定式化される各ボクセルの融合係数を予測するようモデルを強制する。
頭部, 頸部臓器, 胸部, 腹部臓器など, 下流領域の異なる部位を対象とする実験により, 我々の事前訓練モデルがスクラッチからトレーニングに優れていたことが判明した。
論文 参考訳(メタデータ) (2023-06-29T13:22:13Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - Simple Open-Vocabulary Object Detection with Vision Transformers [51.57562920090721]
本稿では,画像テキストモデルをオープン語彙オブジェクト検出に転送するための強力なレシピを提案する。
我々は、最小限の修正、コントラスト的な画像テキスト事前学習、エンドツーエンド検出細調整を備えた標準のVision Transformerアーキテクチャを使用する。
我々は、ゼロショットテキスト条件とワンショット画像条件オブジェクト検出において、非常に強力な性能を達成するために必要な適応戦略と正規化を提供する。
論文 参考訳(メタデータ) (2022-05-12T17:20:36Z) - Cherry-Picking Gradients: Learning Low-Rank Embeddings of Visual Data
via Differentiable Cross-Approximation [53.95297550117153]
本稿では,大規模な視覚データテンソルの処理を行うエンドツーエンドのトレーニング可能なフレームワークを提案する。
提案手法は大規模多次元グリッドデータや,大規模受容領域上のコンテキストを必要とするタスクに特に有用である。
論文 参考訳(メタデータ) (2021-05-29T08:39:57Z) - Learning Optical Flow from a Few Matches [67.83633948984954]
密な相関体積表現は冗長であり、その中の要素のほんの一部で正確なフロー推定が達成できることを示した。
実験により,高い精度を維持しつつ計算コストとメモリ使用量を大幅に削減できることを示した。
論文 参考訳(メタデータ) (2021-04-05T21:44:00Z) - IFSS-Net: Interactive Few-Shot Siamese Network for Faster Muscle
Segmentation and Propagation in Volumetric Ultrasound [6.132753289255568]
本研究では,3次元自由手超音波データにおける分割と筋マスクの伝搬の精度,迅速かつ効率的な方法を提案する。
我々は,臨床専門家が注釈付けした参照マスクを伝搬するために,深層シームズ3Dデコーダネットワークを使用する。
44名の被験者から得られた61600枚の画像のデータセットに対して, セグメンテーション, ラベル伝搬, ボリューム計算のアプローチを検証した。
論文 参考訳(メタデータ) (2020-11-26T11:37:25Z) - Improving Few-shot Learning by Spatially-aware Matching and
CrossTransformer [116.46533207849619]
数ショット学習シナリオにおけるスケールと位置ミスマッチの影響について検討する。
本稿では,複数のスケールや場所のマッチングを効果的に行うための,空間認識型マッチング手法を提案する。
論文 参考訳(メタデータ) (2020-01-06T14:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。