論文の概要: Consistent View Alignment Improves Foundation Models for 3D Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2509.13846v1
- Date: Wed, 17 Sep 2025 09:23:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.799691
- Title: Consistent View Alignment Improves Foundation Models for 3D Medical Image Segmentation
- Title(参考訳): Consistent View Alignmentは3次元医用画像分割のための基礎モデルを改善する
- Authors: Puru Vaish, Felix Meister, Tobias Heimann, Christoph Brune, Jelmer M. Wolterink,
- Abstract要約: 潜在空間における有意義な構造が自然に現れないことを示す。
本稿では,データの異なるビューから表現を整列させて,偽陽性を引き起こすことなく相補的な情報を整列させる手法を提案する。
実験の結果,提案手法であるConsistent View Alignmentにより,下流タスクの性能が向上することがわかった。
- 参考スコア(独自算出の注目度): 2.8281887612574153
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many recent approaches in representation learning implicitly assume that uncorrelated views of a data point are sufficient to learn meaningful representations for various downstream tasks. In this work, we challenge this assumption and demonstrate that meaningful structure in the latent space does not emerge naturally. Instead, it must be explicitly induced. We propose a method that aligns representations from different views of the data to align complementary information without inducing false positives. Our experiments show that our proposed self-supervised learning method, Consistent View Alignment, improves performance for downstream tasks, highlighting the critical role of structured view alignment in learning effective representations. Our method achieved first and second place in the MICCAI 2025 SSL3D challenge when using a Primus vision transformer and ResEnc convolutional neural network, respectively. The code and pretrained model weights are released at https://github.com/Tenbatsu24/LatentCampus.
- Abstract(参考訳): 表現学習における近年の多くのアプローチは、データポイントの非相関的なビューは、様々な下流タスクにおいて意味のある表現を学ぶのに十分であると暗黙的に仮定している。
本研究では、この仮定に挑戦し、潜在空間における有意義な構造が自然に現れないことを示す。
代わりに、明示的に誘導されなければならない。
本稿では,データの異なるビューから表現を整列させて,偽陽性を引き起こすことなく相補的な情報を整列させる手法を提案する。
実験の結果,提案手法であるConsistent View Alignmentにより,下流タスクのパフォーマンスが向上し,学習効率の高い表現における構造化ビューアライメントの重要性が示された。
提案手法は,プリズム・ビジョン・トランスフォーマとResEnc畳み込みニューラルネットワークを用いたMICCAI 2025 SSL3Dチャレンジにおいて,それぞれ第1位と第2位を達成した。
コードと事前訓練されたモデルの重み付けはhttps://github.com/Tenbatsu24/LatentCampus.comでリリースされている。
関連論文リスト
- Learning Without Augmenting: Unsupervised Time Series Representation Learning via Frame Projections [35.715609556178165]
ラベル付きデータなしで表現を学習するための強力なパラダイムとして、自己教師型学習が登場した。
ほとんどのSSLアプローチは、表現学習のための多様なビューを生成するために、強力で確立された手作りのデータ拡張に依存している。
正規のベースとオーバーコンプリートフレームを用いてビューを生成することにより、拡張を置き換える教師なし表現学習手法を提案する。
論文 参考訳(メタデータ) (2025-10-26T12:36:29Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - DILEMMA: Self-Supervised Shape and Texture Learning with Transformers [33.296154476701055]
自己教師型学習により学習したモデルにおいて,形状とテクスチャの識別性を明示的に向上する擬似タスクを提案する。
我々は提案手法をDILEMMAと呼び,MAsked入力による不正確な位置EMベディングの検出を行う。
論文 参考訳(メタデータ) (2022-04-10T22:58:02Z) - Revisiting Contrastive Methods for Unsupervised Learning of Visual
Representations [78.12377360145078]
対照的な自己教師型学習は、セグメンテーションやオブジェクト検出といった多くの下流タスクにおいて教師付き事前訓練よりも優れています。
本稿では,データセットのバイアスが既存手法にどのように影響するかを最初に検討する。
現在のコントラストアプローチは、(i)オブジェクト中心対シーン中心、(ii)一様対ロングテール、(iii)一般対ドメイン固有データセットなど、驚くほどうまく機能することを示す。
論文 参考訳(メタデータ) (2021-06-10T17:59:13Z) - Adjoint Rigid Transform Network: Task-conditioned Alignment of 3D Shapes [86.2129580231191]
Adjoint Rigid Transform (ART) Networkは、さまざまな3Dネットワークと統合可能なニューラルネットワークモジュールである。
ARTは入力の形状を学習した標準方向に回転させることを学び、多くのタスクに欠かせない。
さらなる研究のために、コードと事前訓練されたモデルをリリースします。
論文 参考訳(メタデータ) (2021-02-01T20:58:45Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z) - Semantically-Guided Representation Learning for Self-Supervised
Monocular Depth [40.49380547487908]
本稿では,自己教師付き表現学習を指導するために,事前訓練型セマンティックセマンティック・セマンティクス・ネットワークを利用した新しいアーキテクチャを提案する。
本手法は,全画素,細粒度細部,意味カテゴリーごとの自己教師型単眼深度予測のための技術の現状を改善した。
論文 参考訳(メタデータ) (2020-02-27T18:40:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。