論文の概要: A Point in the Right Direction: Vector Prediction for Spatially-aware
Self-supervised Volumetric Representation Learning
- arxiv url: http://arxiv.org/abs/2211.08533v1
- Date: Tue, 15 Nov 2022 22:10:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 15:12:23.270697
- Title: A Point in the Right Direction: Vector Prediction for Spatially-aware
Self-supervised Volumetric Representation Learning
- Title(参考訳): 正しい方向のポイント:空間認識型自己教師型ボリューム表現学習のためのベクトル予測
- Authors: Yejia Zhang, Pengfei Gu, Nishchal Sapkota, Hao Zheng, Peixian Liang,
Danny Z. Chen
- Abstract要約: VectorPOSEは、ベクトル予測(Vector Prediction)と境界焦点再構成(Bundary-Focused Restructation)という2つの新しいプリテキストタスクによって、より優れた空間的理解を促進する。
本研究では,3次元医用画像分割作業におけるVectorPOSEの評価を行った。
- 参考スコア(独自算出の注目度): 12.369884719068228
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High annotation costs and limited labels for dense 3D medical imaging tasks
have recently motivated an assortment of 3D self-supervised pretraining methods
that improve transfer learning performance. However, these methods commonly
lack spatial awareness despite its centrality in enabling effective 3D image
analysis. More specifically, position, scale, and orientation are not only
informative but also automatically available when generating image crops for
training. Yet, to date, no work has proposed a pretext task that distills all
key spatial features. To fulfill this need, we develop a new self-supervised
method, VectorPOSE, which promotes better spatial understanding with two novel
pretext tasks: Vector Prediction (VP) and Boundary-Focused Reconstruction
(BFR). VP focuses on global spatial concepts (i.e., properties of 3D patches)
while BFR addresses weaknesses of recent reconstruction methods to learn more
effective local representations. We evaluate VectorPOSE on three 3D medical
image segmentation tasks, showing that it often outperforms state-of-the-art
methods, especially in limited annotation settings.
- Abstract(参考訳): 高いアノテーションコストと高密度な3D医療画像タスクの限定ラベルは、最近、トランスファー学習性能を向上させる3D自己教師付き事前学習手法を取り入れた動機となっている。
しかし,これらの手法は,有効な3次元画像解析を可能にする中心性に拘わらず,空間的認識を欠いている。
より具体的には、位置、スケール、方向は情報的だけでなく、訓練用の画像作物を生成する際にも自動的に利用できる。
しかし、今のところ、すべての重要な空間的特徴を抽出するプレテキストタスクは提案されていない。
このニーズを満たすために、ベクトル予測(VP)と境界焦点再構成(BFR)という2つの新しいプレテキストタスクで空間的理解を向上する自己教師型手法VectorPOSEを開発した。
VPはグローバル空間の概念(すなわち3Dパッチの特性)に焦点を当て、BFRはより効率的な局所表現を学ぶために最近の再構成手法の弱点に対処する。
本稿では,3つの3次元医用画像分割作業におけるVectorPOSEの評価を行い,特にアノテーション設定において,最先端の手法よりも優れていることを示す。
関連論文リスト
- LangOcc: Self-Supervised Open Vocabulary Occupancy Estimation via Volume Rendering [0.5852077003870417]
LangOccはオープン語彙占有率推定の新しいアプローチである。
カメライメージによってのみ訓練され、視覚言語アライメントによって任意の意味を検出することができる。
我々はOcc3D-nuScenesデータセット上での自己教師型セマンティック占有度推定の最先端結果を得る。
論文 参考訳(メタデータ) (2024-07-24T14:22:55Z) - Self-supervised Learning via Cluster Distance Prediction for Operating Room Context Awareness [44.15562068190958]
オペレーティングルームでは、セマンティックセグメンテーションは、臨床環境を認識したロボットを作るための中核である。
最先端のセマンティックセグメンテーションとアクティビティ認識アプローチは、スケーラブルではない、完全に管理されている。
ToFカメラで撮影したORシーン画像を利用したORシーン理解のための新しい3次元自己教師型タスクを提案する。
論文 参考訳(メタデータ) (2024-07-07T17:17:52Z) - OccFlowNet: Towards Self-supervised Occupancy Estimation via
Differentiable Rendering and Occupancy Flow [0.6577148087211809]
本稿では,2次元ラベルのみを用いたニューラルレイディアンス場(NeRF)による占有率推定手法を提案する。
深度とセマンティックマップの予測や,2次元監視のみに基づく3次元ネットワークのトレーニングには,可変ボリュームレンダリングを用いる。
論文 参考訳(メタデータ) (2024-02-20T08:04:12Z) - 3D Vascular Segmentation Supervised by 2D Annotation of Maximum
Intensity Projection [33.34240545722551]
血管構造のセグメンテーションは、医学的分析と臨床応用において重要な役割を担っている。
既存の弱監督法は, スパース血管構造を扱う際に, 最適下肢機能を示した。
ここでは,3次元体積の次元を2次元画像に変換するために,最大強度投影(MIP)を用いる。
MIPを介して2D-3Dの深い特徴を融合してセグメンテーション性能を向上させる弱教師付きネットワークを導入する。
論文 参考訳(メタデータ) (2024-02-19T13:24:46Z) - Generalized Label-Efficient 3D Scene Parsing via Hierarchical Feature
Aligned Pre-Training and Region-Aware Fine-tuning [55.517000360348725]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。
事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。
室内と屋外の両方で実験を行ったところ、データ効率のよい学習とオープンワールドの複数ショット学習の両方において、我々のアプローチの有効性が示された。
論文 参考訳(メタデータ) (2023-12-01T15:47:04Z) - 2D Feature Distillation for Weakly- and Semi-Supervised 3D Semantic
Segmentation [92.17700318483745]
合成訓練された2Dセマンティックセマンティックセグメンテーションネットワークから高レベル特徴情報を蒸留するアイデアに基づく画像誘導ネットワーク(IGNet)を提案する。
IGNetは、ScribbleKITTI上の弱い教師付きLiDARセマンティックセマンティックセグメンテーションの最先端の結果を達成し、8%のラベル付きポイントしか持たない完全な教師付きトレーニングに対して最大98%のパフォーマンスを誇っている。
論文 参考訳(メタデータ) (2023-11-27T07:57:29Z) - On Triangulation as a Form of Self-Supervision for 3D Human Pose
Estimation [57.766049538913926]
ラベル付きデータが豊富である場合, 単一画像からの3次元ポーズ推定に対する改良されたアプローチは, 極めて効果的である。
最近の注目の多くは、セミと(あるいは)弱い教師付き学習に移行している。
本稿では,多視点の幾何学的制約を,識別可能な三角測量を用いて課し,ラベルがない場合の自己監督の形式として用いることを提案する。
論文 参考訳(メタデータ) (2022-03-29T19:11:54Z) - Self-Supervised Point Cloud Representation Learning with Occlusion
Auto-Encoder [63.77257588569852]
本稿では,3D Occlusion Auto-Encoder(3D-OAE)を提案する。
私たちのキーとなるアイデアは、入力ポイントクラウドのローカルパッチをランダムに排除し、隠されたパッチを復元することで監督を確立することです。
従来の手法とは対照的に、我々の3D-OAEは大量のパッチを除去し、少数の可視パッチでしか予測できない。
論文 参考訳(メタデータ) (2022-03-26T14:06:29Z) - Improving Point Cloud Semantic Segmentation by Learning 3D Object
Detection [102.62963605429508]
ポイントクラウドセマンティックセグメンテーションは、自動運転において重要な役割を果たす。
現在の3Dセマンティックセグメンテーションネットワークは、よく表現されたクラスに対して優れた性能を発揮する畳み込みアーキテクチャに焦点を当てている。
Aware 3D Semantic Detection (DASS) フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-22T14:17:40Z) - SESS: Self-Ensembling Semi-Supervised 3D Object Detection [138.80825169240302]
具体的には、ラベルのない新しい未知のデータに基づくネットワークの一般化を促進するための、徹底的な摂動スキームを設計する。
我々のSESSは、50%のラベル付きデータを用いて、最先端の完全教師付き手法と比較して、競争性能を達成している。
論文 参考訳(メタデータ) (2019-12-26T08:48:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。