論文の概要: Asymmetric 3D Context Fusion for Universal Lesion Detection
- arxiv url: http://arxiv.org/abs/2109.08684v1
- Date: Fri, 17 Sep 2021 16:25:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-24 02:52:04.869828
- Title: Asymmetric 3D Context Fusion for Universal Lesion Detection
- Title(参考訳): ユニバーサル病変検出のための非対称3次元コンテキストフュージョン
- Authors: Jiancheng Yang, Yi He, Kaiming Kuang, Zudi Lin, Hanspeter Pfister,
Bingbing Ni
- Abstract要約: 3Dネットワークは、3Dコンテキストでは強いが、教師付き事前トレーニングがない。
既存の3Dコンテキスト融合演算子は空間対称に設計されており、畳み込みのように各2Dスライス上で同一の操作を行う。
本研究では, 異なる重みを持つ非対称な3次元コンテキスト融合演算子 (A3D) を提案し, 異なる2次元スライスから3次元コンテキストを融合させる。
- 参考スコア(独自算出の注目度): 55.61873234187917
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modeling 3D context is essential for high-performance 3D medical image
analysis. Although 2D networks benefit from large-scale 2D supervised
pretraining, it is weak in capturing 3D context. 3D networks are strong in 3D
context yet lack supervised pretraining. As an emerging technique, \emph{3D
context fusion operator}, which enables conversion from 2D pretrained networks,
leverages the advantages of both and has achieved great success. Existing 3D
context fusion operators are designed to be spatially symmetric, i.e.,
performing identical operations on each 2D slice like convolutions. However,
these operators are not truly equivariant to translation, especially when only
a few 3D slices are used as inputs. In this paper, we propose a novel
asymmetric 3D context fusion operator (A3D), which uses different weights to
fuse 3D context from different 2D slices. Notably, A3D is NOT
translation-equivariant while it significantly outperforms existing symmetric
context fusion operators without introducing large computational overhead. We
validate the effectiveness of the proposed method by extensive experiments on
DeepLesion benchmark, a large-scale public dataset for universal lesion
detection from computed tomography (CT). The proposed A3D consistently
outperforms symmetric context fusion operators by considerable margins, and
establishes a new \emph{state of the art} on DeepLesion. To facilitate open
research, our code and model in PyTorch are available at
https://github.com/M3DV/AlignShift.
- Abstract(参考訳): 高性能な3次元医用画像解析には3Dコンテキストのモデリングが不可欠である。
2Dネットワークは大規模2D教師付き事前学習の恩恵を受けるが、3Dコンテキストのキャプチャには弱い。
3Dネットワークは、3Dコンテキストでは強いが、教師付き事前トレーニングがない。
新たな手法として,2次元事前学習ネットワークからの変換が可能な 'emph{3D context fusion operator} が,両者の利点を活用し,大きな成功を収めた。
既存の3Dコンテキスト融合演算子は、空間対称、すなわち畳み込みのように各2Dスライス上で同一の操作を行うように設計されている。
しかし、これらの演算子は、特に入力としてわずかに3Dスライスを使用する場合、翻訳と真に同値ではない。
本稿では,異なる重みを使って異なる2次元スライスから3次元コンテキストを融合する,新しい非対称な3次元コンテキスト融合演算子(A3D)を提案する。
特に、A3DはNOT変換同変であるが、計算オーバーヘッドを伴わずに既存の対称文脈融合演算子を著しく上回っている。
我々は,CT(Computed tomography)による広汎な病変検出のための大規模パブリックデータセットであるDeepLesionベンチマークを用いて,提案手法の有効性を検証する。
提案された A3D は対称文脈融合作用素をかなりのマージンで一貫して上回り、DeepLesion 上で新しい 'emph{state of the art' を確立する。
オープンな研究を促進するため、PyTorchのコードとモデルはhttps://github.com/M3DV/AlignShift.comで公開されています。
関連論文リスト
- OVIR-3D: Open-Vocabulary 3D Instance Retrieval Without Training on 3D
Data [15.53270401654078]
OVIR-3Dは、訓練に3Dデータを使うことなく、オープンな3Dオブジェクトインスタンス検索を行う方法である。
これはテキスト整列2D領域の提案を多視点で3D空間に融合することで実現される。
公開データセットと実際のロボットを用いた実験は、ロボットのナビゲーションと操作における手法の有効性とその可能性を示している。
論文 参考訳(メタデータ) (2023-11-06T05:00:00Z) - NDC-Scene: Boost Monocular 3D Semantic Scene Completion in Normalized
Device Coordinates Space [77.6067460464962]
SSC(Monocular 3D Semantic Scene Completion)は、単一の画像から複雑なセマンティックスや幾何学的形状を予測し、3D入力を必要としないため、近年大きな注目を集めている。
我々は,3次元空間に投影された2次元特徴の特徴的曖昧さ,3次元畳み込みのPose Ambiguity,深さの異なる3次元畳み込みにおける不均衡など,現在の最先端手法におけるいくつかの重要な問題を明らかにする。
シーン補完ネットワーク(NDC-Scene)を考案し,2を直接拡張する。
論文 参考訳(メタデータ) (2023-09-26T02:09:52Z) - 3D-Aware Neural Body Fitting for Occlusion Robust 3D Human Pose
Estimation [28.24765523800196]
本研究では,3次元ポーズ推定のための3次元認識型ニューラルボディフィッティング(3DNBF)を提案する。
特に,3次元ポーズ依存特徴ベクトルを出力するガウス楕円体カーネルを用いた人間の体積表現に基づく深部特徴の生成モデルを提案する。
ニューラル特徴は、対照的な学習で訓練され、3D認識となり、2D-3D曖昧さを克服する。
論文 参考訳(メタデータ) (2023-08-19T22:41:00Z) - Act3D: 3D Feature Field Transformers for Multi-Task Robotic Manipulation [18.964403296437027]
Act3Dは、手作業に依存する適応的な解像度を持つ3D特徴体を用いて、ロボットのワークスペースを表現する。
粗い方法で3Dポイントグリッドをサンプリングし、相対的な位置の注意を使ってそれらを巧みに加工し、次の点サンプリングのラウンドにフォーカスする場所を選択する。
論文 参考訳(メタデータ) (2023-06-30T17:34:06Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - Multi-Modality Task Cascade for 3D Object Detection [22.131228757850373]
多くの手法は2つのモデルを個別に訓練し、単純な特徴結合を用いて3Dセンサーデータを表現している。
本稿では,3次元ボックスの提案を利用して2次元セグメンテーション予測を改善する新しいマルチモードタスクカスケードネットワーク(MTC-RCNN)を提案する。
2段階の3次元モジュール間の2次元ネットワークを組み込むことで,2次元および3次元のタスク性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-07-08T17:55:01Z) - FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection [78.00922683083776]
一般的な2D検出器をこの3Dタスクで動作させることは簡単ではない。
本報告では,完全畳み込み型単段検出器を用いた手法を用いてこの問題を考察する。
私たちのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジのすべてのビジョンのみの方法の中で1位を獲得します。
論文 参考訳(メタデータ) (2021-04-22T09:35:35Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z) - Exemplar Fine-Tuning for 3D Human Model Fitting Towards In-the-Wild 3D
Human Pose Estimation [107.07047303858664]
3次元の地平線アノテーションを持つ大規模な人的データセットは、野生では入手が困難である。
既存の2Dデータセットを高品質な3Dポーズマッチングで拡張することで、この問題に対処する。
結果として得られるアノテーションは、3Dのプロシージャネットワークをスクラッチからトレーニングするのに十分である。
論文 参考訳(メタデータ) (2020-04-07T20:21:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。