論文の概要: Asymmetric 3D Context Fusion for Universal Lesion Detection
- arxiv url: http://arxiv.org/abs/2109.08684v1
- Date: Fri, 17 Sep 2021 16:25:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-24 02:52:04.869828
- Title: Asymmetric 3D Context Fusion for Universal Lesion Detection
- Title(参考訳): ユニバーサル病変検出のための非対称3次元コンテキストフュージョン
- Authors: Jiancheng Yang, Yi He, Kaiming Kuang, Zudi Lin, Hanspeter Pfister,
Bingbing Ni
- Abstract要約: 3Dネットワークは、3Dコンテキストでは強いが、教師付き事前トレーニングがない。
既存の3Dコンテキスト融合演算子は空間対称に設計されており、畳み込みのように各2Dスライス上で同一の操作を行う。
本研究では, 異なる重みを持つ非対称な3次元コンテキスト融合演算子 (A3D) を提案し, 異なる2次元スライスから3次元コンテキストを融合させる。
- 参考スコア(独自算出の注目度): 55.61873234187917
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modeling 3D context is essential for high-performance 3D medical image
analysis. Although 2D networks benefit from large-scale 2D supervised
pretraining, it is weak in capturing 3D context. 3D networks are strong in 3D
context yet lack supervised pretraining. As an emerging technique, \emph{3D
context fusion operator}, which enables conversion from 2D pretrained networks,
leverages the advantages of both and has achieved great success. Existing 3D
context fusion operators are designed to be spatially symmetric, i.e.,
performing identical operations on each 2D slice like convolutions. However,
these operators are not truly equivariant to translation, especially when only
a few 3D slices are used as inputs. In this paper, we propose a novel
asymmetric 3D context fusion operator (A3D), which uses different weights to
fuse 3D context from different 2D slices. Notably, A3D is NOT
translation-equivariant while it significantly outperforms existing symmetric
context fusion operators without introducing large computational overhead. We
validate the effectiveness of the proposed method by extensive experiments on
DeepLesion benchmark, a large-scale public dataset for universal lesion
detection from computed tomography (CT). The proposed A3D consistently
outperforms symmetric context fusion operators by considerable margins, and
establishes a new \emph{state of the art} on DeepLesion. To facilitate open
research, our code and model in PyTorch are available at
https://github.com/M3DV/AlignShift.
- Abstract(参考訳): 高性能な3次元医用画像解析には3Dコンテキストのモデリングが不可欠である。
2Dネットワークは大規模2D教師付き事前学習の恩恵を受けるが、3Dコンテキストのキャプチャには弱い。
3Dネットワークは、3Dコンテキストでは強いが、教師付き事前トレーニングがない。
新たな手法として,2次元事前学習ネットワークからの変換が可能な 'emph{3D context fusion operator} が,両者の利点を活用し,大きな成功を収めた。
既存の3Dコンテキスト融合演算子は、空間対称、すなわち畳み込みのように各2Dスライス上で同一の操作を行うように設計されている。
しかし、これらの演算子は、特に入力としてわずかに3Dスライスを使用する場合、翻訳と真に同値ではない。
本稿では,異なる重みを使って異なる2次元スライスから3次元コンテキストを融合する,新しい非対称な3次元コンテキスト融合演算子(A3D)を提案する。
特に、A3DはNOT変換同変であるが、計算オーバーヘッドを伴わずに既存の対称文脈融合演算子を著しく上回っている。
我々は,CT(Computed tomography)による広汎な病変検出のための大規模パブリックデータセットであるDeepLesionベンチマークを用いて,提案手法の有効性を検証する。
提案された A3D は対称文脈融合作用素をかなりのマージンで一貫して上回り、DeepLesion 上で新しい 'emph{state of the art' を確立する。
オープンな研究を促進するため、PyTorchのコードとモデルはhttps://github.com/M3DV/AlignShift.comで公開されています。
関連論文リスト
- EmbodiedSAM: Online Segment Any 3D Thing in Real Time [61.2321497708998]
身体的なタスクは、エージェントが探索と同時に3Dシーンを完全に理解する必要がある。
オンライン、リアルタイム、微粒化、高度に一般化された3D知覚モデルは、必死に必要である。
論文 参考訳(メタデータ) (2024-08-21T17:57:06Z) - MeshFormer: High-Quality Mesh Generation with 3D-Guided Reconstruction Model [34.245635412589806]
MeshFormerはスパースビューリコンストラクションモデルで、3Dネイティブ構造、入力ガイダンス、トレーニングインスペクションを明示的に活用する。
2次元拡散モデルと統合することで、高速な単一像から3次元およびテキストから3次元のタスクを可能にする。
論文 参考訳(メタデータ) (2024-08-19T17:55:17Z) - Any2Point: Empowering Any-modality Large Models for Efficient 3D Understanding [83.63231467746598]
我々は,Any2Pointというパラメータ効率のよい大規模モデル(ビジョン,言語,音声)を3次元理解に活用する手法を紹介した。
入力された3Dポイントと元の1Dまたは2D位置との相関関係を示す3D-to-any (1Dまたは2D)仮想プロジェクション戦略を提案する。
論文 参考訳(メタデータ) (2024-04-11T17:59:45Z) - NDC-Scene: Boost Monocular 3D Semantic Scene Completion in Normalized
Device Coordinates Space [77.6067460464962]
SSC(Monocular 3D Semantic Scene Completion)は、単一の画像から複雑なセマンティックスや幾何学的形状を予測し、3D入力を必要としないため、近年大きな注目を集めている。
我々は,3次元空間に投影された2次元特徴の特徴的曖昧さ,3次元畳み込みのPose Ambiguity,深さの異なる3次元畳み込みにおける不均衡など,現在の最先端手法におけるいくつかの重要な問題を明らかにする。
シーン補完ネットワーク(NDC-Scene)を考案し,2を直接拡張する。
論文 参考訳(メタデータ) (2023-09-26T02:09:52Z) - 3D-Aware Neural Body Fitting for Occlusion Robust 3D Human Pose
Estimation [28.24765523800196]
本研究では,3次元ポーズ推定のための3次元認識型ニューラルボディフィッティング(3DNBF)を提案する。
特に,3次元ポーズ依存特徴ベクトルを出力するガウス楕円体カーネルを用いた人間の体積表現に基づく深部特徴の生成モデルを提案する。
ニューラル特徴は、対照的な学習で訓練され、3D認識となり、2D-3D曖昧さを克服する。
論文 参考訳(メタデータ) (2023-08-19T22:41:00Z) - Act3D: 3D Feature Field Transformers for Multi-Task Robotic Manipulation [18.964403296437027]
Act3Dは、手作業に依存する適応的な解像度を持つ3D特徴体を用いて、ロボットのワークスペースを表現する。
粗い方法で3Dポイントグリッドをサンプリングし、相対的な位置の注意を使ってそれらを巧みに加工し、次の点サンプリングのラウンドにフォーカスする場所を選択する。
論文 参考訳(メタデータ) (2023-06-30T17:34:06Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z) - Exemplar Fine-Tuning for 3D Human Model Fitting Towards In-the-Wild 3D
Human Pose Estimation [107.07047303858664]
3次元の地平線アノテーションを持つ大規模な人的データセットは、野生では入手が困難である。
既存の2Dデータセットを高品質な3Dポーズマッチングで拡張することで、この問題に対処する。
結果として得られるアノテーションは、3Dのプロシージャネットワークをスクラッチからトレーニングするのに十分である。
論文 参考訳(メタデータ) (2020-04-07T20:21:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。