Fugu-MT 論文翻訳(概要): Asymmetric 3D Context Fusion for Universal Lesion Detection

論文の概要: Asymmetric 3D Context Fusion for Universal Lesion Detection

arxiv url: http://arxiv.org/abs/2109.08684v1
Date: Fri, 17 Sep 2021 16:25:10 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-24 02:52:04.869828
Title: Asymmetric 3D Context Fusion for Universal Lesion Detection
Title（参考訳）: ユニバーサル病変検出のための非対称3次元コンテキストフュージョン
Authors: Jiancheng Yang, Yi He, Kaiming Kuang, Zudi Lin, Hanspeter Pfister, Bingbing Ni
Abstract要約: 3Dネットワークは、3Dコンテキストでは強いが、教師付き事前トレーニングがない。既存の3Dコンテキスト融合演算子は空間対称に設計されており、畳み込みのように各2Dスライス上で同一の操作を行う。本研究では, 異なる重みを持つ非対称な3次元コンテキスト融合演算子 (A3D) を提案し, 異なる2次元スライスから3次元コンテキストを融合させる。
参考スコア（独自算出の注目度）: 55.61873234187917
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Modeling 3D context is essential for high-performance 3D medical image analysis. Although 2D networks benefit from large-scale 2D supervised pretraining, it is weak in capturing 3D context. 3D networks are strong in 3D context yet lack supervised pretraining. As an emerging technique, \emph{3D context fusion operator}, which enables conversion from 2D pretrained networks, leverages the advantages of both and has achieved great success. Existing 3D context fusion operators are designed to be spatially symmetric, i.e., performing identical operations on each 2D slice like convolutions. However, these operators are not truly equivariant to translation, especially when only a few 3D slices are used as inputs. In this paper, we propose a novel asymmetric 3D context fusion operator (A3D), which uses different weights to fuse 3D context from different 2D slices. Notably, A3D is NOT translation-equivariant while it significantly outperforms existing symmetric context fusion operators without introducing large computational overhead. We validate the effectiveness of the proposed method by extensive experiments on DeepLesion benchmark, a large-scale public dataset for universal lesion detection from computed tomography (CT). The proposed A3D consistently outperforms symmetric context fusion operators by considerable margins, and establishes a new \emph{state of the art} on DeepLesion. To facilitate open research, our code and model in PyTorch are available at https://github.com/M3DV/AlignShift.
Abstract（参考訳）: 高性能な3次元医用画像解析には3Dコンテキストのモデリングが不可欠である。 2Dネットワークは大規模2D教師付き事前学習の恩恵を受けるが、3Dコンテキストのキャプチャには弱い。 3Dネットワークは、3Dコンテキストでは強いが、教師付き事前トレーニングがない。新たな手法として,2次元事前学習ネットワークからの変換が可能な 'emph{3D context fusion operator} が,両者の利点を活用し,大きな成功を収めた。既存の3Dコンテキスト融合演算子は、空間対称、すなわち畳み込みのように各2Dスライス上で同一の操作を行うように設計されている。しかし、これらの演算子は、特に入力としてわずかに3Dスライスを使用する場合、翻訳と真に同値ではない。本稿では,異なる重みを使って異なる2次元スライスから3次元コンテキストを融合する,新しい非対称な3次元コンテキスト融合演算子(A3D)を提案する。特に、A3DはNOT変換同変であるが、計算オーバーヘッドを伴わずに既存の対称文脈融合演算子を著しく上回っている。我々は,CT(Computed tomography)による広汎な病変検出のための大規模パブリックデータセットであるDeepLesionベンチマークを用いて,提案手法の有効性を検証する。提案された A3D は対称文脈融合作用素をかなりのマージンで一貫して上回り、DeepLesion 上で新しい 'emph{state of the art' を確立する。オープンな研究を促進するため、PyTorchのコードとモデルはhttps://github.com/M3DV/AlignShift.comで公開されています。

関連論文リスト

Cues3D: Unleashing the Power of Sole NeRF for Consistent and Unique Instances in Open-Vocabulary 3D Panoptic Segmentation [48.231573110948]
Open-vocabulary 3D panoptic segmentationは、最近重要なトレンドとして現れている。先行連想の代わりにNeural Radiance Field(NeRF)のみに依存するコンパクトなアプローチであるCues3Dを提案する。 ScanNet v2、ScanNet200、ScanNet++、Replicaの3Dインスタンス、パノプティクス、セマンティックセグメンテーションタスクを対象に実験を行った。
論文参考訳（メタデータ） (2025-05-01T08:12:03Z)
EmbodiedSAM: Online Segment Any 3D Thing in Real Time [61.2321497708998]
身体的なタスクは、エージェントが探索と同時に3Dシーンを完全に理解する必要がある。オンライン、リアルタイム、微粒化、高度に一般化された3D知覚モデルは、必死に必要である。
論文参考訳（メタデータ） (2024-08-21T17:57:06Z)
MeshFormer: High-Quality Mesh Generation with 3D-Guided Reconstruction Model [34.245635412589806]
MeshFormerはスパースビューリコンストラクションモデルで、3Dネイティブ構造、入力ガイダンス、トレーニングインスペクションを明示的に活用する。 2次元拡散モデルと統合することで、高速な単一像から3次元およびテキストから3次元のタスクを可能にする。
論文参考訳（メタデータ） (2024-08-19T17:55:17Z)
Any2Point: Empowering Any-modality Large Models for Efficient 3D Understanding [83.63231467746598]
我々は,Any2Pointというパラメータ効率のよい大規模モデル(ビジョン,言語,音声)を3次元理解に活用する手法を紹介した。入力された3Dポイントと元の1Dまたは2D位置との相関関係を示す3D-to-any (1Dまたは2D)仮想プロジェクション戦略を提案する。
論文参考訳（メタデータ） (2024-04-11T17:59:45Z)
NDC-Scene: Boost Monocular 3D Semantic Scene Completion in Normalized Device Coordinates Space [77.6067460464962]
SSC(Monocular 3D Semantic Scene Completion)は、単一の画像から複雑なセマンティックスや幾何学的形状を予測し、3D入力を必要としないため、近年大きな注目を集めている。我々は,3次元空間に投影された2次元特徴の特徴的曖昧さ,3次元畳み込みのPose Ambiguity,深さの異なる3次元畳み込みにおける不均衡など,現在の最先端手法におけるいくつかの重要な問題を明らかにする。シーン補完ネットワーク(NDC-Scene)を考案し,2を直接拡張する。
論文参考訳（メタデータ） (2023-09-26T02:09:52Z)
3D-Aware Neural Body Fitting for Occlusion Robust 3D Human Pose Estimation [28.24765523800196]
本研究では,3次元ポーズ推定のための3次元認識型ニューラルボディフィッティング(3DNBF)を提案する。特に,3次元ポーズ依存特徴ベクトルを出力するガウス楕円体カーネルを用いた人間の体積表現に基づく深部特徴の生成モデルを提案する。ニューラル特徴は、対照的な学習で訓練され、3D認識となり、2D-3D曖昧さを克服する。
論文参考訳（メタデータ） (2023-08-19T22:41:00Z)
Act3D: 3D Feature Field Transformers for Multi-Task Robotic Manipulation [18.964403296437027]
Act3Dは、手作業に依存する適応的な解像度を持つ3D特徴体を用いて、ロボットのワークスペースを表現する。粗い方法で3Dポイントグリッドをサンプリングし、相対的な位置の注意を使ってそれらを巧みに加工し、次の点サンプリングのラウンドにフォーカスする場所を選択する。
論文参考訳（メタデータ） (2023-06-30T17:34:06Z)
3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文参考訳（メタデータ） (2021-04-06T02:22:24Z)
Exemplar Fine-Tuning for 3D Human Model Fitting Towards In-the-Wild 3D Human Pose Estimation [107.07047303858664]
3次元の地平線アノテーションを持つ大規模な人的データセットは、野生では入手が困難である。既存の2Dデータセットを高品質な3Dポーズマッチングで拡張することで、この問題に対処する。結果として得られるアノテーションは、3Dのプロシージャネットワークをスクラッチからトレーニングするのに十分である。
論文参考訳（メタデータ） (2020-04-07T20:21:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。