Fugu-MT 論文翻訳(概要): SE3D: A Framework For Saliency Method Evaluation In 3D Imaging

論文の概要: SE3D: A Framework For Saliency Method Evaluation In 3D Imaging

arxiv url: http://arxiv.org/abs/2405.14584v2
Date: Sun, 4 Aug 2024 16:26:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-06 20:48:25.335590
Title: SE3D: A Framework For Saliency Method Evaluation In 3D Imaging
Title（参考訳）: SE3D: 3Dイメージングの精度評価のためのフレームワーク
Authors: Mariusz Wiśniewski, Loris Giulivi, Giacomo Boracchi,
Abstract要約: 3D畳み込みニューラルネットワーク(3D CNN)は、LIDAR、MRI、CTスキャンを処理できる。 Explainable Artificial Intelligenceの最近の進歩にもかかわらず、3D CNNの説明にはほとんど注力していない。本稿では,3次元イメージングにおけるSaliency Method EvaluationのためのフレームワークSE3Dを提案する。
参考スコア（独自算出の注目度）: 4.090991964172346
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: For more than a decade, deep learning models have been dominating in various 2D imaging tasks. Their application is now extending to 3D imaging, with 3D Convolutional Neural Networks (3D CNNs) being able to process LIDAR, MRI, and CT scans, with significant implications for fields such as autonomous driving and medical imaging. In these critical settings, explaining the model's decisions is fundamental. Despite recent advances in Explainable Artificial Intelligence, however, little effort has been devoted to explaining 3D CNNs, and many works explain these models via inadequate extensions of 2D saliency methods. A fundamental limitation to the development of 3D saliency methods is the lack of a benchmark to quantitatively assess these on 3D data. To address this issue, we propose SE3D: a framework for Saliency method Evaluation in 3D imaging. We propose modifications to ShapeNet, ScanNet, and BraTS datasets, and evaluation metrics to assess saliency methods for 3D CNNs. We evaluate both state-of-the-art saliency methods designed for 3D data and extensions of popular 2D saliency methods to 3D. Our experiments show that 3D saliency methods do not provide explanations of sufficient quality, and that there is margin for future improvements and safer applications of 3D CNNs in critical fields.
Abstract（参考訳）: 10年以上にわたって、ディープラーニングモデルは様々な2Dイメージングタスクで支配されてきた。現在、彼らのアプリケーションは3Dイメージングに拡張されており、3D畳み込みニューラルネットワーク(3D CNN)はLIDAR、MRI、CTスキャンを処理できる。これらの重要な設定では、モデルの判断を説明するのが基本です。しかし、最近のExplainable Artificial Intelligenceの進歩にもかかわらず、3D CNNの説明にはほとんど注力していない。 3Dサリエンシ法の発展に対する基本的な制限は、これらを3Dデータ上で定量的に評価するベンチマークが欠如していることである。この問題に対処するため,我々はSaliency Method EvaluationのフレームワークであるSE3Dを提案する。本研究では,ShapeNet,ScanNet,BraTSデータセットの修正と3次元CNNの精度評価のための評価指標を提案する。本研究では,3Dデータ用に設計された最先端のサージエンシ手法と,一般的な2Dサージエンシ手法を3Dに拡張した手法の評価を行った。実験の結果, 3Dサリエンシ法では十分な品質の説明が得られず, 重要な分野における3D CNNの今後の改良と安全性に限界があることが示唆された。

関連論文リスト

The Less You Depend, The More You Learn: Synthesizing Novel Views from Sparse, Unposed Images without Any 3D Knowledge [28.53942289386553]
一般化可能な新規ビュー合成(NVS)の問題を考える。 NVSは、シーンごとの最適化なしにスパースやアンポーズされた2D画像から新しいビューを生成することを目的としている。我々は,3次元誘導バイアスを最小限に抑え,入力とターゲットの両方のビューに依存性を生じさせる新しいNVSフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-11T15:57:08Z)
Does Your 3D Encoder Really Work? When Pretrain-SFT from 2D VLMs Meets 3D VLMs [72.11701578308804]
本稿では,最近の3次元視覚言語モデルを3次元オブジェクト中心,2次元イメージベース,および3次元シーン中心のアプローチに分類する。 3Dシーン中心のVLMと2Dシーン中心のVLMのアーキテクチャ的類似性にもかかわらず、最新の3Dオブジェクト中心と2Dイメージベースアプローチと比較して比較的低い性能を示した。本研究は,これらのモデルが多モードアライメント機能を有する一方で,言語的手がかりに過度に頼り,頻繁な回答に過度に適合する傾向があることを示唆している。
論文参考訳（メタデータ） (2025-06-05T17:56:12Z)
Unifying 2D and 3D Vision-Language Understanding [85.84054120018625]
2次元および3次元視覚言語学習のための統一アーキテクチャUniVLGを紹介する。 UniVLGは、既存の2D中心モデルと、エンボディシステムで利用可能なリッチな3Dセンサーデータのギャップを埋める。
論文参考訳（メタデータ） (2025-03-13T17:56:22Z)
BIP3D: Bridging 2D Images and 3D Perception for Embodied Intelligence [11.91274849875519]
画像中心の3次元知覚モデルBIP3Dを導入し,点中心の手法の限界を克服する。我々は、事前学習された2次元視覚基盤モデルを利用して意味理解を強化し、空間理解を改善するために空間拡張モジュールを導入する。我々の実験では、BIP3Dは、EmbodiedScanベンチマークで現在の最先端結果より優れており、3D検出タスクでは5.69%、視覚的グラウンドタスクでは15.25%の改善が達成されている。
論文参考訳（メタデータ） (2024-11-22T11:35:42Z)
PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。 PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文参考訳（メタデータ） (2023-10-12T17:59:57Z)
AG3D: Learning to Generate 3D Avatars from 2D Image Collections [96.28021214088746]
本稿では,2次元画像から現実的な3次元人物の新たな逆生成モデルを提案する。本手法は, 全身型3Dジェネレータを用いて, 体の形状と変形を捉える。提案手法は, 従来の3次元・調音認識手法よりも幾何的, 外観的に優れていた。
論文参考訳（メタデータ） (2023-05-03T17:56:24Z)
Super Images -- A New 2D Perspective on 3D Medical Imaging Analysis [0.0]
トレーニング中に3次元知識を効率的に埋め込んで3次元データを扱うための,シンプルで効果的な2次元手法を提案する。本手法は3次元画像にスライスを並べて超高分解能画像を生成する。 2次元ネットワークのみを利用した3次元ネットワークを実現する一方で、モデルの複雑さはおよそ3倍に減少する。
論文参考訳（メタデータ） (2022-05-05T09:59:03Z)
DRaCoN -- Differentiable Rasterization Conditioned Neural Radiance Fields for Articulated Avatars [92.37436369781692]
フルボディの体積アバターを学習するためのフレームワークであるDRaCoNを提案する。 2Dと3Dのニューラルレンダリング技術の利点を利用する。挑戦的なZJU-MoCapとHuman3.6Mデータセットの実験は、DRaCoNが最先端の手法より優れていることを示している。
論文参考訳（メタデータ） (2022-03-29T17:59:15Z)
Data Efficient 3D Learner via Knowledge Transferred from 2D Model [30.077342050473515]
我々は、RGB-D画像を介して強力な2Dモデルから知識を伝達することで、3Dタスクのデータ不足に対処する。擬似ラベルを用いたRGB-D画像の強化には,2次元画像の強いセマンティック・セマンティック・セマンティック・セマンティック・セマンティクス・モデルを用いる。提案手法は,3次元ラベルの効率向上に適した既存の最先端技術よりも優れている。
論文参考訳（メタデータ） (2022-03-16T09:14:44Z)
FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection [78.00922683083776]
一般的な2D検出器をこの3Dタスクで動作させることは簡単ではない。本報告では,完全畳み込み型単段検出器を用いた手法を用いてこの問題を考察する。私たちのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジのすべてのビジョンのみの方法の中で1位を獲得します。
論文参考訳（メタデータ） (2021-04-22T09:35:35Z)
Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。 3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文参考訳（メタデータ） (2020-08-04T13:56:19Z)
3D Self-Supervised Methods for Medical Imaging [7.65168530693281]
本稿では,プロキシタスクの形式で,5種類の自己教師型手法の3次元バージョンを提案する。提案手法は,未ラベルの3次元画像からニューラルネットワークの特徴学習を容易にし,専門家のアノテーションに必要なコストを削減することを目的としている。開発したアルゴリズムは、3D Contrastive Predictive Coding, 3D Rotation Prediction, 3D Jigsaw puzzles, Relative 3D patch location, 3D Exemplar Networkである。
論文参考訳（メタデータ） (2020-06-06T09:56:58Z)
2.75D: Boosting learning by representing 3D Medical imaging to 2D features for small data [54.223614679807994]
3D畳み込みニューラルネットワーク(CNN)は、多くのディープラーニングタスクにおいて、2D CNNよりも優れたパフォーマンスを示し始めている。 3D CNNにトランスファー学習を適用することは、パブリックにトレーニング済みの3Dモデルがないために困難である。本研究では,ボリュームデータの2次元戦略的表現,すなわち2.75Dを提案する。その結果,2次元CNNネットワークをボリューム情報学習に用いることが可能となった。
論文参考訳（メタデータ） (2020-02-11T08:24:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。