Fugu-MT 論文翻訳(概要): Modulate-and-Map: Crossmodal Feature Mapping with Cross-View Modulation for 3D Anomaly Detection

論文の概要: Modulate-and-Map: Crossmodal Feature Mapping with Cross-View Modulation for 3D Anomaly Detection

arxiv url: http://arxiv.org/abs/2604.02328v1
Date: Thu, 02 Apr 2026 17:59:51 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-03 14:21:10.993738
Title: Modulate-and-Map: Crossmodal Feature Mapping with Cross-View Modulation for 3D Anomaly Detection
Title（参考訳）: Modulate-and-Map:3次元異常検出のためのクロスビュー変調を用いたクロスモーダル特徴マッピング
Authors: Alex Costanzino, Pierluigi Zama Ramirez, Giuseppe Lisanti, Luigi Di Stefano,
Abstract要約: ModMapは3Dの異常検出とセグメンテーションのためのマルチビューおよびマルチモーダルフレームワークである。高解像度の3Dデータを処理するために,基礎的な深度エンコーダをトレーニングし,公開する。
参考スコア（独自算出の注目度）: 24.706105488382818
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We present ModMap, a natively multiview and multimodal framework for 3D anomaly detection and segmentation. Unlike existing methods that process views independently, our method draws inspiration from the crossmodal feature mapping paradigm to learn to map features across both modalities and views, while explicitly modelling view-dependent relationships through feature-wise modulation. We introduce a cross-view training strategy that leverages all possible view combinations, enabling effective anomaly scoring through multiview ensembling and aggregation. To process high-resolution 3D data, we train and publicly release a foundational depth encoder tailored to industrial datasets. Experiments on SiM3D, a recent benchmark that introduces the first multiview and multimodal setup for 3D anomaly detection and segmentation, demonstrate that ModMap attains state-of-the-art performance by surpassing previous methods by wide margins.
Abstract（参考訳）: 本稿では,3次元異常検出とセグメンテーションのためのネイティブなマルチビュー・マルチモーダルフレームワークModMapを提案する。ビューを独立に処理する既存の手法とは異なり、我々の手法は、モーダル性とビューの両方にまたがる特徴のマッピングを学ぶための、クロスモーダルな特徴マッピングパラダイムからインスピレーションを得ている。我々は、全ての可能なビューの組み合わせを活用するクロスビュートレーニング戦略を導入し、マルチビューアンサンブルとアグリゲーションによる効果的なアノマリースコアを可能にする。高解像度の3Dデータを処理するために、産業データセットに適した基礎的な深度エンコーダをトレーニングし、公開します。 3次元異常検出とセグメンテーションのための最初のマルチビューとマルチモーダルセットアップを導入した最近のベンチマークであるSiM3Dの実験では、ModMapが従来の手法を広いマージンで超えて最先端のパフォーマンスを達成したことが示されている。

関連論文リスト

SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [79.58755811919366]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文参考訳（メタデータ） (2024-12-30T02:47:51Z)
Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文参考訳（メタデータ） (2024-04-11T03:00:00Z)
A Simple Baseline for Supervised Surround-view Depth Estimation [25.81521612343612]
本稿では,S3Depthを提案する。我々はCNNとトランスフォーマー層を組み合わせたグローバル・ローカルな特徴抽出モジュールを用いて表現を豊かにする。本手法は,既存のDDADおよびnuScenesデータセット上での最先端手法よりも優れた性能を実現する。
論文参考訳（メタデータ） (2023-03-14T10:06:19Z)
MVTN: Learning Multi-View Transformations for 3D Understanding [60.15214023270087]
本稿では,3次元形状認識のための最適視点を決定するために,可変レンダリングを用いたマルチビュー変換ネットワーク(MVTN)を提案する。 MVTNは3次元形状認識のためのマルチビューネットワークでエンドツーエンドに訓練することができる。提案手法は,複数のベンチマークによる3次元分類と形状検索における最先端性能を示す。
論文参考訳（メタデータ） (2022-12-27T12:09:16Z)
M3DeTR: Multi-representation, Multi-scale, Mutual-relation 3D Object Detection with Transformers [78.48081972698888]
M3DeTRは、マルチスケールのフィーチャーピラミッドに基づいて、異なるポイントクラウド表現と異なる機能スケールを組み合わせたものです。 M3DeTRは、複数のポイントクラウド表現、機能スケール、およびトランスを使用してポイントクラウド間の相互関係を同時にモデル化する最初のアプローチです。
論文参考訳（メタデータ） (2021-04-24T06:48:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。