Fugu-MT 論文翻訳(概要): xMOD: Cross-Modal Distillation for 2D/3D Multi-Object Discovery from 2D motion

論文の概要: xMOD: Cross-Modal Distillation for 2D/3D Multi-Object Discovery from 2D motion

arxiv url: http://arxiv.org/abs/2503.15022v1
Date: Wed, 19 Mar 2025 09:20:35 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-20 17:45:40.917393
Title: xMOD: Cross-Modal Distillation for 2D/3D Multi-Object Discovery from 2D motion
Title（参考訳）: xMOD:2次元運動による2次元・3次元多物体発見のためのクロスモーダル蒸留
Authors: Saad Lahlali, Sandra Kara, Hejer Ammar, Florian Chabot, Nicolas Granger, Hervé Le Borgne, Quoc-Cuong Pham,
Abstract要約: DIOD-3Dは2Dモーションを用いた3Dデータにおけるマルチオブジェクト発見のための最初のベースラインである。 xMODは、常に2Dモーションキューを使用しながら、2Dと3Dデータを統合したクロスプラットフォームのトレーニングフレームワークである。提案手法は,全データセットの2次元オブジェクト発見状態と比較すると,大幅な性能向上をもたらす。
参考スコア（独自算出の注目度）: 4.878192303432336
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Object discovery, which refers to the task of localizing objects without human annotations, has gained significant attention in 2D image analysis. However, despite this growing interest, it remains under-explored in 3D data, where approaches rely exclusively on 3D motion, despite its several challenges. In this paper, we present a novel framework that leverages advances in 2D object discovery which are based on 2D motion to exploit the advantages of such motion cues being more flexible and generalizable and to bridge the gap between 2D and 3D modalities. Our primary contributions are twofold: (i) we introduce DIOD-3D, the first baseline for multi-object discovery in 3D data using 2D motion, incorporating scene completion as an auxiliary task to enable dense object localization from sparse input data; (ii) we develop xMOD, a cross-modal training framework that integrates 2D and 3D data while always using 2D motion cues. xMOD employs a teacher-student training paradigm across the two modalities to mitigate confirmation bias by leveraging the domain gap. During inference, the model supports both RGB-only and point cloud-only inputs. Additionally, we propose a late-fusion technique tailored to our pipeline that further enhances performance when both modalities are available at inference. We evaluate our approach extensively on synthetic (TRIP-PD) and challenging real-world datasets (KITTI and Waymo). Notably, our approach yields a substantial performance improvement compared with the 2D object discovery state-of-the-art on all datasets with gains ranging from +8.7 to +15.1 in F1@50 score. The code is available at https://github.com/CEA-LIST/xMOD
Abstract（参考訳）: 人間のアノテーションを使わずにオブジェクトをローカライズする作業を指すオブジェクト発見は,2次元画像解析において大きな注目を集めている。しかし、この関心が高まっているにもかかわらず、アプローチはいくつかの課題にもかかわらず、3Dモーションにのみ依存する3Dデータでは未探索のままである。本稿では,2次元運動に基づく2次元物体発見の進歩を活用し,より柔軟で一般化可能な動きキューの利点を活用し,2次元と3次元のモダリティのギャップを埋める新しい枠組みを提案する。私たちの主な貢献は2つあります。 (i)2次元モーションを用いた3次元データにおける多目的探索のための最初のベースラインであるDIOD-3Dを導入し、シーン補完を補助タスクとして組み込むことにより、スパース入力データから高密度物体の局所化を可能にする。 i) xMOD は2D と 3D のデータを常に2D のモーションキューを使用しながら統合するクロスモーダル・トレーニング・フレームワークである。 xMODは、ドメインギャップを活用することで、確認バイアスを軽減するために、2つのモードにまたがる教師と学生のトレーニングパラダイムを採用している。推論の間、モデルはRGBのみの入力とポイントクラウドのみの入力の両方をサポートする。さらに,パイプラインに合わせた遅延融合手法を提案し,両方のモードが推論で利用可能になった場合のパフォーマンスをさらに向上させる。我々は,合成(TRIP-PD)と実世界のデータセット(KITTI,Waymo)を広範囲に評価した。特に,本手法は,F1@50スコアにおいて,+8.7から+15.1のゲインを持つ全データセットの2次元オブジェクト発見状態と比較して,大幅な性能向上をもたらす。コードはhttps://github.com/CEA-LIST/xMODで入手できる。

関連論文リスト

DINO in the Room: Leveraging 2D Foundation Models for 3D Segmentation [51.43837087865105]
大規模な画像データセットに基づいてトレーニングされた視覚基礎モデル(VFM)は、非常に高度な2D視覚認識を備えた高品質な機能を提供する。 3D画像と3Dポイントクラウドデータセットの共通利用にもかかわらず、彼らの3Dビジョンのポテンシャルは依然としてほとんど未解決のままである。 2Dファンデーションモデルの特徴を抽出し,それを3Dに投影し,最終的に3Dポイントクラウドセグメンテーションモデルに注入する,シンプルで効果的なアプローチであるDITRを導入する。
論文参考訳（メタデータ） (2025-03-24T17:59:11Z)
Unifying 2D and 3D Vision-Language Understanding [85.84054120018625]
2次元および3次元視覚言語学習のための統一アーキテクチャUniVLGを紹介する。 UniVLGは、既存の2D中心モデルと、エンボディシステムで利用可能なリッチな3Dセンサーデータのギャップを埋める。
論文参考訳（メタデータ） (2025-03-13T17:56:22Z)
Mocap-2-to-3: Lifting 2D Diffusion-Based Pretrained Models for 3D Motion Capture [31.82852393452607]
Mocap-2-to-3は複雑な3D動作を2Dポーズに分解する新しいフレームワークである。我々は2次元データを活用し,多様なシナリオにおける3次元運動再構成を向上する。実世界のデータセット上でのモデルの性能を評価する。
論文参考訳（メタデータ） (2025-03-05T06:32:49Z)
GEAL: Generalizable 3D Affordance Learning with Cross-Modal Consistency [50.11520458252128]
既存の3Dアベイランス学習手法は、注釈付きデータに制限があるため、一般化と堅牢性に苦慮している。本稿では,大規模事前学習型2Dモデルを活用することで,3次元アベイランス学習の一般化と堅牢性を高めるための新しいフレームワークであるGEALを提案する。 GEALは、既存のメソッドと、新しいオブジェクトカテゴリ、および破損したデータにおいて、一貫して優れています。
論文参考訳（メタデータ） (2024-12-12T17:59:03Z)
Zero-Shot Dual-Path Integration Framework for Open-Vocabulary 3D Instance Segmentation [19.2297264550686]
Open-vocabulary 3Dのインスタンスセグメンテーションは、従来のクローズドボキャブラリーメソッドを超越する。我々は、Zero-Shot Dual-Path Integration Frameworkを導入し、3Dと2Dの両方のモダリティの貢献を等しく評価する。筆者らのフレームワークは,ゼロショット方式で事前学習したモデルを利用しており,モデル非依存であり,目に見えるデータと目に見えないデータの両方において優れた性能を示す。
論文参考訳（メタデータ） (2024-08-16T07:52:00Z)
Unleash the Potential of Image Branch for Cross-modal 3D Object Detection [67.94357336206136]
画像分岐のポテンシャルを2つの側面から解き放つことを目的として,新しい3Dオブジェクト検出器UPIDetを提案する。まず、UPIDetは正規化された局所座標写像推定と呼ばれる新しい2次元補助タスクを導入する。第2に,イメージブランチのトレーニング目標から逆転する勾配によって,ポイントクラウドバックボーンの表現能力を向上できることを見出した。
論文参考訳（メタデータ） (2023-01-22T08:26:58Z)
Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文参考訳（メタデータ） (2022-04-02T03:48:03Z)
Multi-Modality Task Cascade for 3D Object Detection [22.131228757850373]
多くの手法は2つのモデルを個別に訓練し、単純な特徴結合を用いて3Dセンサーデータを表現している。本稿では,3次元ボックスの提案を利用して2次元セグメンテーション予測を改善する新しいマルチモードタスクカスケードネットワーク(MTC-RCNN)を提案する。 2段階の3次元モジュール間の2次元ネットワークを組み込むことで,2次元および3次元のタスク性能が大幅に向上することを示す。
論文参考訳（メタデータ） (2021-07-08T17:55:01Z)
FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection [78.00922683083776]
一般的な2D検出器をこの3Dタスクで動作させることは簡単ではない。本報告では,完全畳み込み型単段検出器を用いた手法を用いてこの問題を考察する。私たちのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジのすべてのビジョンのみの方法の中で1位を獲得します。
論文参考訳（メタデータ） (2021-04-22T09:35:35Z)
3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文参考訳（メタデータ） (2021-04-06T02:22:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。