Fugu-MT 論文翻訳(概要): Weak-to-Strong 3D Object Detection with X-Ray Distillation

論文の概要: Weak-to-Strong 3D Object Detection with X-Ray Distillation

arxiv url: http://arxiv.org/abs/2404.00679v1
Date: Sun, 31 Mar 2024 13:09:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-04 02:20:51.095585
Title: Weak-to-Strong 3D Object Detection with X-Ray Distillation
Title（参考訳）: X線蒸留によるWak-to-Strong 3Dオブジェクト検出
Authors: Alexander Gambashidze, Aleksandr Dadukin, Maksim Golyadkin, Maria Razzhivina, Ilya Makarov,
Abstract要約: 本稿では,既存の任意の3Dオブジェクト検出フレームワークにシームレスに統合する多目的手法を提案する。オブジェクト・コンプリートフレームを用いたX線蒸留は、教師付き設定と半教師付き設定の両方に適している。提案手法は,半教師あり学習における最先端の手法を1-1.5mAPで超越する。
参考スコア（独自算出の注目度）: 75.47580744933724
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper addresses the critical challenges of sparsity and occlusion in LiDAR-based 3D object detection. Current methods often rely on supplementary modules or specific architectural designs, potentially limiting their applicability to new and evolving architectures. To our knowledge, we are the first to propose a versatile technique that seamlessly integrates into any existing framework for 3D Object Detection, marking the first instance of Weak-to-Strong generalization in 3D computer vision. We introduce a novel framework, X-Ray Distillation with Object-Complete Frames, suitable for both supervised and semi-supervised settings, that leverages the temporal aspect of point cloud sequences. This method extracts crucial information from both previous and subsequent LiDAR frames, creating Object-Complete frames that represent objects from multiple viewpoints, thus addressing occlusion and sparsity. Given the limitation of not being able to generate Object-Complete frames during online inference, we utilize Knowledge Distillation within a Teacher-Student framework. This technique encourages the strong Student model to emulate the behavior of the weaker Teacher, which processes simple and informative Object-Complete frames, effectively offering a comprehensive view of objects as if seen through X-ray vision. Our proposed methods surpass state-of-the-art in semi-supervised learning by 1-1.5 mAP and enhance the performance of five established supervised models by 1-2 mAP on standard autonomous driving datasets, even with default hyperparameters. Code for Object-Complete frames is available here: https://github.com/sakharok13/X-Ray-Teacher-Patching-Tools.
Abstract（参考訳）: 本稿では,LiDARを用いた3次元物体検出における空間性および閉塞性の重要な課題について論じる。現在の手法は、しばしば補足モジュールや特定のアーキテクチャ設計に依存しており、新しい進化するアーキテクチャに適用性を制限する可能性がある。我々の知る限り、我々は3DコンピュータビジョンにおけるWak-to-Strong一般化の最初の例である3Dオブジェクト検出のための既存のフレームワークにシームレスに統合する汎用的手法を最初に提案した。我々は, 点群列の時間的側面を活かした, 教師付きおよび半教師付き設定に適した, オブジェクト・コンプリートフレームによるX線蒸留という新しいフレームワークを導入する。本手法は,複数視点からオブジェクトを表すオブジェクト・コンプリート・フレームを作成することにより,従来およびその後のLiDARフレームから重要な情報を抽出する。オンライン推論中にオブジェクト・コンプリート・フレームを生成できないことの制限を考えると、教師・学生フレームワーク内で知識蒸留を利用する。この手法は, 学生モデルに対して, 単純で情報に富むオブジェクト・コンプリート・フレームを処理する弱い教師の行動のエミュレートを奨励し, オブジェクトの総合的なビューを, まるでX線で見るかのように効果的に提供する。提案手法は, 半教師付き学習において, 1-1.5 mAP を超越し, 標準の自律運転データセット上での 5 つの教師付きモデルの性能を 1-2 mAP で向上させる。 Object-Complete フレームのコードは https://github.com/sakharok13/X-Ray-Teacher-Patching-Tools で公開されている。

関連論文リスト

Refine Any Object in Any Scene [39.109559659959]
Refine Any Object In Any ScenE (RAISE) は、細粒度オブジェクトの形状と外観を失くしたビューで復元する新しい3D拡張フレームワークである。 RAISEは、各プロキシを7-DOFのポーズで劣化したプロキシにアライメントすることで、幾何やテクスチャを徐々に洗練する。挑戦的なベンチマーク実験により、RAISEは新しいビュー合成と幾何完成タスクの両方において最先端の手法を著しく上回っていることが示された。
論文参考訳（メタデータ） (2025-06-30T13:26:21Z)
Object-X: Learning to Reconstruct Multi-Modal 3D Object Representations [112.29763628638112]
Object-Xは多目的なマルチモーダル3D表現フレームワークである。リッチなオブジェクトの埋め込みをエンコードして、幾何学的および視覚的再構成に復号することができる。シーンアライメント、シングルイメージの3Dオブジェクト再構成、ローカライゼーションなど、さまざまなダウンストリームタスクをサポートする。
論文参考訳（メタデータ） (2025-06-05T09:14:42Z)
HiScene: Creating Hierarchical 3D Scenes with Isometric View Generation [50.206100327643284]
HiSceneは、2D画像生成と3Dオブジェクト生成のギャップを埋める新しい階層的なフレームワークである。構成構造を維持しながら2次元表現に整合した3次元コンテンツを生成する。
論文参考訳（メタデータ） (2025-04-17T16:33:39Z)
From Dataset to Real-world: General 3D Object Detection via Generalized Cross-domain Few-shot Learning [13.282416396765392]
本稿では,3次元オブジェクト検出においてGCFS(Generalized Cross-domain few-shot)タスクを導入する。本ソリューションでは,マルチモーダル融合とコントラスト強化型プロトタイプ学習を1つのフレームワークに統合する。限定対象データから各クラスに対するドメイン固有表現を効果的に捉えるために,コントラスト強化型プロトタイプ学習を提案する。
論文参考訳（メタデータ） (2025-03-08T17:05:21Z)
Object-Aware Video Matting with Cross-Frame Guidance [35.785998735049006]
我々は、異なるオブジェクトを知覚し、前景オブジェクトの協調認識とエッジ詳細の洗練を可能にする、トリマップフリーなオブジェクト認識ビデオマッチング(OAVM)フレームワークを提案する。具体的には,OGCR(Object-Guided Correction and Refinement)モジュールを提案する。また、逐次シナリオを多様化し、オブジェクト識別のためのネットワークの容量を高めるために、逐次フォアグラウンドマージ拡張戦略を設計する。
論文参考訳（メタデータ） (2025-03-03T07:40:32Z)
PointCG: Self-supervised Point Cloud Learning via Joint Completion and Generation [32.04698431036215]
本稿では,マスク付きポイントモデリング(MPM)と3D-to-2D生成という2つの一般的な手法を,事前学習フレームワーク内にプリテキストタスクとして統合する。我々はこれらの2つの手法によって提供される空間的認識と精密な監督を活用して、それぞれの限界に対処する。
論文参考訳（メタデータ） (2024-11-09T02:38:29Z)
Scaling Multi-Camera 3D Object Detection through Weak-to-Strong Eliciting [32.66151412557986]
本研究では,頑健な単分子知覚を維持しつつ,サラウンドリファインメントの強化を目的とした弱強誘引フレームワークを提案する。我々のフレームワークは、異なるサブセットで訓練された弱い調整された専門家を採用しており、それぞれが固有のカメラ構成やシナリオに偏っている。 MC3D-Detジョイントトレーニングでは、不整合カメラ数とカメラパラメータの問題を解決するために、詳細なデータセットマージ戦略が設計されている。
論文参考訳（メタデータ） (2024-04-10T03:11:10Z)
AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。 3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文参考訳（メタデータ） (2023-07-07T17:59:14Z)
NeurOCS: Neural NOCS Supervision for Monocular 3D Object Localization [80.3424839706698]
入力として3Dボックスをインスタンスマスクとして使用するNeurOCSを提案する。われわれのアプローチは、実際の運転シーンから直接カテゴリレベルの形状を学習する際の洞察に依存している。我々は、オブジェクト中心の視点からオブジェクト座標をより効果的に学習するための重要な設計選択を行う。
論文参考訳（メタデータ） (2023-05-28T16:18:41Z)
AOP-Net: All-in-One Perception Network for Joint LiDAR-based 3D Object Detection and Panoptic Segmentation [9.513467995188634]
AOP-NetはLiDARベースのマルチタスクフレームワークで、3Dオブジェクトの検出とパノプティクスのセグメンテーションを組み合わせたものである。 AOP-Netは、nuScenesベンチマークにおける3Dオブジェクト検出とパノプティクスセグメンテーションの両タスクについて、最先端のパフォーマンスを達成している。
論文参考訳（メタデータ） (2023-02-02T05:31:53Z)
CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。 3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文参考訳（メタデータ） (2022-09-13T05:26:09Z)
A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文参考訳（メタデータ） (2022-08-22T03:38:01Z)
Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文参考訳（メタデータ） (2022-03-06T13:57:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。