Fugu-MT 論文翻訳(概要): From Dataset to Real-world: General 3D Object Detection via Generalized Cross-domain Few-shot Learning

論文の概要: From Dataset to Real-world: General 3D Object Detection via Generalized Cross-domain Few-shot Learning

arxiv url: http://arxiv.org/abs/2503.06282v1
Date: Sat, 08 Mar 2025 17:05:21 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-11 20:09:44.297695
Title: From Dataset to Real-world: General 3D Object Detection via Generalized Cross-domain Few-shot Learning
Title（参考訳）: データから実世界へ:汎用クロスドメインFew-shot Learningによる汎用3Dオブジェクト検出
Authors: Shuangzhi Li, Junlong Shen, Lei Ma, Xingyu Li,
Abstract要約: 本稿では,3次元オブジェクト検出においてGCFS(Generalized Cross-domain few-shot)タスクを導入する。本ソリューションでは,マルチモーダル融合とコントラスト強化型プロトタイプ学習を1つのフレームワークに統合する。限定対象データから各クラスに対するドメイン固有表現を効果的に捉えるために,コントラスト強化型プロトタイプ学習を提案する。
参考スコア（独自算出の注目度）: 13.282416396765392
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: LiDAR-based 3D object detection datasets have been pivotal for autonomous driving, yet they cover a limited range of objects, restricting the model's generalization across diverse deployment environments. To address this, we introduce the first generalized cross-domain few-shot (GCFS) task in 3D object detection, which focuses on adapting a source-pretrained model for high performance on both common and novel classes in a target domain with few-shot samples. Our solution integrates multi-modal fusion and contrastive-enhanced prototype learning within one framework, holistically overcoming challenges related to data scarcity and domain adaptation in the GCFS setting. The multi-modal fusion module utilizes 2D vision-language models to extract rich, open-set semantic knowledge. To address biases in point distributions across varying structural complexities, we particularly introduce a physically-aware box searching strategy that leverages laser imaging principles to generate high-quality 3D box proposals from 2D insights, enhancing object recall. To effectively capture domain-specific representations for each class from limited target data, we further propose a contrastive-enhanced prototype learning, which strengthens the model's adaptability. We evaluate our approach with three GCFS benchmark settings, and extensive experiments demonstrate the effectiveness of our solution for GCFS tasks. The code will be publicly available.
Abstract（参考訳）: LiDARベースの3Dオブジェクト検出データセットは、自律運転において重要なものだが、限られた範囲のオブジェクトをカバーするため、さまざまなデプロイメント環境におけるモデルの一般化が制限されている。そこで本研究では,3次元オブジェクト検出におけるGCFSタスクの汎用化について紹介する。このタスクは,対象ドメイン内の共通クラスと新規クラスの両方に対して,少ないサンプルで高パフォーマンスにソース予測モデルを適用することに焦点を当てたものだ。本ソリューションでは,GCFS設定におけるデータ不足やドメイン適応に関する課題を,一組のフレームワークで克服し,マルチモーダルフュージョンとコントラッシブ・エンハンスドプロトタイプ学習を統合した。マルチモーダル融合モジュールは2次元視覚言語モデルを用いて、リッチでオープンなセマンティック知識を抽出する。様々な構造的複雑さの点分布の偏りに対処するために、特に、レーザー画像の原理を利用して2Dインサイトから高品質な3Dボックスの提案を生成し、オブジェクトリコールを向上させる物理的に認識されたボックス探索戦略を導入する。限定された対象データから各クラスのドメイン固有表現を効果的に取得するために,モデルの適応性を高めることを目的とした,対照的に強化されたプロトタイプ学習を提案する。提案手法を3つのGCFSベンチマーク設定で評価し,GCFSタスクに対するソリューションの有効性を実験的に検証した。コードは公開されます。

関連論文リスト

IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文参考訳（メタデータ） (2025-04-09T12:36:48Z)
SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [73.49799596304418]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文参考訳（メタデータ） (2024-12-30T02:47:51Z)
One for All: Multi-Domain Joint Training for Point Cloud Based 3D Object Detection [71.78795573911512]
textbfOneDet3Dは、異なるドメイン間での3D検出に対処する汎用的なワン・ツー・オール・モデルである。本稿では、データ干渉問題に対処するため、ルーティング機構によって誘導される散乱とコンテキストにおけるドメイン認識を提案する。完全なスパース構造とアンカーフリーヘッドは、さらに大きなスケールの差のある点雲を収容する。
論文参考訳（メタデータ） (2024-11-03T14:21:56Z)
Unified Domain Generalization and Adaptation for Multi-View 3D Object Detection [14.837853049121687]
マルチビューカメラを利用した3次元物体検出は, 視覚課題における実用的, 経済的価値を実証した。典型的な教師付き学習アプローチは、目に見えない、ラベルなしのターゲットデータセットに対する満足な適応を達成する上で、課題に直面します。本稿では、これらの欠点を軽減するための実践的なソリューションとして、統一ドメイン一般化・適応(UDGA)を提案する。
論文参考訳（メタデータ） (2024-10-29T18:51:49Z)
MV2DFusion: Leveraging Modality-Specific Object Semantics for Multi-Modal 3D Detection [28.319440934322728]
MV2DFusionは、高度なクエリベースの融合機構を通じて両方の世界の強みを統合するマルチモーダル検出フレームワークである。私たちのフレームワークの柔軟性は、任意のイメージとポイントクラウドベースの検出器との統合を可能にし、その適応性と将来の進歩の可能性を示しています。
論文参考訳（メタデータ） (2024-08-12T06:46:05Z)
Multimodal 3D Object Detection on Unseen Domains [37.142470149311904]
ドメイン適応アプローチは、この問題に対処するために、テストディストリビューションから無注釈のサンプルへのアクセスを前提とします。マルチモーダル融合および3次元オブジェクト検出のための教師付きコントラスト学習フレームワークであるCLIX$text3D$を提案する。 CLIX$text3D$は、複数のデータセットシフト下での最先端のドメイン一般化性能を示す。
論文参考訳（メタデータ） (2024-04-17T21:47:45Z)
Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文参考訳（メタデータ） (2024-02-28T18:59:31Z)
Domain Generalization of 3D Object Detection by Density-Resampling [14.510085711178217]
ポイントクラウドベースの3Dオブジェクト検出は、新しいドメインギャップを持つデータに遭遇する際のパフォーマンス劣化に悩まされる。対象領域に対する3次元物体検出の一般化性を向上させるためのSDG法を提案する。本研究では,新しいデータ拡張手法を導入し,その方法論に新しいマルチタスク学習戦略を貢献する。
論文参考訳（メタデータ） (2023-11-17T20:01:29Z)
CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。 3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文参考訳（メタデータ） (2022-09-13T05:26:09Z)
Unsupervised Domain Adaptive 3D Detection with Multi-Level Consistency [90.71745178767203]
ディープラーニングに基づく3Dオブジェクト検出は、大規模な自律走行データセットの出現によって、前例のない成功を収めた。既存の3Dドメイン適応検出手法は、しばしばターゲットのドメインアノテーションへの事前アクセスを前提とします。我々は、ソースドメインアノテーションのみを利用する、より現実的な、教師なしの3Dドメイン適応検出について研究する。
論文参考訳（メタデータ） (2021-07-23T17:19:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。