論文の概要: Few-Shot Learning in Video and 3D Object Detection: A Survey
- arxiv url: http://arxiv.org/abs/2507.17079v1
- Date: Tue, 22 Jul 2025 23:37:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:14.804249
- Title: Few-Shot Learning in Video and 3D Object Detection: A Survey
- Title(参考訳): 映像と3次元物体検出におけるショットの学習
- Authors: Md Meftahul Ferdaus, Kendall N. Niles, Joe Tom, Mahdi Abdelguerfi, Elias Ioup,
- Abstract要約: 少ないショット学習により、オブジェクト検出モデルでは、いくつかの例でのみ与えられた新しいクラスを認識できる。
少ない3D検出により、コストのかかる3Dアノテーションの必要性を最小限に抑えることで、実用的な自動運転の展開が可能になる。
- 参考スコア(独自算出の注目度): 1.8507330561392012
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Few-shot learning (FSL) enables object detection models to recognize novel classes given only a few annotated examples, thereby reducing expensive manual data labeling. This survey examines recent FSL advances for video and 3D object detection. For video, FSL is especially valuable since annotating objects across frames is more laborious than for static images. By propagating information across frames, techniques like tube proposals and temporal matching networks can detect new classes from a couple examples, efficiently leveraging spatiotemporal structure. FSL for 3D detection from LiDAR or depth data faces challenges like sparsity and lack of texture. Solutions integrate FSL with specialized point cloud networks and losses tailored for class imbalance. Few-shot 3D detection enables practical autonomous driving deployment by minimizing costly 3D annotation needs. Core issues in both domains include balancing generalization and overfitting, integrating prototype matching, and handling data modality properties. In summary, FSL shows promise for reducing annotation requirements and enabling real-world video, 3D, and other applications by efficiently leveraging information across feature, temporal, and data modalities. By comprehensively surveying recent advancements, this paper illuminates FSL's potential to minimize supervision needs and enable deployment across video, 3D, and other real-world applications.
- Abstract(参考訳): FSL (Few-shot Learning) は、オブジェクト検出モデルにおいて、いくつかの注釈付き例にのみ付与された新しいクラスを認識できるため、高価な手動データラベリングを削減できる。
本調査では,映像・3次元物体検出における最近のFSLの進歩について検討する。
ビデオの場合、FSLは静的画像よりも、フレームをまたいだオブジェクトのアノテートがより困難であるため、特に価値がある。
フレーム間で情報を伝達することにより、管の提案や時間的マッチングネットワークのような技術は、いくつかの例から新しいクラスを検出し、時空間構造を効率的に活用することができる。
LiDARや深度データからの3D検出のためのFSLは、空間性やテクスチャの欠如といった課題に直面している。
ソリューションは、FSLを専門のポイントクラウドネットワークと統合し、クラス不均衡に適した損失を発生させる。
少ない3D検出により、コストのかかる3Dアノテーションの必要性を最小限に抑えることで、実用的な自動運転の展開が可能になる。
両方のドメインの主な課題は、一般化とオーバーフィッティングのバランス、プロトタイプマッチングの統合、データモダリティ特性の処理である。
要約すると、FSLは、機能、時間、データモダリティにまたがる情報を効率的に活用することで、アノテーションの要件を減らし、現実世界のビデオ、3D、その他のアプリケーションを可能にすることを約束している。
近年の進歩を包括的に調査することで、FSLが監視ニーズを最小限に抑え、ビデオや3D、その他の実世界のアプリケーションへのデプロイを可能にする可能性を照らしている。
関連論文リスト
- PLOT: Pseudo-Labeling via Video Object Tracking for Scalable Monocular 3D Object Detection [35.524943073010675]
モノクロ3Dオブジェクト検出(M3OD)は、高アノテーションコストと固有の2Dから3Dの曖昧さに起因するデータの不足により、長年にわたって課題に直面してきた。
ビデオデータのみを使用し、マルチビュー設定、追加センサー、カメラポーズ、ドメイン固有のトレーニングを必要とせず、より堅牢な疑似ラベルフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-03T07:46:39Z) - PSA-SSL: Pose and Size-aware Self-Supervised Learning on LiDAR Point Clouds [8.645078288584305]
PSA-SSLは,オブジェクトのポーズやサイズを認識した特徴を学習するクラウドSSLの新たな拡張である。
提案手法は,3次元セマンティックセグメンテーションと3次元オブジェクト検出において,最先端のSSL手法よりも優れている。
論文 参考訳(メタデータ) (2025-03-18T05:17:06Z) - ZeroKey: Point-Level Reasoning and Zero-Shot 3D Keypoint Detection from Large Language Models [57.57832348655715]
3次元形状のキーポイント検出のための新しいゼロショット手法を提案する。
提案手法は,マルチモーダル大規模言語モデルに埋め込まれた豊富な知識を利用する。
論文 参考訳(メタデータ) (2024-12-09T08:31:57Z) - FILP-3D: Enhancing 3D Few-shot Class-incremental Learning with Pre-trained Vision-Language Models [59.13757801286343]
クラス増分学習(class-incremental learning)は、モデルが限られたデータで漸進的にトレーニングされている場合、破滅的な忘れの問題を軽減することを目的としている。
本稿では,特徴空間の不整合のための冗長特徴除去器 (RFE) と,重要な雑音に対する空間ノイズ補償器 (SNC) の2つの新しいコンポーネントを備えたFILP-3Dフレームワークを紹介する。
論文 参考訳(メタデータ) (2023-12-28T14:52:07Z) - Hierarchical Supervision and Shuffle Data Augmentation for 3D
Semi-Supervised Object Detection [90.32180043449263]
最先端の3Dオブジェクト検出器は通常、高品質な3Dアノテーションを備えた大規模データセットで訓練される。
自然な治療法は、限られた量のラベル付きサンプルと豊富なラベル付きサンプルを活用することで、半教師付き学習(SSL)を採用することである。
本稿では,HSSDA(Hierarchical Supervision and Shuffle Data Augmentation)の新たなアプローチを提案する。
論文 参考訳(メタデータ) (2023-04-04T02:09:32Z) - Prompt-guided Scene Generation for 3D Zero-Shot Learning [8.658191774247944]
本稿では,ネットワークをよりよく学習するための3Dデータを増やすために,プロンプト誘導型3Dシーン生成と監視手法を提案する。
まず、2つの3Dモデルの点雲を、プロンプトによって記述された特定の方法でマージする。
我々は、合成(ModelNet40, ModelNet10)および実走査(ScanOjbectNN)3Dオブジェクトデータセット上で、最先端のZSLと一般化されたZSL性能を実現した。
論文 参考訳(メタデータ) (2022-09-29T11:24:33Z) - Exploring Diversity-based Active Learning for 3D Object Detection in Autonomous Driving [45.405303803618]
多様性に基づくアクティブラーニング(AL)を,アノテーションの負担を軽減するための潜在的解決策として検討する。
選択したサンプルの空間的・時間的多様性を強制する新しい取得関数を提案する。
提案手法がnuScenesデータセットに与える影響を実証し,既存のAL戦略を著しく上回ることを示す。
論文 参考訳(メタデータ) (2022-05-16T14:21:30Z) - Open-Set Semi-Supervised Learning for 3D Point Cloud Understanding [62.17020485045456]
半教師付き学習(SSL)では、ラベル付きデータと同じ分布からラベル付きデータが引き出されることが一般的である。
サンプル重み付けによりラベルなしデータを選択的に活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T16:09:17Z) - Improving Point Cloud Semantic Segmentation by Learning 3D Object
Detection [102.62963605429508]
ポイントクラウドセマンティックセグメンテーションは、自動運転において重要な役割を果たす。
現在の3Dセマンティックセグメンテーションネットワークは、よく表現されたクラスに対して優れた性能を発揮する畳み込みアーキテクチャに焦点を当てている。
Aware 3D Semantic Detection (DASS) フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-22T14:17:40Z) - D3Feat: Joint Learning of Dense Detection and Description of 3D Local
Features [51.04841465193678]
私たちは3Dポイントクラウドに3D完全畳み込みネットワークを活用しています。
本稿では,3次元点ごとに検出スコアと記述特徴の両方を密に予測する,新しい,実践的な学習機構を提案する。
本手法は,屋内と屋外の両方のシナリオで最先端の手法を実現する。
論文 参考訳(メタデータ) (2020-03-06T12:51:09Z) - SESS: Self-Ensembling Semi-Supervised 3D Object Detection [138.80825169240302]
具体的には、ラベルのない新しい未知のデータに基づくネットワークの一般化を促進するための、徹底的な摂動スキームを設計する。
我々のSESSは、50%のラベル付きデータを用いて、最先端の完全教師付き手法と比較して、競争性能を達成している。
論文 参考訳(メタデータ) (2019-12-26T08:48:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。