論文の概要: SOP^2: Transfer Learning with Scene-Oriented Prompt Pool on 3D Object Detection
- arxiv url: http://arxiv.org/abs/2512.08223v1
- Date: Tue, 09 Dec 2025 04:02:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.803413
- Title: SOP^2: Transfer Learning with Scene-Oriented Prompt Pool on 3D Object Detection
- Title(参考訳): SOP^2:3次元物体検出におけるシーン指向型プロンプトプールを用いた伝達学習
- Authors: Ching-Hung Cheng, Hsiu-Fu Wu, Bing-Chen Wu, Khanh-Phong Bui, Van-Tin Luu, Ching-Chun Huang,
- Abstract要約: 本稿では,3次元物体検出における共通プロンプトチューニング手法の有効性について検討する。
大規模データセットでトレーニングされたモデルが基礎モデルとして機能し、3次元オブジェクト検出フィールド内の他のシナリオに適応できるかどうかを検討する。
我々は,3次元物体検出におけるプロンプトプールの有効性を実証し,将来の研究者に3次元領域におけるプロンプトの可能性を深く掘り下げることを目的としている。
- 参考スコア(独自算出の注目度): 6.573592578335496
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With the rise of Large Language Models (LLMs) such as GPT-3, these models exhibit strong generalization capabilities. Through transfer learning techniques such as fine-tuning and prompt tuning, they can be adapted to various downstream tasks with minimal parameter adjustments. This approach is particularly common in the field of Natural Language Processing (NLP). This paper aims to explore the effectiveness of common prompt tuning methods in 3D object detection. We investigate whether a model trained on the large-scale Waymo dataset can serve as a foundation model and adapt to other scenarios within the 3D object detection field. This paper sequentially examines the impact of prompt tokens and prompt generators, and further proposes a Scene-Oriented Prompt Pool (\textbf{SOP$^2$}). We demonstrate the effectiveness of prompt pools in 3D object detection, with the goal of inspiring future researchers to delve deeper into the potential of prompts in the 3D field.
- Abstract(参考訳): GPT-3のような大規模言語モデル(LLM)の台頭により、これらのモデルは強力な一般化能力を示す。
ファインチューニングやプロンプトチューニングのような伝達学習技術により、パラメータ調整を最小限に抑えた様々な下流タスクに適応することができる。
このアプローチは自然言語処理(NLP)の分野では特に一般的である。
本稿では,3次元物体検出における共通プロンプトチューニング手法の有効性について検討する。
大規模なWaymoデータセットでトレーニングされたモデルが基礎モデルとして機能し、3Dオブジェクト検出フィールド内の他のシナリオに適応できるかどうかを検討する。
本稿では,プロンプトトークンとプロンプトジェネレータの影響を順次検討し,さらにScene-Oriented Prompt Pool (\textbf{SOP$^2$})を提案する。
我々は,3次元物体検出におけるプロンプトプールの有効性を実証し,将来の研究者に3次元領域におけるプロンプトの可能性を深く掘り下げることを目的としている。
関連論文リスト
- 3D-AffordanceLLM: Harnessing Large Language Models for Open-Vocabulary Affordance Detection in 3D Worlds [81.14476072159049]
3D Affordance Detectionは、様々なロボットタスクの幅広い応用において難しい問題である。
我々は従来の割当検出パラダイムをテキスト推論改善(IRAS)タスクに再構成する。
本研究では,3次元オープンシーンにおけるアベイランス検出のためのフレームワークである3D-ADLLMを提案する。
論文 参考訳(メタデータ) (2025-02-27T12:29:44Z) - S$^3$-MonoDETR: Supervised Shape&Scale-perceptive Deformable Transformer for Monocular 3D Object Detection [21.96072831561483]
本稿では,モノクロ3次元物体検出のためのSupervised Shape&Scale-perceptive Deformable Attention' (S$3$-DA) モジュールを提案する。
これにより、S$3$-DAは、任意のカテゴリに属するクエリポイントに対する受容的フィールドを効果的に推定し、堅牢なクエリ機能を生成することができる。
KITTIとOpenデータセットの実験では、S$3$-DAが検出精度を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-09-02T12:36:38Z) - Learning Object-level Point Augmentor for Semi-supervised 3D Object
Detection [85.170578641966]
半教師付き3次元オブジェクト検出のための局所変換を行うオブジェクトレベルポイント拡張器(OPA)を提案する。
このようにして、結果のオーグメンタは、無関係なバックグラウンドではなく、オブジェクトインスタンスを強調するように導出されます。
ScanNetとSUN RGB-Dデータセットの実験は、提案したOPAが最先端の手法に対して好適に動作することを示している。
論文 参考訳(メタデータ) (2022-12-19T06:56:14Z) - The Devil is in the Task: Exploiting Reciprocal Appearance-Localization
Features for Monocular 3D Object Detection [62.1185839286255]
低コストのモノクル3D物体検出は、自律運転において基本的な役割を果たす。
DFR-Netという動的特徴反射ネットワークを導入する。
我々は、KITTIテストセットの全ての単分子3D物体検出器の中で、第1位にランク付けする。
論文 参考訳(メタデータ) (2021-12-28T07:31:18Z) - Semi-supervised 3D Object Detection via Adaptive Pseudo-Labeling [18.209409027211404]
3次元物体検出はコンピュータビジョンにおいて重要な課題である。
既存のほとんどのメソッドでは、多くの高品質な3Dアノテーションが必要です。
本研究では,屋外3次元物体検出タスクのための擬似ラベルに基づく新しい半教師付きフレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-15T02:58:43Z) - Aug3D-RPN: Improving Monocular 3D Object Detection by Synthetic Images
with Virtual Depth [64.29043589521308]
仮想深度で画像を合成することでトレーニングデータを増強するレンダリングモジュールを提案する。
レンダリングモジュールは、RGB画像と対応するスパース深度画像とを入力として、さまざまなフォトリアリスティック合成画像を出力する。
さらに,深度推定タスクを通じて共同で最適化することで,検出モデルを改善する補助モジュールを導入する。
論文 参考訳(メタデータ) (2021-07-28T11:00:47Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - 3D Object Detection on Point Clouds using Local Ground-aware and
Adaptive Representation of scenes' surface [1.9336815376402714]
新規で適応的な地上認識と費用対効果の高い3次元物体検出パイプラインを提案する。
2段Lidar物体検出パイプラインにおける最先端3次元物体検出性能について提案する。
論文 参考訳(メタデータ) (2020-02-02T05:42:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。