論文の概要: YOLOO: You Only Learn from Others Once
- arxiv url: http://arxiv.org/abs/2409.00618v1
- Date: Sun, 1 Sep 2024 05:09:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 13:27:03.926646
- Title: YOLOO: You Only Learn from Others Once
- Title(参考訳): YOLOO: 他者からしか学ばない
- Authors: Lipeng Gu, Mingqiang Wei, Xuefeng Yan, Dingkun Zhu, Wei Zhao, Haoran Xie, Yong-Jin Liu,
- Abstract要約: 我々は,新しいマルチモーダル3DMOTパラダイムである textbyoLOO を提案する。
YOLOOはポイントクラウドエンコーダに、ポイントクラウドや他のモダリティ(画像やテキストキューなど)から統一されたトリモーダル表現(UTR)を一度に学習する権限を与える。
特に、YOLOOは、2つのコアコンポーネント: 統一三モードエンコーダ(UTEnc)とフレキシブルな幾何学的制約(F-GC)モジュール。
- 参考スコア(独自算出の注目度): 43.46068978805732
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal 3D multi-object tracking (MOT) typically necessitates extensive computational costs of deep neural networks (DNNs) to extract multi-modal representations. In this paper, we propose an intriguing question: May we learn from multiple modalities only during training to avoid multi-modal input in the inference phase? To answer it, we propose \textbf{YOLOO}, a novel multi-modal 3D MOT paradigm: You Only Learn from Others Once. YOLOO empowers the point cloud encoder to learn a unified tri-modal representation (UTR) from point clouds and other modalities, such as images and textual cues, all at once. Leveraging this UTR, YOLOO achieves efficient tracking solely using the point cloud encoder without compromising its performance, fundamentally obviating the need for computationally intensive DNNs. Specifically, YOLOO includes two core components: a unified tri-modal encoder (UTEnc) and a flexible geometric constraint (F-GC) module. UTEnc integrates a point cloud encoder with image and text encoders adapted from pre-trained CLIP. It seamlessly fuses point cloud information with rich visual-textual knowledge from CLIP into the point cloud encoder, yielding highly discriminative UTRs that facilitate the association between trajectories and detections. Additionally, F-GC filters out mismatched associations with similar representations but significant positional discrepancies. It further enhances the robustness of UTRs without requiring any scene-specific tuning, addressing a key limitation of customized geometric constraints (e.g., 3D IoU). Lastly, high-quality 3D trajectories are generated by a traditional data association component. By integrating these advancements into a multi-modal 3D MOT scheme, our YOLOO achieves substantial gains in both robustness and efficiency.
- Abstract(参考訳): マルチモーダル3Dマルチオブジェクト追跡(MOT)は通常、マルチモーダル表現を抽出するためにディープニューラルネットワーク(DNN)の広範な計算コストを必要とする。
本稿では、推論フェーズにおけるマルチモーダル入力を避けるために、トレーニング中にのみ複数のモーダルから学習できるかどうかという興味深い疑問を提案する。
そこで我々は,新しいマルチモーダル3DMOTパラダイムである‘textbf{YOLOO}: You Only Learn from Others Once’を提案する。
YOLOOはポイントクラウドエンコーダに、ポイントクラウドや他のモダリティ(画像やテキストキューなど)から統一されたトリモーダル表現(UTR)を一度に学習する権限を与える。
この UTR を活用することで、YOLOO はその性能を損なうことなく、ポイントクラウドエンコーダのみを使用して効率的なトラッキングを実現し、計算集約型 DNN の必要性を根本的に回避する。
特に、YOLOOは、2つのコアコンポーネント: 統一三モードエンコーダ(UTEnc)とフレキシブルな幾何学的制約(F-GC)モジュール。
UTEncは、ポイントクラウドエンコーダと、事前訓練されたCLIPから適応した画像およびテキストエンコーダを統合する。
ポイントクラウド情報をCLIPからの豊富な視覚的テクスチャ知識とシームレスに融合してポイントクラウドエンコーダとなり、トラジェクトリと検出の関連を助長する高度に識別可能なUTRが得られる。
さらに、F-GCは類似の表現と一致しないが、重要な位置の相違を除去する。
シーン固有のチューニングを必要とせず、カスタマイズされた幾何学的制約(例: 3D IoU)の鍵となる制限に対処する。
最後に、従来のデータアソシエーションコンポーネントによって高品質な3Dトラジェクトリが生成される。
これらの進歩をマルチモーダルな3D MOTスキームに統合することにより、我々のYOLOOはロバスト性および効率性の両方において大幅に向上する。
関連論文リスト
- Multimodality Helps Few-Shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。
本稿では,テキストラベルと潜在的に利用可能な2次元画像モダリティを利用して,コストフリーのマルチモーダルFS-PCSセットアップを提案する。
トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダルセグ(TACC)技術を提案する。
論文 参考訳(メタデータ) (2024-10-29T19:28:41Z) - Towards Compact 3D Representations via Point Feature Enhancement Masked
Autoencoders [52.66195794216989]
本稿では,コンパクトな3D表現を学習するために,ポイント特徴強調マスク付きオートエンコーダ(Point-FEMAE)を提案する。
Point-FEMAEはグローバルブランチとローカルブランチで構成され、潜在意味的特徴をキャプチャする。
本手法は, クロスモーダル方式と比較して, 事前学習効率を著しく向上させる。
論文 参考訳(メタデータ) (2023-12-17T14:17:05Z) - Point Cloud Self-supervised Learning via 3D to Multi-view Masked
Autoencoder [21.73287941143304]
Multi-Modality Masked AutoEncoders (MAE) 法は2次元画像と3次元点雲の両方を事前学習に利用している。
本稿では、3次元から多視点のマスク付きオートエンコーダを用いて、3次元点雲のマルチモーダル特性をフル活用する手法を提案する。
提案手法は,様々な下流タスクにおいて,最先端のタスクよりも大きなマージンで性能を向上する。
論文 参考訳(メタデータ) (2023-11-17T22:10:03Z) - UniM$^2$AE: Multi-modal Masked Autoencoders with Unified 3D Representation for 3D Perception in Autonomous Driving [47.590099762244535]
Masked Autoencoders (MAE)は、強力な表現の学習において重要な役割を担い、様々な3D知覚タスクにおいて優れた結果をもたらす。
この研究は、自律運転における統一された表現空間に適したマルチモーダルのMasked Autoencodersに展開する。
画像に固有のセマンティクスとLiDAR点雲の幾何学的複雑さを複雑に結合するため,UniM$2$AEを提案する。
論文 参考訳(メタデータ) (2023-08-21T02:13:40Z) - UniTR: A Unified and Efficient Multi-Modal Transformer for
Bird's-Eye-View Representation [113.35352122662752]
屋外3次元知覚のためのマルチモーダルバックボーンUniTRを提案する。
UniTRは、統一されたモデリングと共有パラメータで様々なモダリティを処理する。
UniTRは基本的にタスクに依存しないバックボーンであり、異なる3D知覚タスクを自然にサポートする。
論文 参考訳(メタデータ) (2023-08-15T12:13:44Z) - Correlation Pyramid Network for 3D Single Object Tracking [16.694809791177263]
本稿では,統合エンコーダとモーションファクターデコーダを備えた新しい相関ピラミッドネットワーク(CorpNet)を提案する。
CorpNetは、リアルタイムに実行しながら最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-05-16T06:07:20Z) - PiMAE: Point Cloud and Image Interactive Masked Autoencoders for 3D
Object Detection [26.03582038710992]
Masked Autoencoderは強力な視覚表現を学び、いくつかの独立したモダリティで最先端の結果を得る。
本研究は,実世界でしばしば提示される2つのモダリティである,ポイントクラウドとRGBイメージデータに焦点を当てる。
我々は3つの側面を通して3次元と2次元の相互作用を促進する自己教師付き事前学習フレームワークPiMAEを提案する。
論文 参考訳(メタデータ) (2023-03-14T17:58:03Z) - PointMCD: Boosting Deep Point Cloud Encoders via Multi-view Cross-modal
Distillation for 3D Shape Recognition [55.38462937452363]
本稿では,教師として事前訓練されたディープイメージエンコーダ,学生としてディープポイントエンコーダを含む多視点クロスモーダル蒸留アーキテクチャを提案する。
複数ビューの視覚的および幾何学的記述子をペアワイズにアライメントすることで、より強力なディープポイントエンコーダを、疲労や複雑なネットワーク修正を伴わずに得ることができる。
論文 参考訳(メタデータ) (2022-07-07T07:23:20Z) - Exploring Data Augmentation for Multi-Modality 3D Object Detection [82.9988604088494]
ポイントクラウドとイメージに基づくマルチモダリティメソッドは、ポイントクラウドのみを使用するアプローチよりも、わずかに良いか、時には悪いだけである。
トランスフォーメーションフローと呼ばれるパイプラインを提案し、トランスフォーメーションのリバースとリプレイによってシングルモードとマルチモードのデータ拡張のギャップを埋める。
また,本手法は第3回nuScenes検出チャレンジでPKL賞を受賞した。
論文 参考訳(メタデータ) (2020-12-23T15:23:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。