論文の概要: Unsupervised Online 3D Instance Segmentation with Synthetic Sequences and Dynamic Loss
- arxiv url: http://arxiv.org/abs/2509.23194v1
- Date: Sat, 27 Sep 2025 08:53:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.096634
- Title: Unsupervised Online 3D Instance Segmentation with Synthetic Sequences and Dynamic Loss
- Title(参考訳): 合成シーケンスと動的損失を考慮した教師なしオンライン3次元インスタンスセグメンテーション
- Authors: Yifan Zhang, Wei Zhang, Chuangxin He, Zhonghua Miao, Junhui Hou,
- Abstract要約: 教師なしのオンライン3Dインスタンスのセグメンテーションは、基本的だが難しい課題だ。
UNITのような既存の手法はこの方向に進んできたが、訓練の多様性が制限されているままである。
本稿では,合成点雲列生成によるトレーニング分布の強化を目的とした新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 52.28880405119483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised online 3D instance segmentation is a fundamental yet challenging task, as it requires maintaining consistent object identities across LiDAR scans without relying on annotated training data. Existing methods, such as UNIT, have made progress in this direction but remain constrained by limited training diversity, rigid temporal sampling, and heavy dependence on noisy pseudo-labels. We propose a new framework that enriches the training distribution through synthetic point cloud sequence generation, enabling greater diversity without relying on manual labels or simulation engines. To better capture temporal dynamics, our method incorporates a flexible sampling strategy that leverages both adjacent and non-adjacent frames, allowing the model to learn from long-range dependencies as well as short-term variations. In addition, a dynamic-weighting loss emphasizes confident and informative samples, guiding the network toward more robust representations. Through extensive experiments on SemanticKITTI, nuScenes, and PandaSet, our method consistently outperforms UNIT and other unsupervised baselines, achieving higher segmentation accuracy and more robust temporal associations. The code will be publicly available at github.com/Eaphan/SFT3D.
- Abstract(参考訳): 注釈付きトレーニングデータに頼ることなく、LiDARスキャン全体で一貫したオブジェクトIDを維持する必要があるため、教師なしのオンライン3Dインスタンスセグメンテーションは基本的な課題である。
UNITのような既存の手法は、この方向に進歩してきたが、訓練の多様性の制限、厳格な時間的サンプリング、ノイズの多い擬似ラベルへの重度依存に制約され続けている。
そこで我々は,手動ラベルやシミュレーションエンジンを使わずに,より広範な多様性を実現するために,合成点クラウドシーケンス生成によるトレーニング分布を充実させる新しいフレームワークを提案する。
時間的ダイナミクスをよりよく捉えるために,隣接フレームと非隣接フレームの両方を活用するフレキシブルサンプリング戦略を導入し,モデルが長距離依存や短期変動から学習できるようにする。
さらに、動的重み付け損失は、信頼性と情報的サンプルを強調し、より堅牢な表現に向けてネットワークを導く。
SemanticKITTI, nuScenes, およびPandaSetに関する広範な実験を通じて、我々の手法はUNITや他の教師なしベースラインを一貫して上回り、高いセグメンテーション精度とより堅牢な時間的関連を実現している。
コードはgithub.com/Eaphan/SFT3Dで公開されている。
関連論文リスト
- rETF-semiSL: Semi-Supervised Learning for Neural Collapse in Temporal Data [44.17657834678967]
本稿では,ニューラル・コラプス現象を満たす潜在表現を強制する,新しい半教師付き事前学習戦略を提案する。
LSTM, トランスフォーマー, 状態空間モデルに適用した場合, 従来のプリテキストタスクよりも有意に優れることを示す。
論文 参考訳(メタデータ) (2025-08-13T19:16:47Z) - CLIMB-3D: Continual Learning for Imbalanced 3D Instance Segmentation [67.36817440834251]
我々はtextbfCLass-incremental textbfIm Balance-aware textbf3DIS の統一フレームワークを提案する。
提案手法は, 先行研究を最大16.76%まで上回り, セマンティックセマンティックセマンティックセマンティクスでは約30%のmIoUを達成している。
論文 参考訳(メタデータ) (2025-02-24T18:58:58Z) - Towards Modality-agnostic Label-efficient Segmentation with Entropy-Regularized Distribution Alignment [62.73503467108322]
この話題は、3次元の点雲のセグメンテーションで広く研究されている。
近年まで、擬似ラベルは、限られた地道ラベルによる訓練を容易にするために広く用いられてきた。
既存の擬似ラベリングアプローチは、重複しないデータのノイズやバリエーションに悩まされる可能性がある。
本研究では,学習用擬似ラベルを正規化し,擬似ラベルとモデル予測とのギャップを効果的に狭める学習戦略を提案する。
論文 参考訳(メタデータ) (2024-08-29T13:31:15Z) - Trajectory Forecasting through Low-Rank Adaptation of Discrete Latent Codes [36.12653178844828]
トラジェクトリ予測は、一連のエージェントの将来の動きを予測できるため、ビデオ監視分析に不可欠である。
本稿では,離散潜在空間を用いたベクトル量子変分オートエンコーダ(VQ-VAEs)を導入し,後方崩壊問題に対処する。
このような2段階のフレームワークは、インスタンスレベルの離散化によって強化され、正確で多様な予測につながることを示す。
論文 参考訳(メタデータ) (2024-05-31T10:13:17Z) - Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training [44.790636524264]
ポイント・プロンプト・トレーニング(Point Prompt Training)は、3D表現学習の文脈におけるマルチデータセットのシナジスティック学習のための新しいフレームワークである。
シナジスティック学習に関連する負の移動を克服し、一般化可能な表現を生成する。
教師付きマルチデータセットトレーニングを備えた1つの重み付きモデルを用いて、各データセットの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-18T17:59:57Z) - CTP: Towards Vision-Language Continual Pretraining via Compatible
Momentum Contrast and Topology Preservation [128.00940554196976]
Vision-Language Continual Pretraining (VLCP)は、大規模なデータセット上でオフラインでトレーニングすることで、さまざまな下流タスクに対して印象的な結果を示している。
VLCP(Vision-Language Continual Pretraining)の研究を支援するために,我々はまず,包括的で統一されたベンチマークデータセットP9Dをコントリビュートする。
独立したタスクとしての各業界からのデータは、継続的な学習をサポートし、Webデータの事前学習をシミュレートする現実世界のロングテールな性質に準拠している。
論文 参考訳(メタデータ) (2023-08-14T13:53:18Z) - Self-Supervised Multi-Object Tracking For Autonomous Driving From
Consistency Across Timescales [53.55369862746357]
自己管理型マルチオブジェクトトラッカーは、生のドメイン固有データから学習できるという大きな可能性を秘めている。
しかし、その再識別精度は、監督対象よりも低い。
本稿では,複数の連続フレームから再同定特徴を自己教師付きで学習できる学習目標を提案する。
論文 参考訳(メタデータ) (2023-04-25T20:47:29Z) - Hierarchical Supervision and Shuffle Data Augmentation for 3D
Semi-Supervised Object Detection [90.32180043449263]
最先端の3Dオブジェクト検出器は通常、高品質な3Dアノテーションを備えた大規模データセットで訓練される。
自然な治療法は、限られた量のラベル付きサンプルと豊富なラベル付きサンプルを活用することで、半教師付き学習(SSL)を採用することである。
本稿では,HSSDA(Hierarchical Supervision and Shuffle Data Augmentation)の新たなアプローチを提案する。
論文 参考訳(メタデータ) (2023-04-04T02:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。