論文の概要: SG-LDM: Semantic-Guided LiDAR Generation via Latent-Aligned Diffusion
- arxiv url: http://arxiv.org/abs/2506.23606v1
- Date: Mon, 30 Jun 2025 08:13:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.971252
- Title: SG-LDM: Semantic-Guided LiDAR Generation via Latent-Aligned Diffusion
- Title(参考訳): SG-LDM:潜在配向拡散によるセマンティック誘導LiDAR生成
- Authors: Zhengkang Xiang, Zizhao Li, Amir Khodabandeh, Kourosh Khoshelham,
- Abstract要約: Lidarポイントクラウド合成は、ディープラーニングパイプラインを拡大するための有望なソリューションを提供する。
既存の方法は、非条件のライダーポイントクラウド生成に焦点を合わせ、現実世界のアプリケーションの可能性を見越している。
本研究では,セマンティック誘導ライダー拡散モデルであるSG-LDMを提案する。
- 参考スコア(独自算出の注目度): 0.11184789007828977
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lidar point cloud synthesis based on generative models offers a promising solution to augment deep learning pipelines, particularly when real-world data is scarce or lacks diversity. By enabling flexible object manipulation, this synthesis approach can significantly enrich training datasets and enhance discriminative models. However, existing methods focus on unconditional lidar point cloud generation, overlooking their potential for real-world applications. In this paper, we propose SG-LDM, a Semantic-Guided Lidar Diffusion Model that employs latent alignment to enable robust semantic-to-lidar synthesis. By directly operating in the native lidar space and leveraging explicit semantic conditioning, SG-LDM achieves state-of-the-art performance in generating high-fidelity lidar point clouds guided by semantic labels. Moreover, we propose the first diffusion-based lidar translation framework based on SG-LDM, which enables cross-domain translation as a domain adaptation strategy to enhance downstream perception performance. Systematic experiments demonstrate that SG-LDM significantly outperforms existing lidar diffusion models and the proposed lidar translation framework further improves data augmentation performance in the downstream lidar segmentation task.
- Abstract(参考訳): 生成モデルに基づくライダーポイントクラウド合成は、特に現実世界のデータ不足や多様性の欠如において、ディープラーニングパイプラインを拡大するための有望なソリューションを提供する。
柔軟なオブジェクト操作を可能にすることで、この合成アプローチはトレーニングデータセットを大幅に強化し、識別モデルを強化することができる。
しかし、既存の手法は非条件のライダーポイントクラウド生成に重点を置いており、現実の応用の可能性を見越している。
本稿では,セマンティック誘導ライダー拡散モデルであるSG-LDMを提案する。
SG-LDMは、ネイティブライダー空間で直接操作し、明示的なセマンティックコンディショニングを活用することにより、セマンティックラベルでガイドされる高忠実度ライダーポイントクラウドを生成する上で、最先端のパフォーマンスを実現する。
また,SG-LDMをベースとした最初の拡散型ライダー翻訳フレームワークを提案する。
システム実験により、SG-LDMは既存のライダー拡散モデルよりも大幅に優れており、提案したライダー翻訳フレームワークは下流ライダーセグメンテーションタスクにおけるデータ拡張性能をさらに向上することを示した。
関連論文リスト
- Latent Diffusion Model Based Denoising Receiver for 6G Semantic Communication: From Stochastic Differential Theory to Application [55.42071552739813]
生成人工知能(GAI)を利用した新しい意味コミュニケーションフレームワークを提案する。
意味的特徴抽出のための変分オートエンコーダを組み合わせた潜在拡散モデル(LDM)に基づくセマンティックコミュニケーションフレームワークを提案する。
提案システムはゼロショットの一般化をサポートし,低SNRおよびアウト・オブ・ディストリビューション条件下での優れた性能を実現する訓練自由フレームワークである。
論文 参考訳(メタデータ) (2025-06-06T03:20:32Z) - Latent Diffusion Planning for Imitation Learning [78.56207566743154]
Latent Diffusion Planning (LDP) は、プランナーと逆ダイナミクスモデルからなるモジュラーアプローチである。
行動予測からプランニングを分離することにより、LDPは最適なデータと行動自由データのより密集した監視信号の恩恵を受けることができる。
シミュレーションされた視覚ロボット操作タスクにおいて、LDPは最先端の模倣学習アプローチより優れている。
論文 参考訳(メタデータ) (2025-04-23T17:53:34Z) - Let Synthetic Data Shine: Domain Reassembly and Soft-Fusion for Single Domain Generalization [68.41367635546183]
単一ドメインの一般化は、単一のソースからのデータを使用して、さまざまなシナリオで一貫したパフォーマンスでモデルをトレーニングすることを目的としている。
モデル一般化を改善するために合成データを活用した学習フレームワークDRSFを提案する。
論文 参考訳(メタデータ) (2025-03-17T18:08:03Z) - Without Paired Labeled Data: End-to-End Self-Supervised Learning for Drone-view Geo-Localization [2.733505168507872]
ドローンビュージオローカライゼーション(DVGL)は、GPSタグ付き衛星画像を取得することで、ドローンの正確なローカライゼーションを実現することを目的としている。
既存の手法は、教師あり学習のために、厳密にペアリングされたドローン衛星画像に大きく依存している。
浅いバックボーンネットワークを用いたエンドツーエンドの自己教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2025-02-17T02:53:08Z) - Exploring Representation-Aligned Latent Space for Better Generation [86.45670422239317]
生成性能を改善するために,セマンティックな事前情報を統合するReaLSを導入する。
本研究では、ReaLSでトレーニングされたDETとSiTが、FID測定値の15%改善を実現することを示す。
拡張されたセマンティック潜在空間は、セグメンテーションや深さ推定のようなより知覚的な下流タスクを可能にする。
論文 参考訳(メタデータ) (2025-02-01T07:42:12Z) - LF-Steering: Latent Feature Activation Steering for Enhancing Semantic Consistency in Large Language Models [16.37602070339033]
LLM(Large Language Models)は、意味的に等価なパラフレーズ入力によって、しばしば一貫性のない応答を生成する。
セマンティック不整合の原因となる潜在特徴表現を正確に識別する新しいアクティベーションステアリング手法LF-ステアリングを提案する。
本手法は, 関連トランス層の隠蔽状態をスパースオートエンコーダに基づいて, 疎活性化された高次元特徴空間にマッピングする。
論文 参考訳(メタデータ) (2025-01-19T13:06:51Z) - Diffusion Features to Bridge Domain Gap for Semantic Segmentation [2.8616666231199424]
本稿では, 拡散モデルの特徴を効率的に活用するために, サンプリングおよび融合技術を活用するアプローチについて検討する。
テキスト・画像生成能力の強みを生かして、暗黙的に後部知識を学習する新しいトレーニングフレームワークを導入する。
論文 参考訳(メタデータ) (2024-06-02T15:33:46Z) - GIFD: A Generative Gradient Inversion Method with Feature Domain
Optimization [52.55628139825667]
Federated Learning(FL)は、クライアントのプライバシを保護するための有望な分散機械学習フレームワークとして登場した。
近年の研究では、事前学習された生成逆ネットワーク(GAN)を事前知識として活用することにより、攻撃者が共有勾配を逆転し、FLシステムに対する機密データを回復できることが示されている。
textbfGradient textbfInversion over textbfFeature textbfDomains (GIFD)を提案する。
論文 参考訳(メタデータ) (2023-08-09T04:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。