論文の概要: SuperPC: A Single Diffusion Model for Point Cloud Completion, Upsampling, Denoising, and Colorization
- arxiv url: http://arxiv.org/abs/2503.14558v1
- Date: Tue, 18 Mar 2025 03:21:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:29:57.420999
- Title: SuperPC: A Single Diffusion Model for Point Cloud Completion, Upsampling, Denoising, and Colorization
- Title(参考訳): SuperPC: ポイントクラウドコンプリート、アップサンプリング、デノイング、カラー化のための単一拡散モデル
- Authors: Yi Du, Zhipeng Zhao, Shaoshu Su, Sharath Golluri, Haoze Zheng, Runmao Yao, Chen Wang,
- Abstract要約: 4つの処理タスクを同時に処理できる最初の統一拡散モデルであるSuperPCを紹介する。
提案手法では,新しい空間混合拡散戦略によって強化された3レベル拡散フレームワークを用いる。
以上の結果から,SuperPCは4つのタスクのすべてにおいて,最先端の特殊モデルよりも優れていたことが分かる。
- 参考スコア(独自算出の注目度): 4.478524619943988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Point cloud (PC) processing tasks-such as completion, upsampling, denoising, and colorization-are crucial in applications like autonomous driving and 3D reconstruction. Despite substantial advancements, prior approaches often address each of these tasks independently, with separate models focused on individual issues. However, this isolated approach fails to account for the fact that defects like incompleteness, low resolution, noise, and lack of color frequently coexist, with each defect influencing and correlating with the others. Simply applying these models sequentially can lead to error accumulation from each model, along with increased computational costs. To address these challenges, we introduce SuperPC, the first unified diffusion model capable of concurrently handling all four tasks. Our approach employs a three-level-conditioned diffusion framework, enhanced by a novel spatial-mix-fusion strategy, to leverage the correlations among these four defects for simultaneous, efficient processing. We show that SuperPC outperforms the state-of-the-art specialized models as well as their combination on all four individual tasks.
- Abstract(参考訳): ポイントクラウド(PC)処理タスク - 自動走行や3D再構成のようなアプリケーションでは、完了、アップサンプリング、デノイング、カラー化が不可欠である。
大幅な進歩にもかかわらず、事前のアプローチは個々の問題に焦点をあてた別々のモデルで、これらのタスクに独立して対処することが多い。
しかし、この孤立したアプローチは、不完全性、低分解能、ノイズ、色不足などの欠陥が頻繁に共存し、各欠陥が他の欠陥に影響を与え、それと関連しているという事実を考慮できない。
これらのモデルを逐次適用すれば、計算コストの増加とともに、各モデルからエラーが蓄積される可能性がある。
これらの課題に対処するために,4つのタスクを同時に処理できる最初の統合拡散モデルであるSuperPCを導入する。
提案手法では, 空間混合拡散法により拡張された3レベル拡散フレームワークを用いて, これら4つの欠陥間の相関を同時に, 効率的な処理に活用する。
以上の結果から,SuperPCは4つのタスクのすべてにおいて,最先端の特殊モデルよりも優れていたことが分かる。
関連論文リスト
- Architecture Decoupling Is Not All You Need For Unified Multimodal Model [64.19284951218098]
本稿では,トレーニング中のタスク-特定マルチモーダルインタラクションパターンを明示的に学習する,意図的インタラクションアライメント(AIA)の損失を提案する。
AIAは、横断的な注意パターンを洗練するだけでなく、生成と理解の両方のパフォーマンスも向上させる。
論文 参考訳(メタデータ) (2025-11-27T17:55:25Z) - Face, Whole-Person, and Object Classification in a Unified Space Via The Interleaved Multi-Domain Identity Curriculum [0.764671395172401]
ビジョンファウンデーションモデルは、ゼロショットモードで一般化されたオブジェクト分類を実行し、微調整されたときに顔と人物の認識を行うことができる。
我々は,4つのタスク(物体認識,高品質・低品質画像からの顔認識,全身画像からの人物認識)を1つの埋め込み空間で行うモデルを作成する。
IIC(Interleaved Multi-Domain Identity Curriculum)の2つの変種を紹介する。
論文 参考訳(メタデータ) (2025-11-25T02:23:10Z) - ShortcutBreaker: Low-Rank Noisy Bottleneck with Global Perturbation Attention for Multi-Class Unsupervised Anomaly Detection [59.89803740308262]
ShortcutBreakerはMUADタスクのための新しい統合された機能再構成フレームワークである。
ショートカットの問題に対処する2つの重要なイノベーションが特徴だ。
提案手法は,4つのデータセットに対して,99.8%,98.9%,90.6%,87.8%の顕著な画像レベルのAUROCを実現する。
論文 参考訳(メタデータ) (2025-10-21T06:51:30Z) - Stochastic Interpolants via Conditional Dependent Coupling [36.84747986070112]
既存の画像生成モデルは、計算と忠実性のトレードオフに関して重要な課題に直面している。
提案した条件依存結合戦略に基づく統合型多段階生成フレームワークを提案する。
生成過程を複数の段階で補間軌道に分解し、エンドツーエンドの最適化を可能にしながら正確な分布学習を保証する。
論文 参考訳(メタデータ) (2025-09-27T05:03:08Z) - DMQ: Dissecting Outliers of Diffusion Models for Post-Training Quantization [29.066284789131494]
最近のトレーニング後の量子化法は、外乱を無視し、低ビット幅での劣化性能をもたらす。
本稿では,Learned Equivalent ScalingとチャネルワイドのPower-of-Two Scalingを組み合わせたDMQを提案する。
提案手法は,特に低ビット幅において,既存の処理性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-07-17T09:15:29Z) - Hybrid Autoregressive-Diffusion Model for Real-Time Streaming Sign Language Production [0.0]
本稿では,自己回帰モデルと拡散モデルを組み合わせて手話生成(SLP)モデルを生成するハイブリッドアプローチを提案する。
細かな体の動きを捉えるため,異なるアーティストから細かな特徴を別々に抽出するマルチスケール・ポース表現モジュールを設計した。
また、連立レベルの信頼スコアを利用してポーズ生成過程を動的にガイドする信頼意識型因果注意機構も導入する。
論文 参考訳(メタデータ) (2025-07-12T01:34:50Z) - ConsistentFeature: A Plug-and-Play Component for Neural Network Regularization [0.32885740436059047]
過パラメータ化されたニューラルネットワークモデルは、トレーニングとテストセットの間に大きなパフォーマンスの相違をもたらすことが多い。
モデルは異なるデータセットで異なる表現を学習する。
適応的手法であるConsistentFeatureを提案し、同じトレーニングセットのランダムなサブセット間で特徴差を制約することでモデルを正規化する。
論文 参考訳(メタデータ) (2024-12-02T13:21:31Z) - Decouple-Then-Merge: Finetune Diffusion Models as Multi-Task Learning [45.89372687373466]
拡散モデルは、ノイズ破損の各ステップを反転させる一連のモデルを学ぶことで訓練される。
パラメータはトレーニング効率を高めるために、複数のタイムステップで完全に共有されます。
しかし、デノナイジングタスクは各タイミングで異なるため、異なるタイミングで計算された勾配は相反する可能性があり、画像生成の全体的な性能を低下させる可能性がある。
論文 参考訳(メタデータ) (2024-10-09T08:19:25Z) - Temporal Feature Matters: A Framework for Diffusion Model Quantization [105.3033493564844]
拡散モデルはマルチラウンド・デノナイジングの時間ステップに依存している。
3つの戦略を含む新しい量子化フレームワークを導入する。
このフレームワークは時間情報のほとんどを保存し、高品質なエンドツーエンド生成を保証する。
論文 参考訳(メタデータ) (2024-07-28T17:46:15Z) - XTrack: Multimodal Training Boosts RGB-X Video Object Trackers [88.72203975896558]
マルチモーダルセンシングから得られる知識を効果的に共有することが重要である。
異なるモダリティにまたがる類似のサンプルは、他のものよりも多くの知識を共有できる。
提案手法は,現在のSOTAよりも平均+3%精度が向上したRGB-Xトラッカーである。
論文 参考訳(メタデータ) (2024-05-28T03:00:58Z) - Adaptive Training Meets Progressive Scaling: Elevating Efficiency in Diffusion Models [52.1809084559048]
TDCトレーニングと呼ばれる新しい2段階分割型トレーニング戦略を提案する。
タスクの類似性と難易度に基づいてタイムステップをグループ化し、高度にカスタマイズされた復調モデルを各グループに割り当て、拡散モデルの性能を向上させる。
2段階のトレーニングでは、各モデルを個別にトレーニングする必要がなくなるが、総トレーニングコストは、単一の統合されたデノナイジングモデルをトレーニングするよりもさらに低い。
論文 参考訳(メタデータ) (2023-12-20T03:32:58Z) - One-Step Diffusion Distillation via Deep Equilibrium Models [64.11782639697883]
本稿では,拡散モデルを初期雑音から得られた画像に直接蒸留する簡易かつ効果的な方法を提案する。
本手法は,拡散モデルからノイズ/イメージペアのみによる完全オフライントレーニングを可能にする。
GET は FID スコアの点で 5 倍の ViT と一致するので,DEC アーキテクチャがこの能力に不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-12T07:28:40Z) - TFMQ-DM: Temporal Feature Maintenance Quantization for Diffusion Models [52.454274602380124]
拡散モデルは非常に時間ステップ$t$に大きく依存し、良好なマルチラウンドデノジングを実現している。
本稿では,時間情報ブロック上に構築した時間的特徴保守量子化(TFMQ)フレームワークを提案する。
先駆的なブロック設計により、時間情報認識再構成(TIAR)と有限集合キャリブレーション(FSC)を考案し、完全な時間的特徴を整列させる。
論文 参考訳(メタデータ) (2023-11-27T12:59:52Z) - One More Step: A Versatile Plug-and-Play Module for Rectifying Diffusion
Schedule Flaws and Enhancing Low-Frequency Controls [77.42510898755037]
One More Step (OMS) は、推論中に単純だが効果的なステップを付加したコンパクトネットワークである。
OMSは画像の忠実度を高め、トレーニングと推論の二分法を調和させ、元のモデルパラメータを保存する。
トレーニングが完了すると、同じ潜在ドメインを持つ様々な事前訓練された拡散モデルが同じOMSモジュールを共有することができる。
論文 参考訳(メタデータ) (2023-11-27T12:02:42Z) - Image Generation with Multimodal Priors using Denoising Diffusion
Probabilistic Models [54.1843419649895]
このタスクを達成するために生成モデルを使用する際の大きな課題は、すべてのモダリティと対応する出力を含むペアデータの欠如である。
本稿では,拡散確率的合成モデルに基づく多モデル先行画像生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-10T12:23:05Z) - Diversity Matters When Learning From Ensembles [20.05842308307947]
深層アンサンブルは、予測精度とキャリブレーションの両方において、大規模な画像分類タスクにおいて優れている。
訓練が簡単であるにもかかわらず、ディープアンサンブルの計算とメモリコストは、その実行可能性を制限する。
本稿では,このギャップを減らすための簡単な手法,すなわち蒸留した性能を全アンサンブルに近づける手法を提案する。
論文 参考訳(メタデータ) (2021-10-27T03:44:34Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。