論文の概要: Bayesian-Optimized One-Step Diffusion Model with Knowledge Distillation for Real-Time 3D Human Motion Prediction
- arxiv url: http://arxiv.org/abs/2409.12456v1
- Date: Thu, 19 Sep 2024 04:36:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 14:41:29.326654
- Title: Bayesian-Optimized One-Step Diffusion Model with Knowledge Distillation for Real-Time 3D Human Motion Prediction
- Title(参考訳): 実時間3次元動作予測のための知識蒸留を用いたベイズ最適化ワンステップ拡散モデル
- Authors: Sibo Tian, Minghui Zheng, Xiao Liang,
- Abstract要約: 本稿では,知識蒸留とベイズ最適化を用いた1段階多層パーセプトロン(MLP)拡散モデルによる動き予測のトレーニングを提案する。
提案モデルでは,予測速度を大幅に向上し,性能の劣化を伴わないリアルタイム予測を実現している。
- 参考スコア(独自算出の注目度): 2.402745776249116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human motion prediction is a cornerstone of human-robot collaboration (HRC), as robots need to infer the future movements of human workers based on past motion cues to proactively plan their motion, ensuring safety in close collaboration scenarios. The diffusion model has demonstrated remarkable performance in predicting high-quality motion samples with reasonable diversity, but suffers from a slow generative process which necessitates multiple model evaluations, hindering real-world applications. To enable real-time prediction, in this work, we propose training a one-step multi-layer perceptron-based (MLP-based) diffusion model for motion prediction using knowledge distillation and Bayesian optimization. Our method contains two steps. First, we distill a pretrained diffusion-based motion predictor, TransFusion, directly into a one-step diffusion model with the same denoiser architecture. Then, to further reduce the inference time, we remove the computationally expensive components from the original denoiser and use knowledge distillation once again to distill the obtained one-step diffusion model into an even smaller model based solely on MLPs. Bayesian optimization is used to tune the hyperparameters for training the smaller diffusion model. Extensive experimental studies are conducted on benchmark datasets, and our model can significantly improve the inference speed, achieving real-time prediction without noticeable degradation in performance.
- Abstract(参考訳): 人間の動き予測は人間とロボットのコラボレーション(HRC)の基盤であり、ロボットは過去の動きの手がかりに基づいて人間の働きの将来の動きを推測し、積極的に動きを計画し、密接なコラボレーションシナリオにおける安全性を確保する必要がある。
拡散モデルは,高品質な動作サンプルを合理的な多様性で予測する上で顕著な性能を示したが,複数のモデル評価を必要とする遅い生成過程に悩まされ,現実の応用を妨げている。
本研究では, 実時間予測を実現するために, 知識蒸留とベイズ最適化を用いた1段階多層パーセプトロン(MLP)拡散モデルを提案する。
私たちの方法には2つのステップがあります。
まず,事前訓練された拡散に基づく運動予測器であるTransFusionを,同一のデノイザ構造を持つ1ステップ拡散モデルに直接蒸留する。
さらに, 推定時間を短縮するために, 計算コストのかかる成分を元のデノイザから除去し, 再び知識蒸留を用いて, 得られた一段階拡散モデルを, MLPのみに基づくより小さなモデルに蒸留する。
ベイズ最適化は、より小さな拡散モデルのトレーニングのためにハイパーパラメータをチューニングするために用いられる。
ベンチマークデータセットを用いて大規模な実験を行い,本モデルでは予測速度を大幅に向上し,性能劣化を伴わないリアルタイム予測を実現している。
関連論文リスト
- Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。
我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文 参考訳(メタデータ) (2024-10-28T17:25:56Z) - Tuning Timestep-Distilled Diffusion Model Using Pairwise Sample Optimization [97.35427957922714]
任意の時間ステップ蒸留拡散モデルを直接微調整できるPSOアルゴリズムを提案する。
PSOは、現在の時間ステップ蒸留モデルからサンプリングされた追加の参照画像を導入し、トレーニング画像と参照画像との相対的な近縁率を増大させる。
PSOは、オフラインとオンラインのペアワイズ画像データの両方を用いて、蒸留モデルを直接人間の好ましくない世代に適応させることができることを示す。
論文 参考訳(メタデータ) (2024-10-04T07:05:16Z) - ManiCM: Real-time 3D Diffusion Policy via Consistency Model for Robotic Manipulation [16.272352213590313]
拡散モデルは自然画像から運動軌道への複雑な分布を生成するのに有効であることが確認されている。
近年の手法では3次元ロボット操作作業において顕著な性能を示すが、複数のデノナイジングステップにより実行時の非効率が悪化している。
拡散過程に一貫性の制約を課すリアルタイムロボット操作モデルManiCMを提案する。
論文 参考訳(メタデータ) (2024-06-03T17:59:23Z) - EM Distillation for One-step Diffusion Models [65.57766773137068]
最小品質の損失を最小限に抑えた1ステップ生成モデルに拡散モデルを蒸留する最大可能性に基づく手法を提案する。
本研究では, 蒸留プロセスの安定化を図るため, 再パラメータ化サンプリング手法とノイズキャンセリング手法を開発した。
論文 参考訳(メタデータ) (2024-05-27T05:55:22Z) - Distilling Diffusion Models into Conditional GANs [90.76040478677609]
複雑な多段階拡散モデルを1段階条件付きGAN学生モデルに蒸留する。
E-LatentLPIPSは,拡散モデルの潜在空間で直接動作する知覚的損失である。
我々は, 最先端の1ステップ拡散蒸留モデルよりも優れた1ステップ発生器を実証した。
論文 参考訳(メタデータ) (2024-05-09T17:59:40Z) - ADM: Accelerated Diffusion Model via Estimated Priors for Robust Motion Prediction under Uncertainties [6.865435680843742]
本稿では,騒音に対する抵抗性を高めたエージェントの将来の軌道を積極的に予測する,拡散型・加速可能な新しいフレームワークを提案する。
本手法は,自律走行車に必要な厳格なリアルタイム運転基準を満たす。
Argoverse 1のモーション予測データセット上でのマルチエージェント動作予測において,大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-05-01T18:16:55Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - GDTS: Goal-Guided Diffusion Model with Tree Sampling for Multi-Modal Pedestrian Trajectory Prediction [15.731398013255179]
マルチモーダル軌道予測のための木サンプリングを用いたゴールガイド拡散モデルを提案する。
2段階のツリーサンプリングアルゴリズムが提案され、一般的な特徴を活用して推論時間を短縮し、マルチモーダル予測の精度を向上させる。
実験により,提案フレームワークは,公開データセットにおけるリアルタイム推論速度と同等の最先端性能を達成できることが実証された。
論文 参考訳(メタデータ) (2023-11-25T03:55:06Z) - TransFusion: A Practical and Effective Transformer-based Diffusion Model
for 3D Human Motion Prediction [1.8923948104852863]
本研究では,3次元動作予測のための革新的で実用的な拡散モデルであるTransFusionを提案する。
我々のモデルは、浅い層と深い層の間の長いスキップ接続を持つバックボーンとしてTransformerを活用している。
クロスアテンションや適応層正規化のような余分なモジュールを利用する従来の拡散モデルとは対照的に、条件を含む全ての入力をトークンとして扱い、より軽量なモデルを作成する。
論文 参考訳(メタデータ) (2023-07-30T01:52:07Z) - How Much is Enough? A Study on Diffusion Times in Score-based Generative
Models [76.76860707897413]
現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近づくことを確実にするために大きなTを提唱している。
本稿では, 理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルを用いて, 標準的な逆拡散過程を導出する方法について述べる。
論文 参考訳(メタデータ) (2022-06-10T15:09:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。