論文の概要: SPG: Improving Motion Diffusion by Smooth Perturbation Guidance
- arxiv url: http://arxiv.org/abs/2503.02577v1
- Date: Tue, 04 Mar 2025 13:00:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:17:47.047207
- Title: SPG: Improving Motion Diffusion by Smooth Perturbation Guidance
- Title(参考訳): SPG:平滑な摂動誘導による運動拡散の改善
- Authors: Boseong Jeon,
- Abstract要約: Smooth Perturbation Guidanceは、デノナイジングステップの運動を時間的に滑らかにすることで弱いモデルを構築する。
この研究は、異なるモデルアーキテクチャとタスクを包括的に分析する。
- 参考スコア(独自算出の注目度): 0.9790236766474201
- License:
- Abstract: This paper presents a test-time guidance method to improve the output quality of the human motion diffusion models without requiring additional training. To have negative guidance, Smooth Perturbation Guidance (SPG) builds a weak model by temporally smoothing the motion in the denoising steps. Compared to model-agnostic methods originating from the image generation field, SPG effectively mitigates out-of-distribution issues when perturbing motion diffusion models. In SPG guidance, the nature of motion structure remains intact. This work conducts a comprehensive analysis across distinct model architectures and tasks. Despite its extremely simple implementation and no need for additional training requirements, SPG consistently enhances motion fidelity. Project page can be found at https://spg-blind.vercel.app/
- Abstract(参考訳): 本稿では,人間の運動拡散モデルの出力品質を向上させるためのテストタイムガイダンス法を提案する。
Smooth Perturbation Guidance (SPG) は, 運動を時間的に滑らかにすることで弱いモデルを構築する。
画像生成分野から派生したモデルに依存しない手法と比較して、SPGは摂動拡散モデルにおける分布外問題を効果的に緩和する。
SPG誘導では、運動構造の性質はそのままである。
この研究は、異なるモデルアーキテクチャとタスクを包括的に分析する。
非常に単純な実装であり、追加のトレーニング要件を必要としないが、SPGは動きの忠実さを一貫して強化している。
プロジェクトページはhttps://spg-blind.vercel.app/にある。
関連論文リスト
- Training-Free Motion-Guided Video Generation with Enhanced Temporal Consistency Using Motion Consistency Loss [35.69606926024434]
本稿では,初期雑音に基づくアプローチと新たな動きの整合性損失を組み合わせた,シンプルで効果的な解を提案する。
次に、生成したビデオに類似した特徴相関パターンを維持するために、動きの整合性損失を設計する。
このアプローチは、トレーニング不要のセットアップの利点を保ちながら、さまざまなモーションコントロールタスク間の時間的一貫性を改善する。
論文 参考訳(メタデータ) (2025-01-13T18:53:08Z) - Spatiotemporal Skip Guidance for Enhanced Video Diffusion Sampling [32.2474423833013]
本稿では、トランスフォーマーに基づくビデオ拡散モデルを改善するための時空間スキップガイダンス(TG)を提案する。
TGは自己摂動を通じて暗黙の弱いモデルを採用し、外部モデルや追加のトレーニングを必要としない。
TGは、多様性や動的度合いを損なうことなく、サンプルの品質を高めるために、オリジナルのモデルの整列した、劣化したバージョンを生成する。
論文 参考訳(メタデータ) (2024-11-27T15:59:48Z) - 3D Multi-Object Tracking with Semi-Supervised GRU-Kalman Filter [6.13623925528906]
3D Multi-Object Tracking (MOT)は、自律運転やロボットセンシングのようなインテリジェントなシステムに不可欠である。
本稿では,学習可能なカルマンフィルタを移動モジュールに導入するGRUベースのMOT法を提案する。
このアプローチは、データ駆動学習を通じてオブジェクトの動き特性を学習することができ、手動モデル設計やモデルエラーを回避することができる。
論文 参考訳(メタデータ) (2024-11-13T08:34:07Z) - ReinDiffuse: Crafting Physically Plausible Motions with Reinforced Diffusion Model [9.525806425270428]
本稿では、強化学習と運動拡散モデルを組み合わせることで、物理的に信頼できる人間の動きを生成するEmphReinDiffuseを提案する。
動作拡散モデルを用いてパラメータ化された動作分布を出力し、強化学習パラダイムに適合させる。
我々のアプローチは、HumanML3DとKIT-MLという2つの主要なデータセット上で、既存の最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-09T16:24:11Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Spectral Motion Alignment for Video Motion Transfer using Diffusion Models [54.32923808964701]
スペクトル運動アライメント(英: Spectral Motion Alignment、SMA)は、フーリエ変換とウェーブレット変換を用いて運動ベクトルを洗練・整列するフレームワークである。
SMAは周波数領域の正規化を取り入れて動きパターンを学習し、全体フレームのグローバルな動きのダイナミクスの学習を容易にする。
大規模な実験は、様々なビデオカスタマイズフレームワーク間の計算効率と互換性を維持しながら、モーション転送を改善するSMAの有効性を示す。
論文 参考訳(メタデータ) (2024-03-22T14:47:18Z) - Motion Flow Matching for Human Motion Synthesis and Editing [75.13665467944314]
本研究では,効率的なサンプリングと効率性を備えた人体運動生成のための新しい生成モデルであるemphMotion Flow Matchingを提案する。
提案手法は, 従来の拡散モデルにおいて, サンプリングの複雑さを1000ステップから10ステップに減らし, テキスト・ツー・モーション・ジェネレーション・ベンチマークやアクション・ツー・モーション・ジェネレーション・ベンチマークで同等の性能を実現する。
論文 参考訳(メタデータ) (2023-12-14T12:57:35Z) - Taming Diffusion Models for Music-driven Conducting Motion Generation [1.0624606551524207]
本稿では,Diffusion-Conductorについて述べる。
本稿では,特徴のロバスト性を改善するためのランダムマスキング手法を提案し,幾何損失関数のペアを用いて正規化を付加する。
また,Frechet Gesture Distance (FGD) や Beat Consistency Score (BC) など,より包括的な動作評価のための新しい指標も設計した。
論文 参考訳(メタデータ) (2023-06-15T03:49:24Z) - Improving Unsupervised Video Object Segmentation with Motion-Appearance
Synergy [52.03068246508119]
IMASは、トレーニングや推論において手動のアノテーションを使わずに、主要オブジェクトをビデオに分割する手法である。
IMASはMotion-Appearance Synergyによる改良されたUVOSを実現する。
人間のアノテーションや手作りハイパーパラム特有のメトリクスで調整された重要なハイパーパラムのチューニングにおいて、その効果を実証する。
論文 参考訳(メタデータ) (2022-12-17T06:47:30Z) - Post-Processing Temporal Action Detection [134.26292288193298]
時間的行動検出(TAD)法は、通常、入力された可変長のビデオを固定長のスニペット表現シーケンスに変換する際に、前処理のステップを踏む。
この前処理ステップは、ビデオを時間的にダウンサンプリングし、推論の解像度を低減し、元の時間分解における検出性能を阻害する。
モデルの再設計や再学習を伴わない新しいモデル非依存のポストプロセッシング手法を提案する。
論文 参考訳(メタデータ) (2022-11-27T19:50:37Z) - Dynamic Model Pruning with Feedback [64.019079257231]
余分なオーバーヘッドを伴わずにスパーストレーニングモデルを生成する新しいモデル圧縮法を提案する。
CIFAR-10 と ImageNet を用いて本手法の評価を行い,得られたスパースモデルが高密度モデルの最先端性能に到達可能であることを示す。
論文 参考訳(メタデータ) (2020-06-12T15:07:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。