Fugu-MT 論文翻訳(概要): SPG: Improving Motion Diffusion by Smooth Perturbation Guidance

論文の概要: SPG: Improving Motion Diffusion by Smooth Perturbation Guidance

arxiv url: http://arxiv.org/abs/2503.02577v1
Date: Tue, 04 Mar 2025 13:00:05 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-05 18:50:39.539031
Title: SPG: Improving Motion Diffusion by Smooth Perturbation Guidance
Title（参考訳）: SPG:平滑な摂動誘導による運動拡散の改善
Authors: Boseong Jeon,
Abstract要約: Smooth Perturbation Guidanceは、デノナイジングステップの運動を時間的に滑らかにすることで弱いモデルを構築する。この研究は、異なるモデルアーキテクチャとタスクを包括的に分析する。
参考スコア（独自算出の注目度）: 0.9790236766474201
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper presents a test-time guidance method to improve the output quality of the human motion diffusion models without requiring additional training. To have negative guidance, Smooth Perturbation Guidance (SPG) builds a weak model by temporally smoothing the motion in the denoising steps. Compared to model-agnostic methods originating from the image generation field, SPG effectively mitigates out-of-distribution issues when perturbing motion diffusion models. In SPG guidance, the nature of motion structure remains intact. This work conducts a comprehensive analysis across distinct model architectures and tasks. Despite its extremely simple implementation and no need for additional training requirements, SPG consistently enhances motion fidelity. Project page can be found at https://spg-blind.vercel.app/
Abstract（参考訳）: 本稿では,人間の運動拡散モデルの出力品質を向上させるためのテストタイムガイダンス法を提案する。 Smooth Perturbation Guidance (SPG) は, 運動を時間的に滑らかにすることで弱いモデルを構築する。画像生成分野から派生したモデルに依存しない手法と比較して、SPGは摂動拡散モデルにおける分布外問題を効果的に緩和する。 SPG誘導では、運動構造の性質はそのままである。この研究は、異なるモデルアーキテクチャとタスクを包括的に分析する。非常に単純な実装であり、追加のトレーニング要件を必要としないが、SPGは動きの忠実さを一貫して強化している。プロジェクトページはhttps://spg-blind.vercel.app/にある。

関連論文リスト

PMGS: Reconstruction of Projectile Motion across Large Spatiotemporal Spans via 3D Gaussian Splatting [9.314869696272297]
本研究では,3次元ガウス散乱によるプロジェクタイルの再構成に着目したPMGSを提案する。本稿では,ニュートン力学を橋渡し,ポーズ推定を行う加速度制約を導入し,運動状態に基づいて学習率を適応的にスケジュールする動的シミュレート変形戦略を設計する。
論文参考訳（メタデータ） (2025-08-04T17:49:37Z)
Training-Free Motion Customization for Distilled Video Generators with Adaptive Test-Time Distillation [53.877572078307935]
蒸留ビデオ生成モデルは、高速で効率的なが、参照ビデオによってガイドされるときの動きのカスタマイズに苦労する。拡散教師の強制力を活用して運動のカスタマイズを可能にする訓練不要な試験時間蒸留フレームワークであるMotionEchoを提案する。
論文参考訳（メタデータ） (2025-06-24T06:20:15Z)
FlowMo: Variance-Based Flow Guidance for Coherent Motion in Video Generation [51.110607281391154]
FlowMoは、テキスト・ビデオ・モデルにおける動きコヒーレンスを高めるためのトレーニング不要のガイダンス手法である。時間次元のパッチワイドな分散を測定して動きのコヒーレンスを推定し、サンプリング中にこの分散を動的に減少させるためにモデルを導く。
論文参考訳（メタデータ） (2025-06-01T19:55:33Z)
Normalized Attention Guidance: Universal Negative Guidance for Diffusion Models [57.20761595019967]
注意空間にL1をベースとした正規化・精細化を施した,効率的かつトレーニング不要な機構である正規化注意誘導(NAG)を提案する。 NAGは、CFGが忠実性を維持しながら崩壊する効果的な負のガイダンスを復元する。 NAGはアーキテクチャ(UNet、DiT)、サンプリングレシスタンス(複数ステップ、複数ステップ)、モダリティ(イメージ、ビデオ)をまたいで一般化する
論文参考訳（メタデータ） (2025-05-27T13:30:46Z)
GENMO: A GENeralist Model for Human MOtion [64.16188966024542]
本稿では,1つのフレームワークで動作推定と生成を橋渡しする汎用人体運動モデル GENMO を提案する。我々の重要な洞察は、出力運動が観測された条件信号を正確に満たさなければならないような制約された動き生成として運動推定を再構成することである。我々の新しいアーキテクチャは、可変長動きと混合マルチモーダル条件(テキスト、オーディオ、ビデオ)を異なる時間間隔で処理し、柔軟な制御を提供する。
論文参考訳（メタデータ） (2025-05-02T17:59:55Z)
FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。 FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文参考訳（メタデータ） (2025-04-02T22:03:11Z)
AniGaussian: Animatable Gaussian Avatar with Pose-guided Deformation [51.61117351997808]
SMPLポーズガイダンスを用いて動的ガウスアバターを拘束する革新的ポーズ誘導変形戦略を導入する。我々は、ガウスモデルの動的変換能力を高めるために、以前の研究から厳密な事前を取り入れた。既存の手法との比較により、AniGaussianは定性的結果と定量的指標の両方において優れた性能を示す。
論文参考訳（メタデータ） (2025-02-24T06:53:37Z)
Self-Guidance: Boosting Flow and Diffusion Generation on Their Own [32.91402070439289]
低品質サンプルの生成を抑えることで画質を向上させるセルフガイドを提案する。安定拡散3.5やFLUXのようなオープンソースの拡散モデルでは、Self-Guidanceは既存のアルゴリズムを複数のメトリクスで上回る。 SGは、生理学的に正しい人体構造の生成に驚くほど良い効果があることがわかった。
論文参考訳（メタデータ） (2024-12-08T06:32:27Z)
Spatiotemporal Skip Guidance for Enhanced Video Diffusion Sampling [32.2474423833013]
本稿では、トランスフォーマーに基づくビデオ拡散モデルを改善するための時空間スキップガイダンス(TG)を提案する。 TGは自己摂動を通じて暗黙の弱いモデルを採用し、外部モデルや追加のトレーニングを必要としない。 TGは、多様性や動的度合いを損なうことなく、サンプルの品質を高めるために、オリジナルのモデルの整列した、劣化したバージョンを生成する。
論文参考訳（メタデータ） (2024-11-27T15:59:48Z)
3D Multi-Object Tracking with Semi-Supervised GRU-Kalman Filter [6.13623925528906]
3D Multi-Object Tracking (MOT)は、自律運転やロボットセンシングのようなインテリジェントなシステムに不可欠である。本稿では,学習可能なカルマンフィルタを移動モジュールに導入するGRUベースのMOT法を提案する。このアプローチは、データ駆動学習を通じてオブジェクトの動き特性を学習することができ、手動モデル設計やモデルエラーを回避することができる。
論文参考訳（メタデータ） (2024-11-13T08:34:07Z)
ReinDiffuse: Crafting Physically Plausible Motions with Reinforced Diffusion Model [9.525806425270428]
本稿では、強化学習と運動拡散モデルを組み合わせることで、物理的に信頼できる人間の動きを生成するEmphReinDiffuseを提案する。動作拡散モデルを用いてパラメータ化された動作分布を出力し、強化学習パラダイムに適合させる。我々のアプローチは、HumanML3DとKIT-MLという2つの主要なデータセット上で、既存の最先端モデルよりも優れています。
論文参考訳（メタデータ） (2024-10-09T16:24:11Z)
SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。 SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文参考訳（メタデータ） (2024-08-19T17:32:15Z)
Spectral Motion Alignment for Video Motion Transfer using Diffusion Models [54.32923808964701]
スペクトル運動アライメント(英: Spectral Motion Alignment、SMA)は、フーリエ変換とウェーブレット変換を用いて運動ベクトルを洗練・整列するフレームワークである。 SMAは周波数領域の正規化を取り入れて動きパターンを学習し、全体フレームのグローバルな動きのダイナミクスの学習を容易にする。大規模な実験は、様々なビデオカスタマイズフレームワーク間の計算効率と互換性を維持しながら、モーション転送を改善するSMAの有効性を示す。
論文参考訳（メタデータ） (2024-03-22T14:47:18Z)
Motion Flow Matching for Human Motion Synthesis and Editing [75.13665467944314]
本研究では,効率的なサンプリングと効率性を備えた人体運動生成のための新しい生成モデルであるemphMotion Flow Matchingを提案する。提案手法は, 従来の拡散モデルにおいて, サンプリングの複雑さを1000ステップから10ステップに減らし, テキスト・ツー・モーション・ジェネレーション・ベンチマークやアクション・ツー・モーション・ジェネレーション・ベンチマークで同等の性能を実現する。
論文参考訳（メタデータ） (2023-12-14T12:57:35Z)
Taming Diffusion Models for Music-driven Conducting Motion Generation [1.0624606551524207]
本稿では,Diffusion-Conductorについて述べる。本稿では,特徴のロバスト性を改善するためのランダムマスキング手法を提案し,幾何損失関数のペアを用いて正規化を付加する。また,Frechet Gesture Distance (FGD) や Beat Consistency Score (BC) など,より包括的な動作評価のための新しい指標も設計した。
論文参考訳（メタデータ） (2023-06-15T03:49:24Z)
Interactive Character Control with Auto-Regressive Motion Diffusion Models [18.727066177880708]
リアルタイム動作合成のためのA-MDM(Auto-Regressive Motion Diffusion Model)を提案する。我々の条件拡散モデルは初期ポーズを入力とし、前者のフレームに条件付けられた連続した動きフレームを自動回帰的に生成する。本稿では,タスク指向サンプリング,インペインティング,階層的強化学習など,対話型制御をA-MDMに組み込む一連の手法を紹介する。
論文参考訳（メタデータ） (2023-06-01T07:48:34Z)
Improving Unsupervised Video Object Segmentation with Motion-Appearance Synergy [52.03068246508119]
IMASは、トレーニングや推論において手動のアノテーションを使わずに、主要オブジェクトをビデオに分割する手法である。 IMASはMotion-Appearance Synergyによる改良されたUVOSを実現する。人間のアノテーションや手作りハイパーパラム特有のメトリクスで調整された重要なハイパーパラムのチューニングにおいて、その効果を実証する。
論文参考訳（メタデータ） (2022-12-17T06:47:30Z)
MotionHint: Self-Supervised Monocular Visual Odometry with Motion Constraints [70.76761166614511]
モノクローナルビジュアル・オドメトリー(VO)のための新しい自己教師型アルゴリズムMotionHintを提案する。我々のMotionHintアルゴリズムは、既存のオープンソースSSM-VOシステムに容易に適用できる。
論文参考訳（メタデータ） (2021-09-14T15:35:08Z)
Dynamic Model Pruning with Feedback [64.019079257231]
余分なオーバーヘッドを伴わずにスパーストレーニングモデルを生成する新しいモデル圧縮法を提案する。 CIFAR-10 と ImageNet を用いて本手法の評価を行い,得られたスパースモデルが高密度モデルの最先端性能に到達可能であることを示す。
論文参考訳（メタデータ） (2020-06-12T15:07:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。