Fugu-MT 論文翻訳(概要): FlowMotion: Target-Predictive Conditional Flow Matching for Jitter-Reduced Text-Driven Human Motion Generation

論文の概要: FlowMotion: Target-Predictive Conditional Flow Matching for Jitter-Reduced Text-Driven Human Motion Generation

arxiv url: http://arxiv.org/abs/2504.01338v3
Date: Fri, 25 Apr 2025 02:39:26 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-28 18:47:07.494318
Title: FlowMotion: Target-Predictive Conditional Flow Matching for Jitter-Reduced Text-Driven Human Motion Generation
Title（参考訳）: FlowMotion:jitter-Reduced Text-Driven Human Motion Generationのための目標予測条件付きフローマッチング
Authors: Manolo Canales Cuba, Vinícius do Carmo Melício, João Paulo Gois,
Abstract要約: FlowMotionは、人間の3Dモーション生成における目標運動をより正確に予測することに焦点を当てたトレーニング目標を組み込んでいる。 FlowMotionは最先端のジッタパフォーマンスを実現し、KITデータセットで最高のジッタ、HumanML3Dデータセットで2番目に高いジッタを実現している。
参考スコア（独自算出の注目度）: 0.6554326244334868
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Achieving high-fidelity and temporally smooth 3D human motion generation remains a challenge, particularly within resource-constrained environments. We introduce FlowMotion, a novel method leveraging Conditional Flow Matching (CFM). FlowMotion incorporates a training objective within CFM that focuses on more accurately predicting target motion in 3D human motion generation, resulting in enhanced generation fidelity and temporal smoothness while maintaining the fast synthesis times characteristic of flow-matching-based methods. FlowMotion achieves state-of-the-art jitter performance, achieving the best jitter in the KIT dataset and the second-best jitter in the HumanML3D dataset, and a competitive FID value in both datasets. This combination provides robust and natural motion sequences, offering a promising equilibrium between generation quality and temporal naturalness.
Abstract（参考訳）: 高忠実で時間的にスムーズな3Dモーション生成を実現することは、特に資源に制約のある環境において課題である。本稿では,条件付きフローマッチング (CFM) を利用した新しい手法であるFlowMotionを紹介する。 FlowMotionは、CFMにトレーニングの目標を組み込んで、3次元の人体運動生成における目標運動をより正確に予測し、フローマッチング方式の高速な合成時間を維持しながら、生成の忠実度と時間的滑らかさを高める。 FlowMotionは最先端のジッタのパフォーマンスを実現し、KITデータセットで最高のジッタ、HumanML3Dデータセットで2番目に高いジッタ、両方のデータセットで競合するFID値を実現している。この組み合わせは、堅牢かつ自然な運動列を提供し、生成品質と時間的自然性の間に有望な平衡を与える。

関連論文リスト

ReMoMask: Retrieval-Augmented Masked Motion Generation [8.471755159366221]
Text-to-Motion (T2M) の生成は、自然言語記述から現実的で意味的に整合した人間の動作シーケンスを合成することを目的としている。 3つの重要なイノベーションを統合する統合フレームワークであるReMoMaskを提案する。双方向Momentum Text-Motion Modelは、モーメントキューを介してバッチサイズから負のサンプルスケールを分離し、クロスモーダル検索精度を大幅に改善する。 Semantic Spatio-temporal Attentionメカニズムは、非同期アーティファクトを排除するために、部分レベル融合中の生体力学的制約を強制する。
論文参考訳（メタデータ） (2025-08-04T16:56:35Z)
MoDiT: Learning Highly Consistent 3D Motion Coefficients with Diffusion Transformer for Talking Head Generation [16.202732894319084]
MoDiT は 3D Morphable Model (3DMM) と Diffusion-based Transformer を組み合わせた新しいフレームワークである。 i) 時間的注意と偏りのある自己/横断的意識のメカニズムを改良した階層的認知戦略により, モデルによる唇同期の洗練が可能となった。 2) 空間的制約を明確化し, 正確な3次元インフォームド光流予測を実現するための3次元MM係数の統合。
論文参考訳（メタデータ） (2025-07-07T15:13:46Z)
MOGO: Residual Quantized Hierarchical Causal Transformer for High-Quality and Real-Time 3D Human Motion Generation [3.6669020073583756]
MOGOは、効率的でリアルタイムな3Dモーション生成に適した新しい自動回帰フレームワークである。 MoGOは、運動スケール適応型残留ベクトル量子化モジュールであるMoSA-VQと、残留量子化階層型因果変換器であるRQHC-Transformerの2つの重要なコンポーネントから構成される。意味的忠実性を高めるために,テキスト制御下での動作復号化を改善するテキスト条件アライメント機構を導入する。
論文参考訳（メタデータ） (2025-06-06T10:26:54Z)
SViMo: Synchronized Diffusion for Video and Motion Generation in Hand-object Interaction Scenarios [48.09735396455107]
ハンドオブジェクトインタラクション(HOI)生成には、大きな応用可能性がある。現在の3D HOIモーション生成アプローチは、事前に定義された3Dオブジェクトモデルとラボでキャプチャされたモーションデータに大きく依存している。本稿では,同期拡散プロセス内での視覚的事前制約と動的制約を組み合わせることで,HOIビデオと動きを同時に生成するフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-03T05:04:29Z)
ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer [58.49950218437718]
音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。 Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vit)コアアーキテクチャに統合する。モデルロバスト性を高めるため,ノイズ抵抗とクロスドメイン一般化の二重性を持つモデルに,提案したDER戦略を取り入れた。
論文参考訳（メタデータ） (2025-03-27T16:39:40Z)
SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining [62.433137130087445]
SuperFlow++は、連続するカメラペアを使用して事前トレーニングと下流タスクを統合する新しいフレームワークである。 SuperFlow++は様々なタスクや運転条件で最先端のメソッドよりも優れています。強力な一般化性と計算効率により、SuperFlow++は、自動運転におけるデータ効率の高いLiDARベースの認識のための新しいベンチマークを確立する。
論文参考訳（メタデータ） (2025-03-25T17:59:57Z)
MotionDiff: Training-free Zero-shot Interactive Motion Editing via Flow-assisted Multi-view Diffusion [20.142107033583027]
MotionDiffは、複雑な多視点モーション編集に光フローを利用する、トレーニング不要なゼロショット拡散法である。これは、高品質な多視点一貫した運動結果を達成するために、他の物理学ベースの生成運動編集法よりも優れている。 MotionDiffは再トレーニングを必要としないので、ユーザは様々なダウンストリームタスクに便利に適応できる。
論文参考訳（メタデータ） (2025-03-22T08:32:56Z)
FRMD: Fast Robot Motion Diffusion with Consistency-Distilled Movement Primitives for Smooth Action Generation [3.7351623987275873]
本研究では,スムーズかつ時間的に一貫したロボットの動きを生成するための高速ロボット運動拡散法を提案する。本手法は,移動プリミティブ(MP)と一貫性モデルを統合し,効率的な単一ステップ軌道生成を実現する。その結果,FRMDはより高速でスムーズな軌道を発生し,高い成功率を達成できた。
論文参考訳（メタデータ） (2025-03-03T20:56:39Z)
Motion-Aware Generative Frame Interpolation [23.380470636851022]
フローベースのフレーム法は、推定中間フローを通しての運動安定性を保証するが、複雑な動き領域で深刻なアーティファクトを導入することが多い。大規模な事前学習ビデオ生成モデルによって強化された最近の生成的アプローチは、複雑なシーンの処理において有望であることを示している。本研究では、中間フロー誘導と生成能力を相乗化して忠実度を高める動き認識生成フレーム(MoG)を提案する。
論文参考訳（メタデータ） (2025-01-07T11:03:43Z)
A Plug-and-Play Physical Motion Restoration Approach for In-the-Wild High-Difficulty Motions [56.709280823844374]
動作コンテキストとビデオマスクを利用して、欠陥のある動作を修復するマスクベースの動作補正モジュール(MCM)を導入する。また,運動模倣のための事前訓練および適応手法を用いた物理ベースの運動伝達モジュール (PTM) を提案する。本手法は,高速な移動を含む映像モーションキャプチャ結果を物理的に洗練するためのプラグイン・アンド・プレイモジュールとして設計されている。
論文参考訳（メタデータ） (2024-12-23T08:26:00Z)
ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文参考訳（メタデータ） (2024-11-12T11:32:56Z)
Generalizable Implicit Motion Modeling for Video Frame Interpolation [51.966062283735596]
フローベースビデオフレーム補間(VFI)における動きの重要性本稿では,動きモデリングVFIの新規かつ効果的なアプローチである一般インプリシット・モーション・モデリング(IMM)を紹介する。我々のGIMMは、正確にモデル化された動きを供給することによって、既存のフローベースVFIワークと容易に統合できる。
論文参考訳（メタデータ） (2024-07-11T17:13:15Z)
BAMM: Bidirectional Autoregressive Motion Model [14.668729995275807]
Bidirectional Autoregressive Motion Model (BAMM) は、新しいテキスト・ツー・モーション生成フレームワークである。 BAMMは2つの重要な構成要素から構成される: 3次元の人間の動きを潜在空間の離散トークンに変換するモーショントークンライザと、ランダムにマスクされたトークンを自動回帰予測するマスク付き自己注意変換器である。この機能により、BAMMは、ユーザビリティと内蔵モーション編集性を向上し、高品質なモーション生成を同時に達成できる。
論文参考訳（メタデータ） (2024-03-28T14:04:17Z)
Spectral Motion Alignment for Video Motion Transfer using Diffusion Models [54.32923808964701]
スペクトル運動アライメント(英: Spectral Motion Alignment、SMA)は、フーリエ変換とウェーブレット変換を用いて運動ベクトルを洗練・整列するフレームワークである。 SMAは周波数領域の正規化を取り入れて動きパターンを学習し、全体フレームのグローバルな動きのダイナミクスの学習を容易にする。大規模な実験は、様々なビデオカスタマイズフレームワーク間の計算効率と互換性を維持しながら、モーション転送を改善するSMAの有効性を示す。
論文参考訳（メタデータ） (2024-03-22T14:47:18Z)
Seamless Human Motion Composition with Blended Positional Encodings [38.85158088021282]
後処理や冗長な復調ステップを伴わずにシームレスなヒューマン・モーション・コンポジション(HMC)を生成する最初の拡散モデルであるフローMDMを紹介する。我々はBabelとHumanML3Dデータセットの精度、リアリズム、スムーズさの観点から最先端の結果を得る。
論文参考訳（メタデータ） (2024-02-23T18:59:40Z)
ALERT-Transformer: Bridging Asynchronous and Synchronous Machine Learning for Real-Time Event-based Spatio-Temporal Data [8.660721666999718]
非同期センシングと同期処理を組み合わせたハイブリッドパイプラインを提案する。競争相手よりもレイテンシの低い最先端のパフォーマンスを実現しています。
論文参考訳（メタデータ） (2024-02-02T13:17:19Z)
Motion Flow Matching for Human Motion Synthesis and Editing [75.13665467944314]
本研究では,効率的なサンプリングと効率性を備えた人体運動生成のための新しい生成モデルであるemphMotion Flow Matchingを提案する。提案手法は, 従来の拡散モデルにおいて, サンプリングの複雑さを1000ステップから10ステップに減らし, テキスト・ツー・モーション・ジェネレーション・ベンチマークやアクション・ツー・モーション・ジェネレーション・ベンチマークで同等の性能を実現する。
論文参考訳（メタデータ） (2023-12-14T12:57:35Z)
AAMDM: Accelerated Auto-regressive Motion Diffusion Model [10.94879097495769]
本稿では,AAMDM(Accelerated Auto-Regressive Motion Diffusion Model)を紹介する。 AAMDMは、品質、多様性、効率性を同時に達成するために設計された、新しいモーション合成フレームワークである。 AAMDMは動作品質,多様性,実行効率において,既存の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-12-02T23:52:21Z)
Human MotionFormer: Transferring Human Motions with Vision Transformers [73.48118882676276]
人間の動き伝達は、運動合成のためにターゲットの動的人物からソースの静的人物に動きを伝達することを目的としている。本稿では,世界的および地域的認識を活用して,大規模かつ微妙な動きマッチングを捉える階層型ViTフレームワークであるHuman MotionFormerを提案する。我々のHuman MotionFormerは、定性的かつ定量的に新しい最先端のパフォーマンスをセットしている。
論文参考訳（メタデータ） (2023-02-22T11:42:44Z)
MoFusion: A Framework for Denoising-Diffusion-based Motion Synthesis [73.52948992990191]
MoFusionは、高品質な条件付き人間のモーション合成のための新しいノイズ拡散ベースのフレームワークである。本研究では,運動拡散フレームワーク内での運動可視性に対して,よく知られたキネマティック損失を導入する方法を提案する。文献の確立されたベンチマークにおけるMoFusionの有効性を,技術の現状と比較した。
論文参考訳（メタデータ） (2022-12-08T18:59:48Z)
GMFlow: Learning Optical Flow via Global Matching [124.57850500778277]
光フロー推定学習のためのGMFlowフレームワークを提案する。機能拡張のためのカスタマイズトランスフォーマー、グローバル機能マッチングのための相関層とソフトマックス層、フロー伝搬のための自己保持層である。我々の新しいフレームワークは、挑戦的なSintelベンチマークにおいて、32項目RAFTのパフォーマンスより優れています。
論文参考訳（メタデータ） (2021-11-26T18:59:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。