Fugu-MT 論文翻訳(概要): FlowMotion: Target-Predictive Flow Matching for Realistic Text-Driven Human Motion Generation

論文の概要: FlowMotion: Target-Predictive Flow Matching for Realistic Text-Driven Human Motion Generation

arxiv url: http://arxiv.org/abs/2504.01338v1
Date: Wed, 02 Apr 2025 03:55:21 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-03 19:59:19.225593
Title: FlowMotion: Target-Predictive Flow Matching for Realistic Text-Driven Human Motion Generation
Title（参考訳）: FlowMotion:リアルテキスト駆動型ヒューマンモーション生成のためのターゲット予測フローマッチング
Authors: Manolo Canales Cuba, João Paulo Gois,
Abstract要約: FlowMotionは、条件付きフローマッチングを利用して、モーション合成を改善する新しいアプローチである。目標運動をより正確に予測し、CFMに関連する固有のジッタを減らすという、革新的な訓練目標が組み込まれている。実験の結果,FlowMotion は運動の滑らかさと一般化能力のバランスを高くすることがわかった。
参考スコア（独自算出の注目度）: 0.7366405857677227
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Achieving highly diverse and perceptually consistent 3D character animations with natural motion and low computational costs remains a challenge in computer animation. Existing methods often struggle to provide the nuanced complexity of human movement, resulting in perceptual inconsistencies and motion artifacts. To tackle these issues, we introduce FlowMotion, a novel approach that leverages Conditional Flow Matching (CFM) for improved motion synthesis. FlowMotion incorporates an innovative training objective that more accurately predicts target motion, reducing the inherent jitter associated with CFM while enhancing stability, realism, and computational efficiency in generating animations. This direct prediction approach enhances the perceptual quality of animations by reducing erratic motion and aligning the training more closely with the dynamic characteristics of human movement. Our experimental results demonstrate that FlowMotion achieves higher balance between motion smoothness and generalization capability while maintaining the computational efficiency inherent in flow matching compared to state-of-the-art methods.
Abstract（参考訳）: 自然運動と計算コストの低い高度に多様かつ知覚的に整合した3Dキャラクターアニメーションを実現することは、コンピュータアニメーションの課題である。既存の方法はしばしば人間の動きの微妙な複雑さを提供するのに苦労し、知覚上の矛盾と動きの人工物をもたらす。これらの問題に対処するために,条件付きフローマッチング(CFM)を利用した動き合成の改良手法であるFlowMotionを導入する。 FlowMotionは、目標運動をより正確に予測し、CFMに関連する固有のジッタを減らすとともに、アニメーション生成の安定性、リアリズム、計算効率を向上させる革新的なトレーニング目標を組み込んでいる。この直接予測アプローチは、過激な動きを減らし、トレーニングを人間の運動の動的な特性とより密に調整することにより、アニメーションの知覚品質を高める。実験の結果,FlowMotionは動きの滑らかさと一般化能力のバランスを保ちながら,フローマッチングに固有の計算効率を最先端の手法と比較した上で高いバランスを保っていることがわかった。

関連論文リスト

ReMoMask: Retrieval-Augmented Masked Motion Generation [8.471755159366221]
Text-to-Motion (T2M) の生成は、自然言語記述から現実的で意味的に整合した人間の動作シーケンスを合成することを目的としている。 3つの重要なイノベーションを統合する統合フレームワークであるReMoMaskを提案する。双方向Momentum Text-Motion Modelは、モーメントキューを介してバッチサイズから負のサンプルスケールを分離し、クロスモーダル検索精度を大幅に改善する。 Semantic Spatio-temporal Attentionメカニズムは、非同期アーティファクトを排除するために、部分レベル融合中の生体力学的制約を強制する。
論文参考訳（メタデータ） (2025-08-04T16:56:35Z)
MoDiT: Learning Highly Consistent 3D Motion Coefficients with Diffusion Transformer for Talking Head Generation [16.202732894319084]
MoDiT は 3D Morphable Model (3DMM) と Diffusion-based Transformer を組み合わせた新しいフレームワークである。 i) 時間的注意と偏りのある自己/横断的意識のメカニズムを改良した階層的認知戦略により, モデルによる唇同期の洗練が可能となった。 2) 空間的制約を明確化し, 正確な3次元インフォームド光流予測を実現するための3次元MM係数の統合。
論文参考訳（メタデータ） (2025-07-07T15:13:46Z)
MOGO: Residual Quantized Hierarchical Causal Transformer for High-Quality and Real-Time 3D Human Motion Generation [3.6669020073583756]
MOGOは、効率的でリアルタイムな3Dモーション生成に適した新しい自動回帰フレームワークである。 MoGOは、運動スケール適応型残留ベクトル量子化モジュールであるMoSA-VQと、残留量子化階層型因果変換器であるRQHC-Transformerの2つの重要なコンポーネントから構成される。意味的忠実性を高めるために,テキスト制御下での動作復号化を改善するテキスト条件アライメント機構を導入する。
論文参考訳（メタデータ） (2025-06-06T10:26:54Z)
SViMo: Synchronized Diffusion for Video and Motion Generation in Hand-object Interaction Scenarios [48.09735396455107]
ハンドオブジェクトインタラクション(HOI)生成には、大きな応用可能性がある。現在の3D HOIモーション生成アプローチは、事前に定義された3Dオブジェクトモデルとラボでキャプチャされたモーションデータに大きく依存している。本稿では,同期拡散プロセス内での視覚的事前制約と動的制約を組み合わせることで,HOIビデオと動きを同時に生成するフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-03T05:04:29Z)
ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer [58.49950218437718]
音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。 Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vit)コアアーキテクチャに統合する。モデルロバスト性を高めるため,ノイズ抵抗とクロスドメイン一般化の二重性を持つモデルに,提案したDER戦略を取り入れた。
論文参考訳（メタデータ） (2025-03-27T16:39:40Z)
SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining [62.433137130087445]
SuperFlow++は、連続するカメラペアを使用して事前トレーニングと下流タスクを統合する新しいフレームワークである。 SuperFlow++は様々なタスクや運転条件で最先端のメソッドよりも優れています。強力な一般化性と計算効率により、SuperFlow++は、自動運転におけるデータ効率の高いLiDARベースの認識のための新しいベンチマークを確立する。
論文参考訳（メタデータ） (2025-03-25T17:59:57Z)
MotionDiff: Training-free Zero-shot Interactive Motion Editing via Flow-assisted Multi-view Diffusion [20.142107033583027]
MotionDiffは、複雑な多視点モーション編集に光フローを利用する、トレーニング不要なゼロショット拡散法である。これは、高品質な多視点一貫した運動結果を達成するために、他の物理学ベースの生成運動編集法よりも優れている。 MotionDiffは再トレーニングを必要としないので、ユーザは様々なダウンストリームタスクに便利に適応できる。
論文参考訳（メタデータ） (2025-03-22T08:32:56Z)
FRMD: Fast Robot Motion Diffusion with Consistency-Distilled Movement Primitives for Smooth Action Generation [3.7351623987275873]
本研究では,スムーズかつ時間的に一貫したロボットの動きを生成するための高速ロボット運動拡散法を提案する。本手法は,移動プリミティブ(MP)と一貫性モデルを統合し,効率的な単一ステップ軌道生成を実現する。その結果,FRMDはより高速でスムーズな軌道を発生し,高い成功率を達成できた。
論文参考訳（メタデータ） (2025-03-03T20:56:39Z)
Motion-Aware Generative Frame Interpolation [23.380470636851022]
フローベースのフレーム法は、推定中間フローを通しての運動安定性を保証するが、複雑な動き領域で深刻なアーティファクトを導入することが多い。大規模な事前学習ビデオ生成モデルによって強化された最近の生成的アプローチは、複雑なシーンの処理において有望であることを示している。本研究では、中間フロー誘導と生成能力を相乗化して忠実度を高める動き認識生成フレーム(MoG)を提案する。
論文参考訳（メタデータ） (2025-01-07T11:03:43Z)
A Plug-and-Play Physical Motion Restoration Approach for In-the-Wild High-Difficulty Motions [56.709280823844374]
動作コンテキストとビデオマスクを利用して、欠陥のある動作を修復するマスクベースの動作補正モジュール(MCM)を導入する。また,運動模倣のための事前訓練および適応手法を用いた物理ベースの運動伝達モジュール (PTM) を提案する。本手法は,高速な移動を含む映像モーションキャプチャ結果を物理的に洗練するためのプラグイン・アンド・プレイモジュールとして設計されている。
論文参考訳（メタデータ） (2024-12-23T08:26:00Z)
ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文参考訳（メタデータ） (2024-11-12T11:32:56Z)
Generalizable Implicit Motion Modeling for Video Frame Interpolation [51.966062283735596]
フローベースビデオフレーム補間(VFI)における動きの重要性本稿では,動きモデリングVFIの新規かつ効果的なアプローチである一般インプリシット・モーション・モデリング(IMM)を紹介する。我々のGIMMは、正確にモデル化された動きを供給することによって、既存のフローベースVFIワークと容易に統合できる。
論文参考訳（メタデータ） (2024-07-11T17:13:15Z)
BAMM: Bidirectional Autoregressive Motion Model [14.668729995275807]
Bidirectional Autoregressive Motion Model (BAMM) は、新しいテキスト・ツー・モーション生成フレームワークである。 BAMMは2つの重要な構成要素から構成される: 3次元の人間の動きを潜在空間の離散トークンに変換するモーショントークンライザと、ランダムにマスクされたトークンを自動回帰予測するマスク付き自己注意変換器である。この機能により、BAMMは、ユーザビリティと内蔵モーション編集性を向上し、高品質なモーション生成を同時に達成できる。
論文参考訳（メタデータ） (2024-03-28T14:04:17Z)
Spectral Motion Alignment for Video Motion Transfer using Diffusion Models [54.32923808964701]
スペクトル運動アライメント(英: Spectral Motion Alignment、SMA)は、フーリエ変換とウェーブレット変換を用いて運動ベクトルを洗練・整列するフレームワークである。 SMAは周波数領域の正規化を取り入れて動きパターンを学習し、全体フレームのグローバルな動きのダイナミクスの学習を容易にする。大規模な実験は、様々なビデオカスタマイズフレームワーク間の計算効率と互換性を維持しながら、モーション転送を改善するSMAの有効性を示す。
論文参考訳（メタデータ） (2024-03-22T14:47:18Z)
Seamless Human Motion Composition with Blended Positional Encodings [38.85158088021282]
後処理や冗長な復調ステップを伴わずにシームレスなヒューマン・モーション・コンポジション(HMC)を生成する最初の拡散モデルであるフローMDMを紹介する。我々はBabelとHumanML3Dデータセットの精度、リアリズム、スムーズさの観点から最先端の結果を得る。
論文参考訳（メタデータ） (2024-02-23T18:59:40Z)
ALERT-Transformer: Bridging Asynchronous and Synchronous Machine Learning for Real-Time Event-based Spatio-Temporal Data [8.660721666999718]
非同期センシングと同期処理を組み合わせたハイブリッドパイプラインを提案する。競争相手よりもレイテンシの低い最先端のパフォーマンスを実現しています。
論文参考訳（メタデータ） (2024-02-02T13:17:19Z)
Motion Flow Matching for Human Motion Synthesis and Editing [75.13665467944314]
本研究では,効率的なサンプリングと効率性を備えた人体運動生成のための新しい生成モデルであるemphMotion Flow Matchingを提案する。提案手法は, 従来の拡散モデルにおいて, サンプリングの複雑さを1000ステップから10ステップに減らし, テキスト・ツー・モーション・ジェネレーション・ベンチマークやアクション・ツー・モーション・ジェネレーション・ベンチマークで同等の性能を実現する。
論文参考訳（メタデータ） (2023-12-14T12:57:35Z)
AAMDM: Accelerated Auto-regressive Motion Diffusion Model [10.94879097495769]
本稿では,AAMDM(Accelerated Auto-Regressive Motion Diffusion Model)を紹介する。 AAMDMは、品質、多様性、効率性を同時に達成するために設計された、新しいモーション合成フレームワークである。 AAMDMは動作品質,多様性,実行効率において,既存の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-12-02T23:52:21Z)
Human MotionFormer: Transferring Human Motions with Vision Transformers [73.48118882676276]
人間の動き伝達は、運動合成のためにターゲットの動的人物からソースの静的人物に動きを伝達することを目的としている。本稿では,世界的および地域的認識を活用して,大規模かつ微妙な動きマッチングを捉える階層型ViTフレームワークであるHuman MotionFormerを提案する。我々のHuman MotionFormerは、定性的かつ定量的に新しい最先端のパフォーマンスをセットしている。
論文参考訳（メタデータ） (2023-02-22T11:42:44Z)
MoFusion: A Framework for Denoising-Diffusion-based Motion Synthesis [73.52948992990191]
MoFusionは、高品質な条件付き人間のモーション合成のための新しいノイズ拡散ベースのフレームワークである。本研究では,運動拡散フレームワーク内での運動可視性に対して,よく知られたキネマティック損失を導入する方法を提案する。文献の確立されたベンチマークにおけるMoFusionの有効性を,技術の現状と比較した。
論文参考訳（メタデータ） (2022-12-08T18:59:48Z)
GMFlow: Learning Optical Flow via Global Matching [124.57850500778277]
光フロー推定学習のためのGMFlowフレームワークを提案する。機能拡張のためのカスタマイズトランスフォーマー、グローバル機能マッチングのための相関層とソフトマックス層、フロー伝搬のための自己保持層である。我々の新しいフレームワークは、挑戦的なSintelベンチマークにおいて、32項目RAFTのパフォーマンスより優れています。
論文参考訳（メタデータ） (2021-11-26T18:59:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。