論文の概要: DisCoRD: Discrete Tokens to Continuous Motion via Rectified Flow Decoding
- arxiv url: http://arxiv.org/abs/2411.19527v2
- Date: Mon, 02 Dec 2024 03:34:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-03 13:36:09.016278
- Title: DisCoRD: Discrete Tokens to Continuous Motion via Rectified Flow Decoding
- Title(参考訳): DisCoRD: 離散フローデコーディングによる継続的動作への離散トークン
- Authors: Jungbin Cho, Junwan Kim, Jisoo Kim, Minseo Kim, Mingu Kang, Sungeun Hong, Tae-Hyun Oh, Youngjae Yu,
- Abstract要約: DisCoRDは離散的な動きトークンを整流によって連続的な動きにデコードする。
DisCoRDは最先端のパフォーマンスを実現し、HumanML3Dでは0.032、KIT-MLでは0.169である。
- 参考スコア(独自算出の注目度): 29.643549839940025
- License:
- Abstract: Human motion, inherently continuous and dynamic, presents significant challenges for generative models. Despite their dominance, discrete quantization methods, such as VQ-VAEs, suffer from inherent limitations, including restricted expressiveness and frame-wise noise artifacts. Continuous approaches, while producing smoother and more natural motions, often falter due to high-dimensional complexity and limited training data. To resolve this "discord" between discrete and continuous representations, we introduce DisCoRD: Discrete Tokens to Continuous Motion via Rectified Flow Decoding, a novel method that decodes discrete motion tokens into continuous motion through rectified flow. By employing an iterative refinement process in the continuous space, DisCoRD captures fine-grained dynamics and ensures smoother and more natural motions. Compatible with any discrete-based framework, our method enhances naturalness without compromising faithfulness to the conditioning signals. Extensive evaluations demonstrate that DisCoRD achieves state-of-the-art performance, with FID of 0.032 on HumanML3D and 0.169 on KIT-ML. These results solidify DisCoRD as a robust solution for bridging the divide between discrete efficiency and continuous realism. Our project page is available at: https://whwjdqls.github.io/discord.github.io/.
- Abstract(参考訳): 人間の動きは本質的に連続的かつ動的であり、生成モデルに重大な課題をもたらす。
その優位性にもかかわらず、VQ-VAEのような離散量子化法は、制限された表現性やフレームワイドノイズアーティファクトを含む固有の制限に悩まされている。
連続的なアプローチは、よりスムーズで自然な動きを生み出す一方で、高次元の複雑さと限られたトレーニングデータのためにしばしば失敗する。
離散的および連続的表現間のこの「不一致」を解決するために、離散的動きトークンを整流して連続的な動きに復号する新しい手法DisCoRD:disrete Tokens to Continuous Motion via Rectified Flow Decodingを紹介した。
連続空間において反復的な精細化プロセスを用いることで、DisCoRDはよりきめ細かなダイナミクスを捕捉し、より滑らかで自然な動きを確実にする。
本手法は,任意の離散的枠組みに適合し,条件付信号への忠実さを損なうことなく自然性を高める。
FIDはHumanML3Dが0.032、KIT-MLが0.169である。
これらの結果はDisCoRDを離散効率と連続リアリズムの分割をブリッジする堅牢な解として固める。
私たちのプロジェクトページは、https://whwjdqls.github.io/discord.github.io/で公開されています。
関連論文リスト
- Continuous Speculative Decoding for Autoregressive Image Generation [33.05392461723613]
連続評価された自己回帰(AR)画像生成モデルは、離散的傾向よりも顕著な優位性を示している。
投機的復号化は大規模言語モデル(LLM)の加速に有効であることが証明された
この研究は離散トークンから連続空間への投機的復号アルゴリズムを一般化する。
論文 参考訳(メタデータ) (2024-11-18T09:19:15Z) - LiveHPS++: Robust and Coherent Motion Capture in Dynamic Free Environment [17.832694508927407]
単一LiDARシステムに基づく革新的で効果的なソリューションであるLiveHPS++を紹介する。
3つのモジュールを巧妙に設計し,人間の動作から動的・運動学的特徴を学習することができる。
提案手法は,様々なデータセットにまたがって既存の最先端手法を大幅に超えることが証明されている。
論文 参考訳(メタデータ) (2024-07-13T10:04:45Z) - Motion-adaptive Separable Collaborative Filters for Blind Motion Deblurring [71.60457491155451]
様々な動きによって生じる画像のぼかしを除去することは、難しい問題である。
本研究では,動き適応型分離型協調フィルタと呼ばれる実世界のデブロアリングフィルタモデルを提案する。
本手法は,実世界の動きのぼかし除去に有効な解法を提供し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-04-19T19:44:24Z) - SMURF: Continuous Dynamics for Motion-Deblurring Radiance Fields [14.681688453270523]
本稿では,ニューラル常微分方程式(Neural-ODE)を用いて連続カメラの動きをモデル化する新しい手法である,逐次的動き理解放射場(SMURF)を提案する。
我々のモデルは、ベンチマークデータセットに対して厳密に評価され、定量的かつ定性的に最先端のパフォーマンスを実証する。
論文 参考訳(メタデータ) (2024-03-12T11:32:57Z) - Seamless Human Motion Composition with Blended Positional Encodings [38.85158088021282]
後処理や冗長な復調ステップを伴わずにシームレスなヒューマン・モーション・コンポジション(HMC)を生成する最初の拡散モデルであるフローMDMを紹介する。
我々はBabelとHumanML3Dデータセットの精度、リアリズム、スムーズさの観点から最先端の結果を得る。
論文 参考訳(メタデータ) (2024-02-23T18:59:40Z) - RoHM: Robust Human Motion Reconstruction via Diffusion [58.63706638272891]
RoHMは、モノクロRGB(-D)ビデオから頑健な3次元人間の動きを復元するためのアプローチである。
ノイズと閉鎖された入力データに条件付けし、一貫した大域座標で完全な可塑性運動を再構成した。
本手法は,テスト時に高速でありながら,定性的かつ定量的に最先端の手法より優れる。
論文 参考訳(メタデータ) (2024-01-16T18:57:50Z) - Consistency Trajectory Models: Learning Probability Flow ODE Trajectory of Diffusion [56.38386580040991]
Consistency Trajectory Model (CTM) は Consistency Models (CM) の一般化である
CTMは、対戦訓練とスコアマッチング損失を効果的に組み合わせることで、パフォーマンスを向上させる。
CMとは異なり、CTMのスコア関数へのアクセスは、確立された制御可能/条件生成メソッドの採用を合理化することができる。
論文 参考訳(メタデータ) (2023-10-01T05:07:17Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z) - Value Iteration in Continuous Actions, States and Time [99.00362538261972]
連続状態と動作に対する連続的適合値反復(cFVI)アルゴリズムを提案する。
非線形制御アフィンダイナミクスに対して最適なポリシを導出することができる。
物理システムのビデオは、urlhttps://sites.google.com/view/value-iteration.comで入手できる。
論文 参考訳(メタデータ) (2021-05-10T21:40:56Z) - Continuity-Discrimination Convolutional Neural Network for Visual Object
Tracking [150.51667609413312]
本稿では,視覚オブジェクト追跡のためのContinuity-Discrimination Convolutional Neural Network (CD-CNN) という新しいモデルを提案する。
この問題に対処するため、cd-cnnは時間的遅れの概念に基づいた時間的外観連続性をモデル化する。
不正確なターゲットの定位とドリフトを緩和するために,新しい概念 object-centroid を提案する。
論文 参考訳(メタデータ) (2021-04-18T06:35:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。