論文の概要: DisCoRD: Discrete Tokens to Continuous Motion via Rectified Flow Decoding
- arxiv url: http://arxiv.org/abs/2411.19527v3
- Date: Fri, 18 Apr 2025 08:49:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-21 15:46:21.279144
- Title: DisCoRD: Discrete Tokens to Continuous Motion via Rectified Flow Decoding
- Title(参考訳): DisCoRD: 離散フローデコーディングによる継続的動作への離散トークン
- Authors: Jungbin Cho, Junwan Kim, Jisoo Kim, Minseo Kim, Mingu Kang, Sungeun Hong, Tae-Hyun Oh, Youngjae Yu,
- Abstract要約: 本稿では,離散的な動きトークンを復号化するための新しい手法であるDisCoRD: Discrete Tokens to Continuous Motion via Rectified Flow Decodingを紹介する。
私たちの中核となる考え方は、トークンのデコーディングを条件生成タスクとしてフレーム化し、DisCoRDがよりきめ細かなダイナミックスとよりスムーズで自然な動きをキャプチャすることを保証することです。
- 参考スコア(独自算出の注目度): 29.643549839940025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human motion is inherently continuous and dynamic, posing significant challenges for generative models. While discrete generation methods are widely used, they suffer from limited expressiveness and frame-wise noise artifacts. In contrast, continuous approaches produce smoother, more natural motion but often struggle to adhere to conditioning signals due to high-dimensional complexity and limited training data. To resolve this discord between discrete and continuous representations, we introduce DisCoRD: Discrete Tokens to Continuous Motion via Rectified Flow Decoding, a novel method that leverages rectified flow to decode discrete motion tokens in the continuous, raw motion space. Our core idea is to frame token decoding as a conditional generation task, ensuring that DisCoRD captures fine-grained dynamics and achieves smoother, more natural motions. Compatible with any discrete-based framework, our method enhances naturalness without compromising faithfulness to the conditioning signals on diverse settings. Extensive evaluations Our project page is available at: https://whwjdqls.github.io/discord.github.io/.
- Abstract(参考訳): 人間の動きは本質的に連続的で動的であり、生成モデルにとって重要な課題である。
離散生成法は広く用いられているが、表現力の制限やフレームワイドノイズアーティファクトに悩まされている。
対照的に、連続的なアプローチはより滑らかで自然な動きをもたらすが、高次元の複雑さと限られた訓練データのために条件付け信号に固執するのに苦労することが多い。
離散的かつ連続的な表現間のこの不一致を解決するために、離散的運動トークンを離散フローデコード(rectified Flow Decoding)により連続運動へ変換するDisCoRDを紹介した。
我々の中核となる考え方は、トークンのデコーディングを条件生成タスクとしてフレーム化し、DisCoRDがよりきめ細かなダイナミクスをキャプチャし、よりスムーズで自然な動きを達成することを保証することです。
本手法は,任意の離散的枠組みに適合し,様々な環境における条件付け信号への忠実さを損なうことなく自然性を高める。
大規模な評価 我々のプロジェクトページは以下の通りである。
関連論文リスト
- Fast Autoregressive Models for Continuous Latent Generation [49.079819389916764]
自己回帰モデルは、特にNLPにおいて、シーケンシャルなデータ生成において顕著な成功を収めている。
最近の研究で、マスク付き自己回帰モデル(MAR)は拡散ヘッドを用いて連続空間内のトーケン分布をモデル化することによって量子化をバイパスする。
本稿では,MARの拡散ヘッドを軽量ショートカットヘッドに置き換える新しいフレームワークであるFast AutoRegressive Model (FAR)を提案する。
論文 参考訳(メタデータ) (2025-04-24T13:57:08Z) - Flow Intelligence: Robust Feature Matching via Temporal Signature Correlation [12.239059174851654]
フローインテリジェンス(Flow Intelligence)は、時間的動きのパターンのみに焦点を当てたパラダイムシフトのアプローチである。
本手法は,連続するフレームにまたがる画素ブロックから動きのシグネチャを抽出し,ビデオ間の時間的動きのシグネチャを抽出する。
外観よりも動きを活用することで、フローインテリジェンスは多様な環境で堅牢でリアルタイムなビデオ特徴マッチングを可能にする。
論文 参考訳(メタデータ) (2025-04-16T10:25:20Z) - ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer [58.49950218437718]
音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。
Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vit)コアアーキテクチャに統合する。
モデルロバスト性を高めるため,ノイズ抵抗とクロスドメイン一般化の二重性を持つモデルに,提案したDER戦略を取り入れた。
論文 参考訳(メタデータ) (2025-03-27T16:39:40Z) - Auto-Regressive Diffusion for Generating 3D Human-Object Interactions [5.587507490937267]
HOI生成の鍵となる課題は、長いシーケンスでの相互作用の一貫性を維持することである。
本稿では,次の連続トークンを予測する自己回帰拡散モデル(ARDHOI)を提案する。
このモデルはOMOMOとBEHAVEのデータセットで評価されている。
論文 参考訳(メタデータ) (2025-03-21T02:25:59Z) - MotionStreamer: Streaming Motion Generation via Diffusion-based Autoregressive Model in Causal Latent Space [40.60429652169086]
テキスト条件付きストリーミングモーション生成では、可変長の歴史的動きと入ってくるテキストに基づいて、次のステップの人間のポーズを予測する必要がある。
既存の方法は、例えば拡散モデルが予め定義された動き長によって制約されるような、ストリーミングモーション生成を達成するのに苦労している。
本研究では,連続因果遅延空間を確率論的自己回帰モデルに組み込む新しいフレームワークであるMotionStreamerを提案する。
論文 参考訳(メタデータ) (2025-03-19T17:32:24Z) - Discrete to Continuous: Generating Smooth Transition Poses from Sign Language Observation [45.214169930573775]
本研究では,文脈的に滑らかな遷移フレームを合成するための条件拡散モデルを提案する。
本手法は,遷移フレーム生成の教師なし問題を教師なし学習タスクに変換する。
PHO14TENIX, USTC-CSL100, USTC-500データセットを用いた実験により, 本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-11-25T15:06:49Z) - Continuous Speculative Decoding for Autoregressive Image Generation [33.05392461723613]
連続評価された自己回帰(AR)画像生成モデルは、離散的傾向よりも顕著な優位性を示している。
投機的復号化は大規模言語モデル(LLM)の加速に有効であることが証明された
この研究は離散トークンから連続空間への投機的復号アルゴリズムを一般化する。
論文 参考訳(メタデータ) (2024-11-18T09:19:15Z) - Efficient Text-driven Motion Generation via Latent Consistency Training [21.348658259929053]
非線形逆拡散軌道を解くための動き潜時整合トレーニングフレームワーク(MLCT)を提案する。
これらの拡張を組み合わせることで、非画素モダリティおよび潜在表現空間における安定かつ一貫性のあるトレーニングを実現する。
論文 参考訳(メタデータ) (2024-05-05T02:11:57Z) - SMURF: Continuous Dynamics for Motion-Deblurring Radiance Fields [14.681688453270523]
本稿では,ニューラル常微分方程式(Neural-ODE)を用いて連続カメラの動きをモデル化する新しい手法である,逐次的動き理解放射場(SMURF)を提案する。
我々のモデルは、ベンチマークデータセットに対して厳密に評価され、定量的かつ定性的に最先端のパフォーマンスを実証する。
論文 参考訳(メタデータ) (2024-03-12T11:32:57Z) - Seamless Human Motion Composition with Blended Positional Encodings [38.85158088021282]
後処理や冗長な復調ステップを伴わずにシームレスなヒューマン・モーション・コンポジション(HMC)を生成する最初の拡散モデルであるフローMDMを紹介する。
我々はBabelとHumanML3Dデータセットの精度、リアリズム、スムーズさの観点から最先端の結果を得る。
論文 参考訳(メタデータ) (2024-02-23T18:59:40Z) - RoHM: Robust Human Motion Reconstruction via Diffusion [58.63706638272891]
RoHMは、モノクロRGB(-D)ビデオから頑健な3次元人間の動きを復元するためのアプローチである。
ノイズと閉鎖された入力データに条件付けし、一貫した大域座標で完全な可塑性運動を再構成した。
本手法は,テスト時に高速でありながら,定性的かつ定量的に最先端の手法より優れる。
論文 参考訳(メタデータ) (2024-01-16T18:57:50Z) - DiffusionPhase: Motion Diffusion in Frequency Domain [69.811762407278]
そこで本研究では,テキスト記述から高品質な人間の動作系列を生成する学習手法を提案する。
既存の技術は、任意の長さの動き列を生成する際に、動きの多様性と滑らかな遷移に苦しむ。
動作空間をコンパクトで表現力のあるパラメータ化位相空間に変換するネットワークエンコーダを開発する。
論文 参考訳(メタデータ) (2023-12-07T04:39:22Z) - Consistency Trajectory Models: Learning Probability Flow ODE Trajectory of Diffusion [56.38386580040991]
Consistency Trajectory Model (CTM) は Consistency Models (CM) の一般化である
CTMは、対戦訓練とスコアマッチング損失を効果的に組み合わせることで、パフォーマンスを向上させる。
CMとは異なり、CTMのスコア関数へのアクセスは、確立された制御可能/条件生成メソッドの採用を合理化することができる。
論文 参考訳(メタデータ) (2023-10-01T05:07:17Z) - A Cheaper and Better Diffusion Language Model with Soft-Masked Noise [62.719656543880596]
Masked-Diffuse LMは言語モデリングのための新しい拡散モデルであり、言語の言語的特徴に触発されている。
具体的には,テキストデータのノイズを改善するために,戦略的ソフトマスキングによってテキストに劣化を加える言語情報処理を設計する。
我々は,我々のMasked-Diffuse LMが,高効率の最先端拡散モデルよりも優れた生成品質を達成できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:58:42Z) - MoLo: Motion-augmented Long-short Contrastive Learning for Few-shot
Action Recognition [50.345327516891615]
我々は、長短コントラスト目的と動き自動デコーダを含む2つの重要なコンポーネントを含む動き強化長短コントラスト学習法(MoLo)を開発した。
MoLoは、広範囲の時間的コンテキストとモーションキューを同時に学習して、包括的な数ショットマッチングを実現する。
論文 参考訳(メタデータ) (2023-04-03T13:09:39Z) - Modelling Latent Dynamics of StyleGAN using Neural ODEs [52.03496093312985]
我々は、GANから独立に反転した潜在符号の軌跡を学習する。
学習した連続軌道により、無限のフレームと一貫したビデオ操作を行うことができる。
提案手法は最先端の性能を実現するが,計算量が少なくなる。
論文 参考訳(メタデータ) (2022-08-23T21:20:38Z) - Value Iteration in Continuous Actions, States and Time [99.00362538261972]
連続状態と動作に対する連続的適合値反復(cFVI)アルゴリズムを提案する。
非線形制御アフィンダイナミクスに対して最適なポリシを導出することができる。
物理システムのビデオは、urlhttps://sites.google.com/view/value-iteration.comで入手できる。
論文 参考訳(メタデータ) (2021-05-10T21:40:56Z) - Continuity-Discrimination Convolutional Neural Network for Visual Object
Tracking [150.51667609413312]
本稿では,視覚オブジェクト追跡のためのContinuity-Discrimination Convolutional Neural Network (CD-CNN) という新しいモデルを提案する。
この問題に対処するため、cd-cnnは時間的遅れの概念に基づいた時間的外観連続性をモデル化する。
不正確なターゲットの定位とドリフトを緩和するために,新しい概念 object-centroid を提案する。
論文 参考訳(メタデータ) (2021-04-18T06:35:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。