論文の概要: ARMFlow: AutoRegressive MeanFlow for Online 3D Human Reaction Generation
- arxiv url: http://arxiv.org/abs/2512.16234v1
- Date: Thu, 18 Dec 2025 06:28:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.951108
- Title: ARMFlow: AutoRegressive MeanFlow for Online 3D Human Reaction Generation
- Title(参考訳): ARMFlow:オンライン3Dヒューマン反応生成のための自動回帰平均フロー
- Authors: Zichen Geng, Zeeshan Hayder, Wei Liu, Hesheng Wang, Ajmal Mian,
- Abstract要約: 3次元の人間の反応生成は、高速な動きの忠実さ、リアルタイム推論、オンラインシナリオの自己回帰適応性という3つの大きな課題に直面している。
動作と速度の時間依存性をモデル化する,MeanFlowベースの自動回帰フレームワークであるARMFlowを提案する。
我々のシングルステップオンライン生成は、部分的なシーケンス条件のみを使用しながら、オフラインの最先端性能に適合しながら、InterHumanとInterXの既存のメソッドを40%以上FIDで上回ります。
- 参考スコア(独自算出の注目度): 48.716675019745885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D human reaction generation faces three main challenges:(1) high motion fidelity, (2) real-time inference, and (3) autoregressive adaptability for online scenarios. Existing methods fail to meet all three simultaneously. We propose ARMFlow, a MeanFlow-based autoregressive framework that models temporal dependencies between actor and reactor motions. It consists of a causal context encoder and an MLP-based velocity predictor. We introduce Bootstrap Contextual Encoding (BSCE) in training, encoding generated history instead of the ground-truth ones, to alleviate error accumulation in autoregressive generation. We further introduce the offline variant ReMFlow, achieving state-of-the-art performance with the fastest inference among offline methods. Our ARMFlow addresses key limitations of online settings by: (1) enhancing semantic alignment via a global contextual encoder; (2) achieving high accuracy and low latency in a single-step inference; and (3) reducing accumulated errors through BSCE. Our single-step online generation surpasses existing online methods on InterHuman and InterX by over 40% in FID, while matching offline state-of-the-art performance despite using only partial sequence conditions.
- Abstract(参考訳): 人間の3次元反応生成は,(1)高運動忠実度,(2)リアルタイム推論,(3)オンラインシナリオに対する自己回帰適応性の3つの課題に直面している。
既存の方法は3つ全てを同時に満たさない。
本稿では,アクタとリアクタの動きの時間依存性をモデル化する,MeanFlowベースの自動回帰フレームワークARMFlowを提案する。
因果文脈エンコーダとMPPに基づく速度予測器で構成される。
本稿では,自動回帰生成における誤り蓄積を軽減するため,BSCE(Bootstrap Contextual Encoding)をトレーニングで導入する。
さらに、オフラインメソッド間で最も高速な推論で最先端のパフォーマンスを実現するオフライン変種ReMFlowを紹介します。
ARMFlowは,(1)グローバルなコンテクストエンコーダによるセマンティックアライメントの強化,(2)シングルステップ推論における高精度かつ低レイテンシの実現,(3)BSCEによる累積エラーの削減など,オンライン設定の重要な制約に対処する。
私たちの単一ステップのオンライン生成は、部分的なシーケンス条件のみを使用しても、オフラインのパフォーマンスにマッチしながら、InterHumanとInterXの既存のオンラインメソッドを40%以上FIDで上回ります。
関連論文リスト
- One-Step Generative Policies with Q-Learning: A Reformulation of MeanFlow [56.13949180229929]
ノイズを直接行動にマッピングするオフライン強化学習のための一段階の生成ポリシーを,MeanFlowの残留的な再構成を通じて導入する。
本手法はオフライン・オフライン両方の強化学習環境において高い性能を実現する。
論文 参考訳(メタデータ) (2025-11-17T06:34:17Z) - INC: An Indirect Neural Corrector for Auto-Regressive Hybrid PDE Solvers [61.84396402100827]
本稿では,学習した補正を支配方程式に統合する間接ニューラルコレクタ(mathrmINC$)を提案する。
$mathrmINC$は、$t-1 + L$の順番でエラー増幅を減らし、$t$はタイムステップ、$L$はリプシッツ定数である。
大規模なベンチマークで$mathrmINC$をテストし、1Dカオスシステムから3D乱流まで、多くの異なる解法、神経バックボーン、テストケースをカバーした。
論文 参考訳(メタデータ) (2025-11-16T20:14:28Z) - MeanFlowSE: one-step generative speech enhancement via conditional mean flow [13.437825847370442]
MeanFlowSEは、軌道に沿った有限区間の平均速度を学習する条件付き生成モデルである。
VoiceBank-DEMANDでは、シングルステップモデルは多ステップベースラインよりも計算コストが大幅に低い強い知性、忠実性、知覚品質を実現する。
論文 参考訳(メタデータ) (2025-09-18T11:24:47Z) - SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining [62.433137130087445]
SuperFlow++は、連続するカメラペアを使用して事前トレーニングと下流タスクを統合する新しいフレームワークである。
SuperFlow++は様々なタスクや運転条件で最先端のメソッドよりも優れています。
強力な一般化性と計算効率により、SuperFlow++は、自動運転におけるデータ効率の高いLiDARベースの認識のための新しいベンチマークを確立する。
論文 参考訳(メタデータ) (2025-03-25T17:59:57Z) - Auto-Regressive Diffusion for Generating 3D Human-Object Interactions [5.587507490937267]
HOI生成の鍵となる課題は、長いシーケンスでの相互作用の一貫性を維持することである。
本稿では,次の連続トークンを予測する自己回帰拡散モデル(ARDHOI)を提案する。
このモデルはOMOMOとBEHAVEのデータセットで評価されている。
論文 参考訳(メタデータ) (2025-03-21T02:25:59Z) - AdaFlow: Imitation Learning with Variance-Adaptive Flow-Based Policies [21.024480978703288]
本稿では,フローベース生成モデルに基づく模倣学習フレームワークであるAdaFlowを提案する。
AdaFlowは状態条件付き常微分方程式(ODE)によるポリシーを表す
AdaFlowは高速な推論速度で高い性能を実現する。
論文 参考訳(メタデータ) (2024-02-06T10:15:38Z) - GeneFace++: Generalized and Stable Real-Time Audio-Driven 3D Talking
Face Generation [71.73912454164834]
音声-リップ同期の汎用化, 画質の向上, システム効率の向上が期待できる。
NeRFは、数分間のトレーニングビデオで高忠実で3D一貫性のある会話顔生成を実現することができるため、この分野で一般的な技術となっている。
そこで我々は,これらの課題に対処するためにGeneFace++を提案し,ピッチの輪郭を補助的特徴として利用し,顔の動き予測プロセスに時間的損失を導入する。
論文 参考訳(メタデータ) (2023-05-01T12:24:09Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。