Fugu-MT 論文翻訳(概要): Generative Action Tell-Tales: Assessing Human Motion in Synthesized Videos

論文の概要: Generative Action Tell-Tales: Assessing Human Motion in Synthesized Videos

arxiv url: http://arxiv.org/abs/2512.01803v2
Date: Tue, 02 Dec 2025 23:22:22 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-04 13:29:31.956657
Title: Generative Action Tell-Tales: Assessing Human Motion in Synthesized Videos
Title（参考訳）: ジェネレーティブアクション・テルテール:合成ビデオにおける人間の動きの評価
Authors: Xavier Thomas, Youngsun Lim, Ananya Srinivasan, Audrey Zheng, Deepti Ghadiyaram,
Abstract要約: 実世界の人間の行動の学習された潜在空間から導かれる新しい評価基準を導入する。本手法は、外見に依存しない人間の骨格幾何学的特徴と外見に基づく特徴を融合させることにより、実世界の動きのニュアンス、制約、時間的滑らかさをまず捉える。生成した映像から,この学習された実世界の行動分布との距離を計測することにより,その行動の質を定量化する。
参考スコア（独自算出の注目度）: 4.872114804382539
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite rapid advances in video generative models, robust metrics for evaluating visual and temporal correctness of complex human actions remain elusive. Critically, existing pure-vision encoders and Multimodal Large Language Models (MLLMs) are strongly appearance-biased, lack temporal understanding, and thus struggle to discern intricate motion dynamics and anatomical implausibilities in generated videos. We tackle this gap by introducing a novel evaluation metric derived from a learned latent space of real-world human actions. Our method first captures the nuances, constraints, and temporal smoothness of real-world motion by fusing appearance-agnostic human skeletal geometry features with appearance-based features. We posit that this combined feature space provides a robust representation of action plausibility. Given a generated video, our metric quantifies its action quality by measuring the distance between its underlying representations and this learned real-world action distribution. For rigorous validation, we develop a new multi-faceted benchmark specifically designed to probe temporally challenging aspects of human action fidelity. Through extensive experiments, we show that our metric achieves substantial improvement of more than 68% compared to existing state-of-the-art methods on our benchmark, performs competitively on established external benchmarks, and has a stronger correlation with human perception. Our in-depth analysis reveals critical limitations in current video generative models and establishes a new standard for advanced research in video generation.
Abstract（参考訳）: ビデオ生成モデルの急速な進歩にもかかわらず、複雑な人間の行動の視覚的および時間的正当性を評価するための堅牢な指標は、いまだ解明されていない。批判的に、既存の純視覚エンコーダとMLLM(Multimodal Large Language Models)は、外見バイアスが強く、時間的理解が欠如しているため、生成されたビデオの複雑な運動力学と解剖学的不確実性を見極めるのに苦労している。現実の人間の行動の学習された潜在空間から導かれる新しい評価基準を導入することで、このギャップに対処する。本手法は、外見に依存しない人間の骨格幾何学的特徴と外見に基づく特徴を融合させることにより、実世界の動きのニュアンス、制約、時間的滑らかさをまず捉える。この統合された特徴空間は、アクション・プラウティビリティーの堅牢な表現を提供すると仮定する。生成した映像から,この学習実世界の行動分布との距離を計測することにより,その行動の質を定量化する。厳密な検証のために,人間の行動忠実性の時間的課題を調査するための多面的ベンチマークを新たに開発した。大規模な実験を通じて,我々の測定値が既存の最先端手法と比較して68%以上向上し,既存の外部ベンチマークと競合し,人間の知覚との相関が強いことを示す。我々の詳細な分析により、現在のビデオ生成モデルにおける限界が明らかになり、ビデオ生成における高度な研究のための新しい標準が確立される。

関連論文リスト

MSVBench: Towards Human-Level Evaluation of Multi-Shot Video Generation [48.84450712826316]
MSVBenchは、マルチショットビデオ生成に適した階層的なスクリプトと参照イメージを備えた最初の包括的なベンチマークである。本稿では,大規模マルチモーダルモデルの高レベルな意味推論と,ドメイン固有のエキスパートモデルの微粒な知覚的厳密さを相乗化するハイブリッド評価フレームワークを提案する。
論文参考訳（メタデータ） (2026-02-27T12:26:34Z)
StreamAvatar: Streaming Diffusion Models for Real-Time Interactive Human Avatars [32.75338796722652]
本研究では,リアルタイム対話型ストリーミングに高忠実度映像拡散モデルを適用するための2段階の自己回帰適応・加速フレームワークを提案する。自然な話し方と聞き方の両方をコヒーレントなジェスチャーで生成できるワンショット対話型アバターモデルを開発した。提案手法は, 生成品質, リアルタイム効率, インタラクション自然性において, 既存のアプローチを超越して, 最先端性能を実現する。
論文参考訳（メタデータ） (2025-12-26T15:41:24Z)
High-Fidelity and Long-Duration Human Image Animation with Diffusion Transformer [17.388852038062705]
拡散トランスフォーマ(DiT)ベースのフレームワークを提案する。まず,一組のハイブリッド暗黙誘導信号とシャープネス誘導因子を設計し,より詳細な顔と手の特徴をガイダンスとして組み込むことを可能にした。次に、タイムアウェアな位置シフト融合モジュールを組み込み、DiTバックボーン内の入力フォーマットを変更し、この機構を位置シフト適応モジュールと呼ぶ。
論文参考訳（メタデータ） (2025-12-26T07:36:48Z)
Dynamic Avatar-Scene Rendering from Human-centric Context [75.95641456716373]
分離されたモデルと最適化されたモデルをブリッジするbf分離マップ(StM)戦略を提案する。 StMは、視覚的品質とレンダリングの精度の両方において、既存の最先端の手法を著しく上回っている。
論文参考訳（メタデータ） (2025-11-13T17:39:06Z)
HumanVideo-MME: Benchmarking MLLMs for Human-Centric Video Understanding [120.84817886550765]
MLLM(Multimodal Large Language Models)は、画像とビデオの両方を含む視覚的理解タスクにおいて、大きな進歩を見せている。既存の人間中心のベンチマークは、主にビデオ生成の品質と行動認識を強調し、人間中心のシナリオに必要な知覚と認知の能力を見落としている。我々は,人間中心のビデオ理解におけるMLLMのより総合的な評価を提供するために,厳格にキュレートされたベンチマークを提案する。
論文参考訳（メタデータ） (2025-07-07T11:52:24Z)
GENMO: A GENeralist Model for Human MOtion [64.16188966024542]
本稿では,1つのフレームワークで動作推定と生成を橋渡しする汎用人体運動モデル GENMO を提案する。我々の重要な洞察は、出力運動が観測された条件信号を正確に満たさなければならないような制約された動き生成として運動推定を再構成することである。我々の新しいアーキテクチャは、可変長動きと混合マルチモーダル条件(テキスト、オーディオ、ビデオ)を異なる時間間隔で処理し、柔軟な制御を提供する。
論文参考訳（メタデータ） (2025-05-02T17:59:55Z)
RAGME: Retrieval Augmented Video Generation for Enhanced Motion Realism [73.38167494118746]
生成ビデオにおける動きのリアリズムを改善するための枠組みを提案する。生成フェーズにおける検索機構の導入を提唱する。私たちのパイプラインは、どんなテキスト間拡散モデルにも適用できるように設計されています。
論文参考訳（メタデータ） (2025-04-09T08:14:05Z)
MoManifold: Learning to Measure 3D Human Motion via Decoupled Joint Acceleration Manifolds [20.83684434910106]
我々は、連続した高次元運動空間における可塑性人間の動きをモデル化した、新しい人間の動きであるMoManifoldを提案する。具体的には、既存の限られた動きデータから人間の力学をモデル化する新しい結合加速法を提案する。大規模な実験により、MoManifoldはいくつかの下流タスクにおいて既存のSOTAよりも優れていることが示された。
論文参考訳（メタデータ） (2024-09-01T15:00:16Z)
Fréchet Video Motion Distance: A Metric for Evaluating Motion Consistency in Videos [13.368981834953981]
映像生成における動きの整合性を評価することを目的としたFr'echet Video Motion Distanceメトリックを提案する。具体的には、キーポイント追跡に基づく明示的な動作特徴を設計し、Fr'echet距離を用いてこれらの特徴間の類似度を測定する。我々は大規模な人間の研究を行い、我々の測定値が時間的ノイズを効果的に検出し、既存の測定値よりも生成された映像品質の人間の知覚とよく一致していることを示す。
論文参考訳（メタデータ） (2024-07-23T02:10:50Z)
Aligning Human Motion Generation with Human Perceptions [51.831338643012444]
本研究では,大規模人間の知覚評価データセットであるMotionPerceptと,人間の動作批判モデルであるMotionCriticを導入することにより,ギャップを埋めるデータ駆動型アプローチを提案する。我々の批評家モデルは、運動品質を評価するためのより正確な指標を提供しており、容易に運動生成パイプラインに統合することができる。
論文参考訳（メタデータ） (2024-07-02T14:01:59Z)
Enhanced Spatio-Temporal Context for Temporally Consistent Robust 3D Human Motion Recovery from Monocular Videos [5.258814754543826]
本稿では,モノクロ映像からの時間的一貫した動き推定手法を提案する。汎用的なResNetのような機能を使う代わりに、本手法ではボディ認識機能表現と独立したフレーム単位のポーズを使用する。提案手法は, 高速化誤差を著しく低減し, 既存の最先端手法よりも優れる。
論文参考訳（メタデータ） (2023-11-20T10:53:59Z)
Dynamic Future Net: Diversified Human Motion Generation [31.987602940970888]
人間のモーションモデリングはコンピュータグラフィックス、視覚、仮想現実など多くの分野で重要である。我々は,人間の運動力学の本質的な運動性に着目した新しい深層学習モデルであるDynamic Future Netを提案する。我々のモデルでは、任意の時間で多数の高品質な動きを生成でき、空間と時間の両方の変動を視覚的に解析することができる。
論文参考訳（メタデータ） (2020-08-25T02:31:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。