論文の概要: Robust Motion Generation using Part-level Reliable Data from Videos
- arxiv url: http://arxiv.org/abs/2512.12703v1
- Date: Sun, 14 Dec 2025 14:15:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.392545
- Title: Robust Motion Generation using Part-level Reliable Data from Videos
- Title(参考訳): 映像からの部分信頼度データを用いたロバストな動き生成
- Authors: Boyuan Li, Sipeng Zheng, Bin Cao, Ruihua Song, Zongqing Lu,
- Abstract要約: 本稿では,映像から抽出した信頼度の高い部分レベルデータを活用し,動作生成を向上させることを提案する。
人間の体を5つの部分に分解し、ビデオフレームではっきりと見える部分を「クレディブル」として検出する。
本稿では,これらのノイズを無視しながら,頑健な部分レベルのマスク生成モデルを提案する。
- 参考スコア(独自算出の注目度): 40.034073222954284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Extracting human motion from large-scale web videos offers a scalable solution to the data scarcity issue in character animation. However, some human parts in many video frames cannot be seen due to off-screen captures or occlusions. It brings a dilemma: discarding the data missing any part limits scale and diversity, while retaining it compromises data quality and model performance. To address this problem, we propose leveraging credible part-level data extracted from videos to enhance motion generation via a robust part-aware masked autoregression model. First, we decompose a human body into five parts and detect the parts clearly seen in a video frame as "credible". Second, the credible parts are encoded into latent tokens by our proposed part-aware variational autoencoder. Third, we propose a robust part-level masked generation model to predict masked credible parts, while ignoring those noisy parts. In addition, we contribute K700-M, a challenging new benchmark comprising approximately 200k real-world motion sequences, for evaluation. Experimental results indicate that our method successfully outperforms baselines on both clean and noisy datasets in terms of motion quality, semantic consistency and diversity. Project page: https://boyuaner.github.io/ropar-main/
- Abstract(参考訳): 大規模なウェブビデオから人間の動きを抽出することは、キャラクタアニメーションにおけるデータ不足問題に対するスケーラブルな解決策を提供する。
しかし、多くのビデオフレーム内のいくつかの人間の部分は、オフスクリーンキャプチャやオクルージョンのために見ることができない。
データの欠落がスケールと多様性を制限する一方で、データ品質とモデルパフォーマンスを損なう、というジレンマが発生します。
この問題に対処するために,ビデオから抽出した信頼度の高い部分レベルのデータを活用し,ロバストな部分認識マスク付き自己回帰モデルによる動作生成を改善することを提案する。
まず、人間の身体を5つの部分に分解し、ビデオフレームではっきりと見える部分を「クレディブル」として検出する。
第2に,提案した部分認識変分オートエンコーダにより,信頼部品を潜在トークンに符号化する。
第3に,頑健な部分レベルのマスク生成モデルを提案する。
さらに,約200万個の実世界の動き系列からなる挑戦的な新しいベンチマークであるK700-Mを,評価に貢献する。
実験結果から, 動作品質, セマンティック一貫性, 多様性の両面において, クリーンかつノイズの多いデータセットのベースラインを達成できたことが示唆された。
プロジェクトページ: https://boyuaner.github.io/ropar-main/
関連論文リスト
- Direct Motion Models for Assessing Generated Videos [38.04485796547767]
ビデオ生成ビデオモデルの現在の制限は、可視的に見えるフレームを生成するが、動きが貧弱であることである。
ここでは、妥当な物体の相互作用と動きをよりよく測定する指標を開発することで、FVDを超えていく。
画素再構成や動作認識の代わりに点線を用いると、合成データの時間歪みに顕著に敏感な測定結果が得られることを示す。
論文 参考訳(メタデータ) (2025-04-30T22:34:52Z) - Video DataFlywheel: Resolving the Impossible Data Trinity in Video-Language Understanding [61.89781979702939]
本研究では,事前学習データセットにおけるデータ量,多様性,品質の「不可能トリニティ」を定量的に明らかにする。
近年の取り組みは、合成アノテーションによって低品質で妥協された大規模で多様なASRデータセットを改良することを目指している。
我々は,ビデオアノテーションを改良されたノイズコントロール手法で反復的に洗練するVideo DataFlywheelフレームワークを紹介する。
論文 参考訳(メタデータ) (2024-09-29T03:33:35Z) - T2M-X: Learning Expressive Text-to-Motion Generation from Partially Annotated Data [6.6240820702899565]
既存の方法は、表情や手の動きを除いて、身体の動きデータのみを生成する。
このようなデータセットを作成しようとする最近の試みは、異なる身体部位間での運動の不整合をもたらす。
部分注釈付きデータから表現力のあるテキスト・ツー・モーション生成を学習する2段階の方法であるT2M-Xを提案する。
論文 参考訳(メタデータ) (2024-09-20T06:20:00Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - SportsSloMo: A New Benchmark and Baselines for Human-centric Video Frame
Interpolation [11.198172694893927]
SportsSloMoは、130万本以上のビデオクリップと100万フレームの高解像度(720p)のスローモーションスポーツビデオがYouTubeからクロールされたベンチマークである。
ベンチマークでいくつかの最先端手法を再学習し、その結果、他のデータセットと比較して精度が低下していることを示す。
我々は,人間の認識する先行性を考慮した2つの損失項を導入し,汎視的セグメンテーションと人間のキーポイント検出に補助的監督を加える。
論文 参考訳(メタデータ) (2023-08-31T17:23:50Z) - Learn the Force We Can: Enabling Sparse Motion Control in Multi-Object
Video Generation [26.292052071093945]
単一のフレームとスパース動作入力からビデオを生成する教師なしの手法を提案する。
我々の訓練されたモデルは、目に見えない現実的なオブジェクト間相互作用を生成できる。
ヨダは、制御性と映像品質の両面において、先行するアートビデオ生成の状況と同等かそれ以上であることを示す。
論文 参考訳(メタデータ) (2023-06-06T19:50:02Z) - Render In-between: Motion Guided Video Synthesis for Action
Interpolation [53.43607872972194]
本研究では、リアルな人間の動きと外観を生成できる動き誘導型フレームアップサンプリングフレームワークを提案する。
大規模モーションキャプチャーデータセットを活用することにより、フレーム間の非線形骨格運動を推定するために、新しいモーションモデルが訓練される。
私たちのパイプラインでは、低フレームレートのビデオと不自由な人間のモーションデータしか必要としませんが、トレーニングには高フレームレートのビデオは必要ありません。
論文 参考訳(メタデータ) (2021-11-01T15:32:51Z) - Coherent Loss: A Generic Framework for Stable Video Segmentation [103.78087255807482]
ビデオセグメンテーションの結果の視覚的品質を,ジッタリングアーティファクトがいかに劣化させるかを検討する。
本稿では,ニューラルネットワークの性能向上を目的とした汎用フレームワークを備えたコヒーレントロスを提案する。
論文 参考訳(メタデータ) (2020-10-25T10:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。