論文の概要: VMBench: A Benchmark for Perception-Aligned Video Motion Generation
- arxiv url: http://arxiv.org/abs/2503.10076v1
- Date: Thu, 13 Mar 2025 05:54:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:53:04.326391
- Title: VMBench: A Benchmark for Perception-Aligned Video Motion Generation
- Title(参考訳): VMBench: 知覚に適応したビデオモーション生成のためのベンチマーク
- Authors: Xinrang Ling, Chen Zhu, Meiqi Wu, Hangyu Li, Xiaokun Feng, Cundian Yang, Aiming Hao, Jiashu Zhu, Jiahong Wu, Xiangxiang Chu,
- Abstract要約: 包括的なビデオモーションベンチマークであるVMBenchを紹介する。
VMBenchは知覚対応のモーションメトリクスを持ち、最も多様なモーションを特徴としている。
人間の知覚的アライメントの観点から動画における動きの質が評価されたのはこれが初めてである。
- 参考スコア(独自算出の注目度): 22.891770315274346
- License:
- Abstract: Video generation has advanced rapidly, improving evaluation methods, yet assessing video's motion remains a major challenge. Specifically, there are two key issues: 1) current motion metrics do not fully align with human perceptions; 2) the existing motion prompts are limited. Based on these findings, we introduce VMBench--a comprehensive Video Motion Benchmark that has perception-aligned motion metrics and features the most diverse types of motion. VMBench has several appealing properties: 1) Perception-Driven Motion Evaluation Metrics, we identify five dimensions based on human perception in motion video assessment and develop fine-grained evaluation metrics, providing deeper insights into models' strengths and weaknesses in motion quality. 2) Meta-Guided Motion Prompt Generation, a structured method that extracts meta-information, generates diverse motion prompts with LLMs, and refines them through human-AI validation, resulting in a multi-level prompt library covering six key dynamic scene dimensions. 3) Human-Aligned Validation Mechanism, we provide human preference annotations to validate our benchmarks, with our metrics achieving an average 35.3% improvement in Spearman's correlation over baseline methods. This is the first time that the quality of motion in videos has been evaluated from the perspective of human perception alignment. Additionally, we will soon release VMBench at https://github.com/GD-AIGC/VMBench, setting a new standard for evaluating and advancing motion generation models.
- Abstract(参考訳): ビデオ生成は急速に進歩し、評価方法が改善されているが、動画の動きを評価することは大きな課題である。
具体的には2つの大きな問題があります。
1) 現在の運動指標は,人間の知覚と完全に一致しない。
2)既存の動作プロンプトは限られている。
これらの結果に基づき,VMBenchを紹介した。ビデオモーションベンチマークは,知覚に整合したモーションメトリクスを持ち,最も多様なモーションを特徴とする。
VMBenchにはいくつかの魅力的な特性がある。
1) 知覚駆動型動作評価尺度では,モーションビデオ評価における人間の知覚に基づいて5次元を識別し,よりきめ細かな評価指標を開発し,モデルの強みや運動品質の弱点について深い洞察を与える。
2)メタガイド型モーションプロンプト生成は,メタ情報を取り出す構造的手法であり,LLMを用いて多様な動作プロンプトを生成し,人間とAIの検証を通じてそれらを洗練することにより,6つの主要な動的シーン次元をカバーするマルチレベルプロンプトライブラリを実現する。
3) 評価基準を検証するための人為的嗜好アノテーションを提供し, 基準法に対するスピアマンの相関を平均35.3%改善した。
人間の知覚的アライメントの観点から動画における動きの質が評価されたのはこれが初めてである。
さらに、近々VMBenchをhttps://github.com/GD-AIGC/VMBenchでリリースします。
関連論文リスト
- MotionBench: Benchmarking and Improving Fine-grained Video Motion Understanding for Vision Language Models [30.139277087078764]
MotionBenchは、ビデオ理解モデルの詳細な動作理解を評価するために設計された評価ベンチマークである。
さまざまなソースから収集されたデータが含まれており、現実世界のビデオコンテンツの広範な表現が保証されている。
我々のベンチマークは、より有能な映像理解モデルの開発をガイドし、動機づけることを目的としている。
論文 参考訳(メタデータ) (2025-01-06T11:57:38Z) - MotionBank: A Large-scale Video Motion Benchmark with Disentangled Rule-based Annotations [85.85596165472663]
我々は、13の動画アクションデータセット、1.24Mのモーションシーケンス、132.9Mの自然な、多様な人間のモーションフレームからなるMotionBankを構築した。
私たちのMotionBankは、人間のモーション生成、モーションインコンテキスト生成、そしてモーション理解といった、一般的なモーション関連タスクに役立ちます。
論文 参考訳(メタデータ) (2024-10-17T17:31:24Z) - Fréchet Video Motion Distance: A Metric for Evaluating Motion Consistency in Videos [13.368981834953981]
映像生成における動きの整合性を評価することを目的としたFr'echet Video Motion Distanceメトリックを提案する。
具体的には、キーポイント追跡に基づく明示的な動作特徴を設計し、Fr'echet距離を用いてこれらの特徴間の類似度を測定する。
我々は大規模な人間の研究を行い、我々の測定値が時間的ノイズを効果的に検出し、既存の測定値よりも生成された映像品質の人間の知覚とよく一致していることを示す。
論文 参考訳(メタデータ) (2024-07-23T02:10:50Z) - Aligning Human Motion Generation with Human Perceptions [51.831338643012444]
本研究では,大規模人間の知覚評価データセットであるMotionPerceptと,人間の動作批判モデルであるMotionCriticを導入することにより,ギャップを埋めるデータ駆動型アプローチを提案する。
我々の批評家モデルは、運動品質を評価するためのより正確な指標を提供しており、容易に運動生成パイプラインに統合することができる。
論文 参考訳(メタデータ) (2024-07-02T14:01:59Z) - VBench: Comprehensive Benchmark Suite for Video Generative Models [100.43756570261384]
VBenchは、"ビデオ生成品質"を特定の、階層的、そして非絡み合ったディメンションに分解するベンチマークスイートである。
我々は、人間の知覚とベンチマークの整合性を検証するために、人間の嗜好アノテーションのデータセットを提供する。
VBenchは、すべてのプロンプト、評価方法、生成されたビデオ、人間の好みのアノテーションを含むオープンソースとして公開します。
論文 参考訳(メタデータ) (2023-11-29T18:39:01Z) - MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [63.14000659130736]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。
まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。
そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文 参考訳(メタデータ) (2023-11-28T17:59:04Z) - ReMoDiffuse: Retrieval-Augmented Motion Diffusion Model [33.64263969970544]
3Dのモーション生成はクリエイティブ産業にとって不可欠だ。
近年の進歩は、テキスト駆動モーション生成のためのドメイン知識を持つ生成モデルに依存している。
本稿では拡散モデルに基づく動き生成フレームワークReMoDiffuseを提案する。
論文 参考訳(メタデータ) (2023-04-03T16:29:00Z) - Improving Unsupervised Video Object Segmentation with Motion-Appearance
Synergy [52.03068246508119]
IMASは、トレーニングや推論において手動のアノテーションを使わずに、主要オブジェクトをビデオに分割する手法である。
IMASはMotion-Appearance Synergyによる改良されたUVOSを実現する。
人間のアノテーションや手作りハイパーパラム特有のメトリクスで調整された重要なハイパーパラムのチューニングにおいて、その効果を実証する。
論文 参考訳(メタデータ) (2022-12-17T06:47:30Z) - Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。
2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。
本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-11T04:20:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。