論文の概要: Beyond the Golden Data: Resolving the Motion-Vision Quality Dilemma via Timestep Selective Training
- arxiv url: http://arxiv.org/abs/2603.25527v2
- Date: Wed, 01 Apr 2026 13:18:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.589862
- Title: Beyond the Golden Data: Resolving the Motion-Vision Quality Dilemma via Timestep Selective Training
- Title(参考訳): ゴールデンデータを超えて:タイムステップ選択トレーニングによるモーションビジョン品質ジレンマの解消
- Authors: Xiangyang Luo, Qingyu Li, Yuming Li, Guanbo Huang, Yongjie Zhu, Wenyu Qin, Meng Wang, Pengfei Wan, Shao-Lun Huang,
- Abstract要約: ビデオデータキュレーションにおける重要な課題は、Motion-Vision Quality Dilemmaである。
視覚的品質と運動強度は本質的に負の相関を示しており、両面に優れた黄金のデータを得ることが困難である。
本稿では,データサンプリング分布をモデル学習プロセスに適合させるために,TQD(Timestep-aware Quality Decoupling)を提案する。
- 参考スコア(独自算出の注目度): 36.5956174035203
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in video generation models have achieved impressive results. However, these models heavily rely on the use of high-quality data that combines both high visual quality and high motion quality. In this paper, we identify a key challenge in video data curation: the Motion-Vision Quality Dilemma. We discovered that visual quality and motion intensity inherently exhibit a negative correlation, making it hard to obtain golden data that excels in both aspects. To address this challenge, we first examine the hierarchical learning dynamics of video diffusion models and conduct gradient-based analysis on quality-degraded samples. We discover that quality-imbalanced data can produce gradients similar to golden data at appropriate timesteps. Based on this, we introduce the novel concept of Timestep selection in Training Process. We propose Timestep-aware Quality Decoupling (TQD), which modifies the data sampling distribution to better match the model's learning process. For certain types of data, the sampling distribution is skewed toward higher timesteps for motion-rich data, while high visual quality data is more likely to be sampled during lower timesteps. Through extensive experiments, we demonstrate that TQD enables training exclusively on separated imbalanced data to achieve performance surpassing conventional training with better data, challenging the necessity of perfect data in video generation. Moreover, our method also boosts model performance when trained on high-quality data, showcasing its effectiveness across different data scenarios.
- Abstract(参考訳): 近年の映像生成モデルの進歩は印象的な成果を上げている。
しかし、これらのモデルは高画質と高画質の両方を組み合わせた高品質のデータの利用に大きく依存している。
本稿では,ビデオデータキュレーションにおける重要な課題であるMotion-Vision Quality Dilemmaについて述べる。
その結果、視覚的品質と運動強度は本質的に負の相関を示しており、両面に優れた黄金データを得ることが困難であることが判明した。
この課題に対処するために,まず,ビデオ拡散モデルの階層的学習ダイナミクスについて検討し,品質劣化サンプルの勾配に基づく分析を行った。
品質不均衡なデータは、適切なタイミングで黄金のデータと同様の勾配を生成することができる。
これに基づいて、トレーニングプロセスにおけるタイムステップ選択という新しい概念を紹介します。
本稿では,データサンプリング分布をモデル学習プロセスに適合させるために,TQD(Timestep-aware Quality Decoupling)を提案する。
特定の種類のデータに対して、サンプリング分布はモーションリッチなデータに対してより高い時間ステップに向けてスキューされ、高い視覚的品質データは低い時間ステップでサンプリングされる可能性が高い。
広範にわたる実験により、TQDは、分離された不均衡なデータのみをトレーニングすることで、より優れたデータによる従来のトレーニングを上回るパフォーマンスを実現し、ビデオ生成における完全データの必要性を克服できることを実証した。
さらに,本手法は,高品質なデータでトレーニングされた場合のモデル性能を向上し,異なるデータシナリオ間での有効性を示す。
関連論文リスト
- Video Dataset Condensation with Diffusion Models [7.44997213284633]
ビデオデータセットの蒸留は、大規模な実データセットから必須情報を保持するコンパクトな合成データセットを生成するための有望なソリューションである。
本稿では,ビデオ拡散モデルを用いて高品質な合成ビデオを生成することにより,ビデオデータセットの蒸留に焦点を当てる。
代表性を高めるために,ビデオの多様な情報サブセットを選択するために設計されたVST-UNet(Video Spatio-Temporal U-Net)を導入する。
提案手法の有効性を,4つのベンチマークデータセットによる広範な実験により検証し,現状よりも最大10.61%の性能向上を実証した。
論文 参考訳(メタデータ) (2025-05-10T15:12:19Z) - Towards Generalized Video Quality Assessment: A Weak-to-Strong Learning Paradigm [76.63001244080313]
映像品質評価(VQA)は、人間の視覚的知覚に合わせて映像の知覚的品質を予測することを目的としている。
支配的なVQAパラダイムは、人間のラベル付きデータセットによる教師付きトレーニングに依存している。
我々は、大規模な人ラベルデータセットに頼らずにVQAを進めるための新しいパラダイムとして、弱い対強学習(W2S)を探求する。
論文 参考訳(メタデータ) (2025-05-06T15:29:32Z) - AccVideo: Accelerating Video Diffusion Model with Synthetic Dataset [55.82208863521353]
合成データセットを用いたビデオ拡散モデルの高速化のための推論ステップを削減するために,AccVideoを提案する。
本モデルでは,教師モデルに比べて生成速度が8.5倍向上した。
従来の高速化手法と比較して,より高品質で解像度の高いビデオを生成することができる。
論文 参考訳(メタデータ) (2025-03-25T08:52:07Z) - Sparrow: Data-Efficient Video-LLM with Text-to-Image Augmentation [57.34255010956452]
この研究は、合成データによるスケーリングを再考し、データ中心の観点からビデオLLMの開発に焦点を当てる。
本研究では,純粋なテキスト命令データからビデオライクなサンプルを合成するSparrowというデータ拡張手法を提案する。
提案手法は,より多くのサンプルを用いてトレーニングしたベースラインに匹敵する,あるいは優れた性能を実現する。
論文 参考訳(メタデータ) (2024-11-29T18:59:54Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - Exploring the Efficacy of Automatically Generated Counterfactuals for
Sentiment Analysis [17.811597734603144]
本稿では,データ拡張と説明のためのデファクトデータの自動生成手法を提案する。
いくつかの異なるデータセットに対する包括的な評価と、さまざまな最先端ベンチマークの使用により、我々のアプローチがモデルパフォーマンスを大幅に改善できることを示す。
論文 参考訳(メタデータ) (2021-06-29T10:27:01Z) - Unified Quality Assessment of In-the-Wild Videos with Mixed Datasets
Training [20.288424566444224]
我々は、コンピュータビジョンアプリケーションにおいて、Wildビデオの品質を自動評価することに注力する。
品質評価モデルの性能向上のために,人間の知覚から直観を借りる。
複数のデータセットで単一のVQAモデルをトレーニングするための混合データセットトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-11-09T09:22:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。