Fugu-MT 論文翻訳(概要): Video DataFlywheel: Resolving the Impossible Data Trinity in Video-Language Understanding

論文の概要: Video DataFlywheel: Resolving the Impossible Data Trinity in Video-Language Understanding

arxiv url: http://arxiv.org/abs/2409.19532v1
Date: Sun, 29 Sep 2024 03:33:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-05 22:38:15.107001
Title: Video DataFlywheel: Resolving the Impossible Data Trinity in Video-Language Understanding
Title（参考訳）: Video DataFlywheel:ビデオ言語理解における不可能なデータのトリニティを解決する
Authors: Xiao Wang, Jianlong Wu, Zijia Lin, Fuzheng Zhang, Di Zhang, Liqiang Nie,
Abstract要約: 本研究では,事前学習データセットにおけるデータ量,多様性,品質の「不可能トリニティ」を定量的に明らかにする。近年の取り組みは、合成アノテーションによって低品質で妥協された大規模で多様なASRデータセットを改良することを目指している。我々は,ビデオアノテーションを改良されたノイズコントロール手法で反復的に洗練するVideo DataFlywheelフレームワークを紹介する。
参考スコア（独自算出の注目度）: 61.89781979702939
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recently, video-language understanding has achieved great success through large-scale pre-training. However, data scarcity remains a prevailing challenge. This study quantitatively reveals an "impossible trinity" among data quantity, diversity, and quality in pre-training datasets. Recent efforts seek to refine large-scale, diverse ASR datasets compromised by low quality through synthetic annotations. These methods successfully leverage useful information in multimodal video content (frames, tags, ASR transcripts, etc.) to refine the original annotations. Nevertheless, they struggle to mitigate noise within synthetic annotations and lack scalability as the dataset size expands. To address these issues, we introduce the Video DataFlywheel framework, which iteratively refines video annotations with improved noise control methods. For iterative refinement, we first leverage a video-language model to generate synthetic annotations, resulting in a refined dataset. Then, we pre-train on it and fine-tune on human refinement examples for a stronger model. These processes are repeated for continuous improvement. For noise control, we present AdaTaiLr, a novel noise control method that requires weaker assumptions on noise distribution, thereby proving more effective in large datasets with theoretical guarantees. The combination of iterative refinement and AdaTaiLr can achieve better scalability in video-language understanding. Extensive experiments show that our framework outperforms existing data refinement baselines, delivering a 3% performance boost and improving dataset quality with minimal diversity loss. Furthermore, our refined dataset facilitates significant improvements in various video-language understanding tasks, including video question answering and text-video retrieval.
Abstract（参考訳）: 近年,ビデオ言語理解は大規模事前学習によって大きな成功を収めている。しかし、データの不足は依然として大きな課題だ。本研究では,事前学習データセットにおけるデータ量,多様性,品質の「不可能トリニティ」を定量的に明らかにする。近年の取り組みは、合成アノテーションによって低品質で妥協された大規模で多様なASRデータセットを改良することを目指している。これらの手法は、オリジナルのアノテーションを洗練させるために、マルチモーダルなビデオコンテンツ(フレーム、タグ、ASR transcriptsなど)で有用な情報を活用することに成功した。それでも彼らは、合成アノテーション内のノイズを軽減し、データセットのサイズが拡大するにつれてスケーラビリティを欠いている。これらの問題に対処するために,ビデオアノテーションを改良されたノイズコントロール手法で反復的に洗練するVideo DataFlywheelフレームワークを導入する。反復的改良のために、まずビデオ言語モデルを用いて合成アノテーションを生成し、洗練されたデータセットを生成する。そして,それを事前訓練し,より強力なモデルのための人間の洗練例を微調整する。これらのプロセスは継続的改善のために繰り返されます。ノイズ制御のための新しいノイズ制御手法であるAda TaiLrを提案する。反復リファインメントとAdaTaiLrを組み合わせることで、ビデオ言語理解のスケーラビリティが向上する。大規模な実験により、我々のフレームワークは既存のデータ改善ベースラインよりも優れており、3%のパフォーマンス向上と、多様性の損失を最小限に抑えてデータセットの品質の向上を実現している。さらに、改良されたデータセットは、ビデオ質問応答やテキストビデオ検索など、様々なビデオ言語理解タスクの大幅な改善を促進する。

関連論文リスト

Video Dataset Condensation with Diffusion Models [7.44997213284633]
ビデオデータセットの蒸留は、大規模な実データセットから必須情報を保持するコンパクトな合成データセットを生成するための有望なソリューションである。本稿では,ビデオ拡散モデルを用いて高品質な合成ビデオを生成することにより,ビデオデータセットの蒸留に焦点を当てる。代表性を高めるために,ビデオの多様な情報サブセットを選択するために設計されたVST-UNet(Video Spatio-Temporal U-Net)を導入する。提案手法の有効性を,4つのベンチマークデータセットによる広範な実験により検証し,現状よりも最大10.61%の性能向上を実証した。
論文参考訳（メタデータ） (2025-05-10T15:12:19Z)
AccVideo: Accelerating Video Diffusion Model with Synthetic Dataset [55.82208863521353]
合成データセットを用いたビデオ拡散モデルの高速化のための推論ステップを削減するために,AccVideoを提案する。本モデルでは,教師モデルに比べて生成速度が8.5倍向上した。従来の高速化手法と比較して,より高品質で解像度の高いビデオを生成することができる。
論文参考訳（メタデータ） (2025-03-25T08:52:07Z)
ScalingNoise: Scaling Inference-Time Search for Generating Infinite Videos [32.14142910911528]
ビデオ拡散モデル(VDM)は高品質のビデオの生成を容易にする。近年,映像の質を高める「金音」の存在が報告されている。本研究では,拡散サンプリングプロセスにおける黄金の初期雑音を識別する,プラグアンドプレイの推論時間探索手法であるScalingNoiseを提案する。
論文参考訳（メタデータ） (2025-03-20T17:54:37Z)
Video Summarization using Denoising Diffusion Probabilistic Model [21.4190413531697]
本稿では,確率分布の観点から要約を生成する方法を学ぶ,映像要約のための生成フレームワークを提案する。具体的には、雑音予測によりトレーニングデータの確率分布を学習するDDPM(Denoising Diffusion Probabilistic Model)に基づく新しい拡散要約法を提案する。提案手法は主観的アノテーションノイズに耐性があり,識別法よりも訓練データを過度に適合させる傾向が低く,高い一般化能力を有する。
論文参考訳（メタデータ） (2024-12-11T13:02:09Z)
Sparrow: Data-Efficient Video-LLM with Text-to-Image Augmentation [98.92677830223786]
この研究は、合成データによるスケーリングを再考し、データ中心の観点からビデオLLMの開発に焦点を当てる。本研究では,純粋なテキスト命令データからビデオライクなサンプルを合成するSparrowというデータ拡張手法を提案する。提案手法は,多くのサンプルを用いてトレーニングしたベースラインに匹敵する,あるいは優れた性能を実現する。
論文参考訳（メタデータ） (2024-11-29T18:59:54Z)
Koala-36M: A Large-scale Video Dataset Improving Consistency between Fine-grained Conditions and Video Content [35.02160595617654]
時間分割、詳細なキャプション、ビデオ品質フィルタリングは、データセットの品質を決定する3つの重要な要素である。我々は,正確な時間分割,詳細なキャプション,優れた映像品質を備えた大規模高品質ビデオデータセットであるKoala-36Mを紹介した。
論文参考訳（メタデータ） (2024-10-10T17:57:49Z)
Scaling Up Video Summarization Pretraining with Large Language Models [73.74662411006426]
本稿では,大規模ビデオ要約データセットを生成するための,自動化されたスケーラブルなパイプラインを提案する。我々は既存のアプローチの限界を分析し、それらに効果的に対処する新しいビデオ要約モデルを提案する。我々の研究は、プロが注釈付けした高品質の要約を持つ1200本の長編ビデオを含む新しいベンチマークデータセットも提示した。
論文参考訳（メタデータ） (2024-04-04T11:59:06Z)
Video Summarization Based on Video-text Modelling [0.0]
ビデオのセマンティック表現を得るために,マルチモーダルな自己教師型学習フレームワークを提案する。また,より優れた要約を生成するために,動画内の重要なコンテンツを段階的にピンポイントするプログレッシブな映像要約手法も導入する。映像分類に基づく映像要約の質を客観的に評価する枠組みを提案する。
論文参考訳（メタデータ） (2022-01-07T15:21:46Z)
Investigating Tradeoffs in Real-World Video Super-Resolution [90.81396836308085]
実世界のビデオ超解像(VSR)モデルは、一般化性を改善するために様々な劣化で訓練されることが多い。最初のトレードオフを軽減するために,性能を犠牲にすることなく,最大40%のトレーニング時間を削減できる劣化手法を提案する。そこで本研究では,多種多様な実世界の低品質映像系列を含むビデオLQデータセットを提案する。
論文参考訳（メタデータ） (2021-11-24T18:58:21Z)
Learning from Multiple Noisy Augmented Data Sets for Better Cross-Lingual Spoken Language Understanding [69.40915115518523]
トレーニングデータの欠如は、低リソース言語への音声言語理解(SLU)をスケールアウトする上で大きな課題となる。低リソースターゲット言語でのトレーニングデータを合成するために、様々なデータ拡張手法が提案されている。本稿では,拡張データにおけるノイズの軽減に焦点をあてる。
論文参考訳（メタデータ） (2021-09-03T15:44:15Z)
Automatic Curation of Large-Scale Datasets for Audio-Visual Representation Learning [62.47593143542552]
本稿では,自動データセットキュレーションのためのサブセット最適化手法について述べる。本研究では,高視聴覚対応の映像を抽出し,自己監視モデルが自動的に構築されているにもかかわらず,既存のスケールのビデオデータセットと類似したダウンストリームパフォーマンスを達成できることを実証した。
論文参考訳（メタデータ） (2021-01-26T14:27:47Z)
Coherent Loss: A Generic Framework for Stable Video Segmentation [103.78087255807482]
ビデオセグメンテーションの結果の視覚的品質を,ジッタリングアーティファクトがいかに劣化させるかを検討する。本稿では,ニューラルネットワークの性能向上を目的とした汎用フレームワークを備えたコヒーレントロスを提案する。
論文参考訳（メタデータ） (2020-10-25T10:48:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。