Fugu-MT 論文翻訳(概要): DIBS: Enhancing Dense Video Captioning with Unlabeled Videos via Pseudo Boundary Enrichment and Online Refinement

論文の概要: DIBS: Enhancing Dense Video Captioning with Unlabeled Videos via Pseudo Boundary Enrichment and Online Refinement

arxiv url: http://arxiv.org/abs/2404.02755v1
Date: Wed, 3 Apr 2024 13:57:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-04 17:11:28.109186
Title: DIBS: Enhancing Dense Video Captioning with Unlabeled Videos via Pseudo Boundary Enrichment and Online Refinement
Title（参考訳）: DIBS: 偽バウンダリの強化とオンラインリファインメントによる未ラベルビデオによる高精細度ビデオキャプションの強化
Authors: Hao Wu, Huabin Liu, Yu Qiao, Xiao Sun,
Abstract要約: Dive Into the BoundarieS (DIBS) は高密度ビデオキャプション(DVC)のための新しい事前学習フレームワークである。我々は、多目的のキャプション候補を生成し、複数の厳密に設計された目的の下で、対応する擬似境界を最適化する。また、トレーニング中に擬似境界の質を反復的に改善する新しいオンライン境界改善戦略も導入する。
参考スコア（独自算出の注目度）: 25.14502964994855
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present Dive Into the BoundarieS (DIBS), a novel pretraining framework for dense video captioning (DVC), that elaborates on improving the quality of the generated event captions and their associated pseudo event boundaries from unlabeled videos. By leveraging the capabilities of diverse large language models (LLMs), we generate rich DVC-oriented caption candidates and optimize the corresponding pseudo boundaries under several meticulously designed objectives, considering diversity, event-centricity, temporal ordering, and coherence. Moreover, we further introduce a novel online boundary refinement strategy that iteratively improves the quality of pseudo boundaries during training. Comprehensive experiments have been conducted to examine the effectiveness of the proposed technique components. By leveraging a substantial amount of unlabeled video data, such as HowTo100M, we achieve a remarkable advancement on standard DVC datasets like YouCook2 and ActivityNet. We outperform the previous state-of-the-art Vid2Seq across a majority of metrics, achieving this with just 0.4% of the unlabeled video data used for pre-training by Vid2Seq.
Abstract（参考訳）: Dive Into the BoundarieS (DIBS) は高密度ビデオキャプション(DVC)のための新しい事前学習フレームワークであり、未ラベルビデオから生成されたイベントキャプションの品質と関連する擬似イベントバウンダリの改善を詳述する。多様な大言語モデル(LLM)の能力を活用して、豊富なDVC指向のキャプション候補を生成し、多様性、事象中心性、時間的順序付け、コヒーレンスを考慮し、厳密に設計されたいくつかの目的の下で、対応する擬似境界を最適化する。さらに、トレーニング中に擬似境界の質を反復的に改善する新しいオンライン境界改善戦略を導入する。提案手法の有効性を検討するため, 総合的な実験を行った。 HowTo100Mのようなラベルなしのビデオデータを活用することで、YouCook2やActivityNetのような標準のDVCデータセットに顕著な進歩を遂げます。これまでの最先端のVid2Seqよりも優れており、Vid2Seqが事前トレーニングに使用している未ラベルのビデオデータのわずか0.4%で達成しています。

関連論文リスト

CI-VID: A Coherent Interleaved Text-Video Dataset [23.93099552431937]
CI-VIDは、孤立したテキスト・トゥ・ビデオ(T2V)生成を越えて、テキスト・アンド・ビデオ・トゥ・ビデオ(TV2V)生成に移行するデータセットである。 340,000以上のサンプルがあり、それぞれにテキストキャプション付きビデオクリップのコヒーレントなシーケンスがある。また,CI-VIDでトレーニングしたモデルでは,ビデオシーケンス生成時の精度とコンテントの整合性に大きな改善が見られた。
論文参考訳（メタデータ） (2025-07-02T17:48:01Z)
DAPE: Dual-Stage Parameter-Efficient Fine-Tuning for Consistent Video Editing with Diffusion Models [1.972901110298768]
高品質で費用対効果の高い2段階パラメーター効率なビデオ編集のための微調整フレームワークであるDAPEを提案する。最初の段階では、生成したビデオの時間的一貫性を高めるための効率的なノルムチューニング法を設計する。第2ステージでは視覚的品質を改善するための視覚フレンドリなアダプタが導入されている。
論文参考訳（メタデータ） (2025-05-11T17:08:50Z)
Raccoon: Multi-stage Diffusion Training with Coarse-to-Fine Curating Videos [15.781862060265519]
CFC-VIDS-1Mは、体系的な粗いキュレーションパイプラインによって構築された高品質のビデオデータセットである。我々は、空間的時間的注意機構を分離したトランスフォーマーベースのアーキテクチャであるRACCOONを開発した。
論文参考訳（メタデータ） (2025-02-28T18:56:35Z)
Vchitect-2.0: Parallel Transformer for Scaling Up Video Diffusion Models [89.79067761383855]
Vchitect-2.0は、大規模テキスト・ビデオ生成のためにビデオ拡散モデルをスケールアップするために設計された並列トランスフォーマーアーキテクチャである。新たなマルチモーダル拡散ブロックを導入することで,テキスト記述と生成されたビデオフレームの整合性を実現する。メモリと計算のボトルネックを克服するために,メモリ効率のトレーニングフレームワークを提案する。
論文参考訳（メタデータ） (2025-01-14T21:53:11Z)
Long Video Diffusion Generation with Segmented Cross-Attention and Content-Rich Video Data Curation [16.80010133425332]
長距離コヒーレンスとリッチコンテンツを備えた15秒ビデオを生成するために設計された,新しいビデオ拡散モデルであるPrestoを紹介する。 PrestoはVBench Semantic Scoreで78.5%、Dynamic Degreeで100%のスプリットを達成した。
論文参考訳（メタデータ） (2024-12-02T09:32:36Z)
Whats in a Video: Factorized Autoregressive Decoding for Online Dense Video Captioning [71.94122309290537]
ビデオの高密度キャプションを生成するための,効率的なオンライン手法を提案する。我々のモデルは、新しい自己回帰因子化復号化アーキテクチャを使用している。提案手法は,オフライン手法とオンライン手法の両方と比較して優れた性能を示し,計算コストを20%削減する。
論文参考訳（メタデータ） (2024-11-22T02:46:44Z)
Koala-36M: A Large-scale Video Dataset Improving Consistency between Fine-grained Conditions and Video Content [35.02160595617654]
時間分割、詳細なキャプション、ビデオ品質フィルタリングは、データセットの品質を決定する3つの重要な要素である。我々は,正確な時間分割,詳細なキャプション,優れた映像品質を備えた大規模高品質ビデオデータセットであるKoala-36Mを紹介した。
論文参考訳（メタデータ） (2024-10-10T17:57:49Z)
HAVANA: Hierarchical stochastic neighbor embedding for Accelerated Video ANnotAtions [59.71751978599567]
本稿では,時間的ビデオアノテーションプロセスの高速化のために,事前抽出した特徴量と次元減少量を用いた新しいアノテーションパイプラインを提案する。従来のリニア手法と比較して,アノテーションの取り組みが大幅に改善され,12時間以上のビデオのアノテートに要するクリック数が10倍以上に短縮された。
論文参考訳（メタデータ） (2024-09-16T18:15:38Z)
Scaling Up Video Summarization Pretraining with Large Language Models [73.74662411006426]
本稿では,大規模ビデオ要約データセットを生成するための,自動化されたスケーラブルなパイプラインを提案する。我々は既存のアプローチの限界を分析し、それらに効果的に対処する新しいビデオ要約モデルを提案する。我々の研究は、プロが注釈付けした高品質の要約を持つ1200本の長編ビデオを含む新しいベンチマークデータセットも提示した。
論文参考訳（メタデータ） (2024-04-04T11:59:06Z)
Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文参考訳（メタデータ） (2024-02-05T16:30:49Z)
I2VGen-XL: High-Quality Image-to-Video Synthesis via Cascaded Diffusion Models [54.99771394322512]
ビデオ合成は拡散モデルの急速な発展の恩恵を受け、近年顕著な進歩を遂げている。意味的正確性、明快さ、連続性-時間的連続性という観点ではまだ遭遇に挑戦する。これら2つの要素を分離することでモデル性能を向上させるカスケードI2VGen-XL手法を提案する。 I2VGen-XLは、生成したビデオの意味的精度、詳細の連続性、明快さを同時に向上させることができる。
論文参考訳（メタデータ） (2023-11-07T17:16:06Z)
Domain Adaptive Video Segmentation via Temporal Pseudo Supervision [46.38660541271893]
ビデオセマンティックセグメンテーションは、ラベル付きソースドメインから未ラベルのターゲットドメインに適応することで、制約をラベル付けするデータを緩和することができる。我々は,対象映像から表現を効果的に表現するための一貫性トレーニングのアイデアを探索する,シンプルかつ効果的な方法である時間的擬似監督(TPS)を設計する。 TPSは実装が簡単で、訓練も安定しており、最先端技術と比較して優れた映像精度を実現する。
論文参考訳（メタデータ） (2022-07-06T00:36:14Z)
VRAG: Region Attention Graphs for Content-Based Video Retrieval [85.54923500208041]
Region Attention Graph Networks (VRAG) は最先端のビデオレベルの手法を改善している。 VRAGは、地域レベルの特徴を通して、より細かい粒度のビデオを表現し、地域レベルの関係を通して、ビデオ時間ダイナミクスをエンコードする。本研究では,映像のセグメント化や映像検索にショット埋め込みを用いることで,映像レベルとフレームレベルの性能差を低減できることを示す。
論文参考訳（メタデータ） (2022-05-18T16:50:45Z)
Towards Diverse Paragraph Captioning for Untrimmed Videos [40.205433926432434]
既存のアプローチでは、主にイベント検出とイベントキャプションという2つのステップで問題を解決している。本稿では,問題のあるイベント検出段階を抽出し,未トリミングビデオの段落を直接生成する段落生成モデルを提案する。
論文参考訳（メタデータ） (2021-05-30T09:28:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。