論文の概要: InstanceCap: Improving Text-to-Video Generation via Instance-aware Structured Caption
- arxiv url: http://arxiv.org/abs/2412.09283v1
- Date: Thu, 12 Dec 2024 13:48:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:33:57.398775
- Title: InstanceCap: Improving Text-to-Video Generation via Instance-aware Structured Caption
- Title(参考訳): InstanceCap: インスタンス対応構造化キャプションによるテキスト・ビデオ生成の改善
- Authors: Tiehan Fan, Kepan Nan, Rui Xie, Penghao Zhou, Zhenheng Yang, Chaoyou Fu, Xiang Li, Jian Yang, Ying Tai,
- Abstract要約: トレーニングは、生成性能を高める上で重要な役割を果たすビデオキャプチャペアデータに依存している。
現在のビデオキャプションは、不十分な詳細、幻覚、不正確な動きの描写に悩まされることが多い。
本稿では,インスタンスレベルのきめ細かな動画キャプションを実現するために,新しいインスタンス対応構造化キャプションフレームワークであるインスタンスCapを提案する。
- 参考スコア(独自算出の注目度): 40.07877801495546
- License:
- Abstract: Text-to-video generation has evolved rapidly in recent years, delivering remarkable results. Training typically relies on video-caption paired data, which plays a crucial role in enhancing generation performance. However, current video captions often suffer from insufficient details, hallucinations and imprecise motion depiction, affecting the fidelity and consistency of generated videos. In this work, we propose a novel instance-aware structured caption framework, termed InstanceCap, to achieve instance-level and fine-grained video caption for the first time. Based on this scheme, we design an auxiliary models cluster to convert original video into instances to enhance instance fidelity. Video instances are further used to refine dense prompts into structured phrases, achieving concise yet precise descriptions. Furthermore, a 22K InstanceVid dataset is curated for training, and an enhancement pipeline that tailored to InstanceCap structure is proposed for inference. Experimental results demonstrate that our proposed InstanceCap significantly outperform previous models, ensuring high fidelity between captions and videos while reducing hallucinations.
- Abstract(参考訳): 近年,テキスト・ビデオ・ジェネレーションが急速に発展し,顕著な成果を上げている。
トレーニングは通常、ビデオキャプチャーのペアデータに依存しており、生成性能を向上させる上で重要な役割を果たす。
しかし、現在のビデオキャプションは、しばしば不十分な詳細、幻覚、不正確な動きの描写に悩まされ、生成されたビデオの忠実さと一貫性に影響を及ぼす。
本研究では,インスタンスレベルの細粒度ビデオキャプションを初めて実現するために,インスタンスCapと呼ばれる新しいインスタンス対応構造化キャプションフレームワークを提案する。
このスキームに基づいて、元の動画をインスタンスに変換し、インスタンスの忠実度を高めるための補助モデルクラスタを設計する。
ビデオインスタンスはさらに、複雑なプロンプトを構造化されたフレーズに洗練させ、簡潔で正確な記述を実現するために使われる。
さらに、トレーニング用に22KのInstanceVidデータセットがキュレートされ、推論用にインスタンスCap構造に合わせて調整された拡張パイプラインが提案されている。
実験の結果,提案したInstanceCapは従来のモデルよりも優れており,幻覚を低減しつつ,キャプションとビデオの忠実度が高いことが確認できた。
関連論文リスト
- VideoAuteur: Towards Long Narrative Video Generation [22.915448471769384]
本稿では,調理領域における長めの物語生成を促進するために,大規模な調理ビデオデータセットを提案する。
生成ビデオにおける視覚的・意味的コヒーレンスを高めるために,Long Narrative Video Directorを導入する。
本手法は,視覚的細部および意味的整合性の生成における大幅な改善を示す。
論文 参考訳(メタデータ) (2025-01-10T18:52:11Z) - Progress-Aware Video Frame Captioning [55.23366888264651]
本稿では,アクションシーケンス内の微細な時間的ダイナミクスをキャプチャするキャプションモデルであるProgressCaptionerを提案する。
我々は、トレーニングをサポートするFrameCapデータセットと、キャプションの品質を評価するFrameCapEvalベンチマークを開発する。
結果は、ProgressCaptionerが主要なキャプションモデルを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2024-12-03T01:21:28Z) - Whats in a Video: Factorized Autoregressive Decoding for Online Dense Video Captioning [71.94122309290537]
ビデオの高密度キャプションを生成するための,効率的なオンライン手法を提案する。
我々のモデルは、新しい自己回帰因子化復号化アーキテクチャを使用している。
提案手法は,オフライン手法とオンライン手法の両方と比較して優れた性能を示し,計算コストを20%削減する。
論文 参考訳(メタデータ) (2024-11-22T02:46:44Z) - SnapCap: Efficient Snapshot Compressive Video Captioning [18.016261978231835]
ビデオキャプション(VC)は、様々な複雑なビデオを理解することによって、言語でシーンを記述する必要があるため、困難なマルチモーダルタスクである。
本稿では,圧縮された測定値から直接キャプションを生成する新しいVCパイプラインを提案する。
圧縮された測定値から言語関連視覚表現をよりよく抽出するために,プレトレーニングされたCLIPを用いてビデオから知識を抽出することを提案する。
論文 参考訳(メタデータ) (2024-01-10T03:11:21Z) - VideoGen: A Reference-Guided Latent Diffusion Approach for High
Definition Text-to-Video Generation [73.54366331493007]
VideoGenはテキスト・ツー・ビデオ生成方式であり、フレームの忠実度が高く、時間的一貫性の強い高精細なビデオを生成することができる。
我々は,テキストプロンプトから高品質な画像を生成するために,既製のテキスト画像生成モデル,例えば,安定拡散(Stable Diffusion)を利用する。
論文 参考訳(メタデータ) (2023-09-01T11:14:43Z) - Less than Few: Self-Shot Video Instance Segmentation [50.637278655763616]
質問に対して適切なサポートビデオの検索を自動で行うことを提案する。
私たちは、ビデオインスタンスのセグメンテーションを、セルフショット(と数ショット)の設定で初めて取り組んだ。
我々は,新しいトランスモデルを用いた強力なベースライン性能を提供する。
論文 参考訳(メタデータ) (2022-04-19T13:14:43Z) - Syntax Customized Video Captioning by Imitating Exemplar Sentences [90.98221715705435]
SCVC(Syntax Customized Video Captioning)の新たなタスクについて紹介する。
SCVCは、ビデオの内容を意味的に記述するだけでなく、与えられた先行文を構文的に模倣する1つのキャプションを生成することを目的としている。
本稿では,構文解析と意味論的コヒーレントなビデオキャプションを生成するためのモデル機能を示す。
論文 参考訳(メタデータ) (2021-12-02T09:08:09Z) - Towards Diverse Paragraph Captioning for Untrimmed Videos [40.205433926432434]
既存のアプローチでは、主にイベント検出とイベントキャプションという2つのステップで問題を解決している。
本稿では,問題のあるイベント検出段階を抽出し,未トリミングビデオの段落を直接生成する段落生成モデルを提案する。
論文 参考訳(メタデータ) (2021-05-30T09:28:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。