論文の概要: Can Text-to-Video Generation help Video-Language Alignment?
- arxiv url: http://arxiv.org/abs/2503.18507v1
- Date: Mon, 24 Mar 2025 10:02:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:35:54.260075
- Title: Can Text-to-Video Generation help Video-Language Alignment?
- Title(参考訳): テキスト・トゥ・ビデオ・ジェネレーションはビデオ・ランゲージ・アライメントに役立つか?
- Authors: Luca Zanella, Massimiliano Mancini, Willi Menapace, Sergey Tulyakov, Yiming Wang, Elisa Ricci,
- Abstract要約: 最近のビデオ言語アライメントモデルはビデオのセットに基づいて訓練されており、それぞれに関連付けられた正のキャプションと、大きな言語モデルによって生成された負のキャプションがある。
この手順の問題点は、否定的なキャプションが言語的バイアスをもたらす可能性があること、すなわち、概念は否定的なものとしてのみ見られ、ビデオと関連しないことである。
本研究では,合成ビデオがこの問題を克服するのに有効かどうかを考察する。
複数のジェネレータによる予備的な分析では、いくつかのタスクでは約束されているが、合成ビデオは、他のタスクではモデルの性能に悪影響を及ぼすことが示された。
- 参考スコア(独自算出の注目度): 53.0276936367765
- License:
- Abstract: Recent video-language alignment models are trained on sets of videos, each with an associated positive caption and a negative caption generated by large language models. A problem with this procedure is that negative captions may introduce linguistic biases, i.e., concepts are seen only as negatives and never associated with a video. While a solution would be to collect videos for the negative captions, existing databases lack the fine-grained variations needed to cover all possible negatives. In this work, we study whether synthetic videos can help to overcome this issue. Our preliminary analysis with multiple generators shows that, while promising on some tasks, synthetic videos harm the performance of the model on others. We hypothesize this issue is linked to noise (semantic and visual) in the generated videos and develop a method, SynViTA, that accounts for those. SynViTA dynamically weights the contribution of each synthetic video based on how similar its target caption is w.r.t. the real counterpart. Moreover, a semantic consistency loss makes the model focus on fine-grained differences across captions, rather than differences in video appearance. Experiments show that, on average, SynViTA improves over existing methods on VideoCon test sets and SSv2-Temporal, SSv2-Events, and ATP-Hard benchmarks, being a first promising step for using synthetic videos when learning video-language models.
- Abstract(参考訳): 最近のビデオ言語アライメントモデルはビデオのセットに基づいて訓練されており、それぞれに関連付けられた正のキャプションと、大きな言語モデルによって生成された負のキャプションがある。
この手順の問題点は、否定的なキャプションが言語的バイアスをもたらす可能性があること、すなわち、概念は否定的なものとしてのみ見られ、ビデオと関連しないことである。
解決策は、否定的なキャプションのビデオを収集することだが、既存のデータベースには、すべての否定をカバーできるような、きめ細かいバリエーションが欠けている。
本研究では,合成ビデオがこの問題を克服するのに有効かどうかを考察する。
複数のジェネレータによる予備的な分析では、いくつかのタスクでは約束されているが、合成ビデオは、他のタスクではモデルの性能に悪影響を及ぼすことが示された。
我々は、この問題は生成されたビデオのノイズ(意味的および視覚的)と関連していると仮定し、それらを考慮に入れたSynViTAという手法を開発した。
SynViTAは、ターゲットキャプションが実際のキャプションとどのように似ているかに基づいて、それぞれの合成ビデオの寄与を動的に重み付けする。
さらに、セマンティック一貫性の喪失は、ビデオの外観の違いよりも、キャプション間のきめ細かい違いに焦点を当てる。
実験によると、SynViTAは、ビデオコンテストセットやSSv2-Temporal、SSv2-Events、ATP-Hardベンチマークの既存のメソッドよりも平均的に改善されている。
関連論文リスト
- Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - SPOT! Revisiting Video-Language Models for Event Understanding [31.49859545456809]
本稿では,既存のビデオ言語モデルのイベントレベルの相違点を識別する能力のベンチマークを行うSPOT Proberを紹介する。
これらの正負のキャプションで既存のビデオ言語モデルを評価した結果、操作されたイベントのほとんどを区別できないことがわかった。
そこで本研究では,これらの操作したイベントキャプションをハードネガティブなサンプルとしてプラグインし,イベント理解モデルの改善に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-21T18:43:07Z) - VideoCon: Robust Video-Language Alignment via Contrast Captions [80.08882631838914]
ビデオ言語アライメントモデルは、ビデオキャプションのセマンティックなコントラスト変化に対して堅牢ではない。
私たちの研究は、エンティティの置換やアクション、イベント順序の反転など、幅広いコントラストのミスアライメントを特定します。
本モデルは,時間的に拡大したビデオ言語タスクにおけるゼロショット性能の新たな状態を設定する。
論文 参考訳(メタデータ) (2023-11-15T19:51:57Z) - Analyzing Zero-Shot Abilities of Vision-Language Models on Video
Understanding Tasks [6.925770576386087]
本稿では,ゼロショット環境における映像理解タスクの評価において,画像テキストモデルの一般化能力について詳細に検討する。
実験の結果,映像テキストモデルでは,映像AR,ビデオRT,ビデオMCに優れた性能を示すことがわかった。
これらの結果は、コストのかかる事前学習のステップを回避しつつ、基礎的な画像テキストモデルを一連のビデオタスクに適応する利点を浮き彫りにした。
論文 参考訳(メタデータ) (2023-10-07T20:57:54Z) - Language Models with Image Descriptors are Strong Few-Shot
Video-Language Learners [167.0346394848718]
画像と言語モデルを用いたビデオ言語学習システムVidILを提案する。
画像言語モデルを用いて、映像コンテンツをフレームキャプション、オブジェクト、属性、イベントフレーズに変換する。
次に、いくつかのインコンテキスト例を含むプロンプトを持つ言語モデルに指示して、合成されたコンテンツからターゲット出力を生成する。
論文 参考訳(メタデータ) (2022-05-22T05:18:27Z) - Show Me What and Tell Me How: Video Synthesis via Multimodal
Conditioning [36.85533835408882]
本研究は,テキストと画像を共同あるいは別々に提供するマルチモーダルビデオ生成フレームワークを提案する。
本稿では,自己学習で訓練した新しいビデオトークンと,ビデオトークンをサンプリングするためのマスク予測アルゴリズムを提案する。
我々のフレームワークは、セグメンテーションマスク、描画、部分閉塞画像など、様々な視覚的モダリティを組み込むことができる。
論文 参考訳(メタデータ) (2022-03-04T21:09:13Z) - Stochastic Image-to-Video Synthesis using cINNs [22.5739334314885]
条件付き可逆ニューラルネットワーク(cINN)は、静的および他のビデオ特性を独立してモデル化することによってビデオを説明することができる。
4つの多様なビデオデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2021-05-10T17:59:09Z) - Strumming to the Beat: Audio-Conditioned Contrastive Video Textures [112.6140796961121]
コントラスト学習を通して学習した表現を用いた無限ビデオテクスチャ合成のための非パラメトリック手法を提案する。
ビデオテクスチャから着想を得た結果、新しいビデオは1つのビデオから、新しくて一貫性のある順序でフレームを縫い合わせることで生成できることがわかった。
我々のモデルは人間の知覚スコアのベースラインを上回り、多様な入力ビデオを扱うことができ、音声信号とよく同期する映像を合成するために意味と音声の視覚的手がかりを組み合わせることができる。
論文 参考訳(メタデータ) (2021-04-06T17:24:57Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。