論文の概要: Video-Teller: Enhancing Cross-Modal Generation with Fusion and
Decoupling
- arxiv url: http://arxiv.org/abs/2310.04991v3
- Date: Wed, 11 Oct 2023 07:20:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 13:47:27.193370
- Title: Video-Teller: Enhancing Cross-Modal Generation with Fusion and
Decoupling
- Title(参考訳): Video-Teller:フュージョンとデカップリングによるクロスモーダルジェネレーションの強化
- Authors: Haogeng Liu, Qihang Fan, Tingkai Liu, Linjie Yang, Yunzhe Tao, Huaibo
Huang, Ran He, Hongxia Yang
- Abstract要約: Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。
Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。
大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
- 参考スコア(独自算出の注目度): 79.49128866877922
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes Video-Teller, a video-language foundation model that
leverages multi-modal fusion and fine-grained modality alignment to
significantly enhance the video-to-text generation task. Video-Teller boosts
the training efficiency by utilizing frozen pretrained vision and language
modules. It capitalizes on the robust linguistic capabilities of large language
models, enabling the generation of both concise and elaborate video
descriptions. To effectively integrate visual and auditory information,
Video-Teller builds upon the image-based BLIP-2 model and introduces a cascaded
Q-Former which fuses information across frames and ASR texts. To better guide
video summarization, we introduce a fine-grained modality alignment objective,
where the cascaded Q-Former's output embedding is trained to align with the
caption/summary embedding created by a pretrained text auto-encoder.
Experimental results demonstrate the efficacy of our proposed video-language
foundation model in accurately comprehending videos and generating coherent and
precise language descriptions. It is worth noting that the fine-grained
alignment enhances the model's capabilities (4% improvement of CIDEr score on
MSR-VTT) with only 13% extra parameters in training and zero additional cost in
inference.
- Abstract(参考訳): 本稿では,マルチモーダル融合と細粒度モダリティアライメントを利用した映像言語基盤モデルであるvideo-tellerを提案する。
Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。
大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
視覚情報と聴覚情報を効果的に統合するために、Video-Tellerは画像ベースのBLIP-2モデルを構築し、フレームとASRテキスト間で情報を融合するカスケードQ-Formerを導入する。
ビデオ要約をよりよくガイドするために, 逐次qフォーマの出力埋め込みを事前学習されたテキスト自動エンコーダによって作成されたキャプション/要約埋め込みに合わせるように訓練する, 細粒度モーダリティアライメント目標を提案する。
実験の結果,提案するビデオ言語基礎モデルが,映像の正確な理解とコヒーレントで正確な言語記述の生成に有効であることが示された。
微粒なアライメントによってモデルの能力(MSR-VTTでのCIDErスコアの4%改善)が向上し、トレーニングのパラメータが13%、推論のコストがゼロになったことに注意する必要がある。
関連論文リスト
- Realizing Video Summarization from the Path of Language-based Semantic Understanding [19.825666473712197]
本稿では,Mixture of Experts(MoE)パラダイムに触発された新しいビデオ要約フレームワークを提案する。
提案手法は,複数のビデオLLMを統合し,包括的で一貫性のあるテキスト要約を生成する。
論文 参考訳(メタデータ) (2024-10-06T15:03:22Z) - Towards Holistic Language-video Representation: the language model-enhanced MSR-Video to Text Dataset [4.452729255042396]
より堅牢で総合的な言語とビデオの表現が、ビデオの理解を前進させる鍵だ。
現在の平易で単純なテキスト記述と、言語ビデオタスクに対する視覚のみの焦点は、現実世界の自然言語ビデオ検索タスクにおいて限られた能力をもたらす。
本稿では,ビデオ言語データセットを自動的に拡張し,モダリティと文脈認識を向上する手法を提案する。
論文 参考訳(メタデータ) (2024-06-19T20:16:17Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - VLAB: Enhancing Video Language Pre-training by Feature Adapting and
Blending [78.1399386935455]
CLIPのような大規模画像テキストコントラスト事前学習モデルは、高品質なマルチモーダル表現を効果的に学習することが実証されている。
本稿では,VLAB(VLAB: Video Language pre-training by feature generativeality and Blending)という新しいビデオテキスト事前学習手法を提案する。
VLABはCLIP表現をビデオ事前訓練タスクに転送し、幅広いビデオテキストタスクのための統合ビデオマルチモーダルモデルを開発する。
論文 参考訳(メタデータ) (2023-05-22T15:54:22Z) - InstructVid2Vid: Controllable Video Editing with Natural Language Instructions [97.17047888215284]
InstructVid2Vidは、人間の言語命令でガイドされたビデオ編集のためのエンドツーエンドの拡散ベースの方法論である。
我々のアプローチは、自然言語ディレクティブによって案内される映像操作を強化し、サンプルごとの微調整や逆変換の必要性を排除します。
論文 参考訳(メタデータ) (2023-05-21T03:28:13Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。