論文の概要: Enhancing Multimodal LLM for Detailed and Accurate Video Captioning using Multi-Round Preference Optimization
- arxiv url: http://arxiv.org/abs/2410.06682v2
- Date: Fri, 11 Oct 2024 02:09:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 04:19:50.085074
- Title: Enhancing Multimodal LLM for Detailed and Accurate Video Captioning using Multi-Round Preference Optimization
- Title(参考訳): マルチラウンド優先最適化を用いた細部・高精度ビデオキャプションのためのマルチモーダルLLMの強化
- Authors: Changli Tang, Yixuan Li, Yudong Yang, Jimin Zhuang, Guangzhi Sun, Wei Li, Zujun Ma, Chao Zhang,
- Abstract要約: 低ランク適応 (LoRA) を用いた高度音声視覚大言語モデル (LLM) である Video-SALMONN 2 を提案する。
そこで本稿では,DPO(directed preference optimization)を用いて最適化された映像記述の完全性と精度を評価するための新しい指標を提案する。
実験の結果、mDPOはビデオSALMONN 2のキャプション精度を大幅に向上し、グローバルとローカルのエラー率をそれぞれ40%、20%削減することがわかった。
- 参考スコア(独自算出の注目度): 19.327911862822262
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Videos contain a wealth of information, and generating detailed and accurate descriptions in natural language is a key aspect of video understanding. In this paper, we present video-SALMONN 2, an advanced audio-visual large language model (LLM) with low-rank adaptation (LoRA) designed for enhanced video (with paired audio) captioning through directed preference optimization (DPO). We propose new metrics to evaluate the completeness and accuracy of video descriptions, which are optimized using DPO. To further improve training, we introduce a novel multi-round DPO (mrDPO) approach, which involves periodically updating the DPO reference model, merging and re-initializing the LoRA module as a proxy for parameter updates after each training round (1,000 steps), and incorporating guidance from ground-truth video captions to stabilize the process. To address potential catastrophic forgetting of non-captioning abilities due to mrDPO, we propose rebirth tuning, which finetunes the pre-DPO LLM by using the captions generated by the mrDPO-trained model as supervised labels. Experiments show that mrDPO significantly enhances video-SALMONN 2's captioning accuracy, reducing global and local error rates by 40\% and 20\%, respectively, while decreasing the repetition rate by 35\%. The final video-SALMONN 2 model, with just 7 billion parameters, surpasses leading models such as GPT-4o and Gemini-1.5-Pro in video captioning tasks, while maintaining competitive performance to the state-of-the-art on widely used video question-answering benchmark among models of similar size. Upon acceptance, we will release the code, model checkpoints, and training and test data. Demos are available at \href{https://video-salmonn-2.github.io}{https://video-salmonn-2.github.io}.
- Abstract(参考訳): ビデオには豊富な情報が含まれており、自然言語で詳細な正確な記述を生成することが、ビデオ理解の重要な側面である。
本稿では,指向性優先最適化 (DPO) によるビデオキャプションの強化を目的とした,低ランク適応 (LoRA) を備えた高度オーディオ視覚大言語モデル (LLM) である Video-SALMONN 2 を提案する。
DPOを用いて最適化されたビデオ記述の完全性と精度を評価するための新しい指標を提案する。
さらに,DPO参照モデルを定期的に更新し,各トレーニングラウンド(1000ステップ)後のパラメータ更新のプロキシとしてLoRAモジュールをマージ,再起動し,地上の映像キャプションからのガイダンスを取り入れてプロセスの安定化を図る,新しいマルチラウンドDPO(mrDPO)アプローチを導入する。
我々は,mDPO学習モデルによって生成されたキャプションを教師付きラベルとして使用することにより,pre-DPO LLMを微調整する再生チューニングを提案する。
実験の結果,mDPOはビデオSALMONN 2のキャプション精度を著しく向上させ,グローバル・ローカル・エラー率を40%,ローカル・エラー率を20%,反復率を35倍に低下させることがわかった。
ビデオキャプションタスクにおけるGPT-4oやGemini-1.5-Proといった主要なモデルよりも、70億のパラメータしか持たない最後のビデオ-SALMONN 2モデルは、同様のサイズのモデルの間で、最先端の動画質問応答ベンチマークと競合する性能を維持している。
受け入れたら、コード、モデルチェックポイント、トレーニングとテストデータをリリースします。
デモは \href{https://video-salmonn-2.github.io}{https://video-salmonn-2.github.io} で公開されている。
関連論文リスト
- Bootstrapping Language Models with DPO Implicit Rewards [45.68366127605774]
直接選好最適化(DPO)は、人間のフィードバックからの強化学習において、過去の作業からプロセスを大幅に単純化した。
本研究では,この暗黙の報酬モデル自体をブートストラップ方式で利用することにより,LLMをさらに整合させることができることを示す。
DPO ImpliCit rEwards (DICE) を用いた自己アライメント(自己アライメント)という手法は、アライメントの大幅な改善と優れた性能を実現する。
論文 参考訳(メタデータ) (2024-06-14T06:57:18Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - PLLaVA : Parameter-free LLaVA Extension from Images to Videos for Video Dense Captioning [78.23573511641548]
視覚言語事前学習は、幅広い画像言語アプリケーションで性能を大幅に向上させた。
しかし、ビデオ関連タスクの事前学習プロセスは、非常に大きな計算とデータリソースを必要とする。
本稿では,映像理解のための既存の画像言語事前学習モデルに適用するための,ストレートフォワード,高効率,資源光のアプローチについて検討する。
論文 参考訳(メタデータ) (2024-04-25T19:29:55Z) - Direct Preference Optimization of Video Large Multimodal Models from Language Model Reward [118.65089648651308]
本稿では,映像コンテンツのプロキシとして詳細な動画キャプションを利用する新しいフレームワークを提案する。
本稿では,DPOによる報酬の調整により,ビデオ質問応答(QA)タスクにおけるビデオLMMの性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2024-04-01T17:28:16Z) - M2-RAAP: A Multi-Modal Recipe for Advancing Adaptation-based
Pre-training towards Effective and Efficient Zero-shot Video-text Retrieval [13.418762442122723]
本稿では,M2-RAAPと呼ばれる,効果的かつ効率的なゼロショットビデオテキスト検索のための適応型事前学習のためのマルチモーダルレシピを提案する。
論文 参考訳(メタデータ) (2024-01-31T12:45:44Z) - READ: Recurrent Adapter with Partial Video-Language Alignment for Parameter-Efficient Transfer Learning in Low-Resource Video-Language Modeling [31.745255364708864]
トレーニング済みモデルに軽量アダプタを導入し、微調整時にのみ更新する。
本稿では、時間的モデリング機能を実現するために、繰り返し計算を利用する新しいRecurrent Adapter(READ)を提案する。
我々は、READが既存のすべての微調整戦略を著しく上回る広範囲な実験を通じて、READフレームワークを検証する。
論文 参考訳(メタデータ) (2023-12-12T03:09:30Z) - Video-Teller: Enhancing Cross-Modal Generation with Fusion and
Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。
Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。
大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文 参考訳(メタデータ) (2023-10-08T03:35:27Z) - VLAB: Enhancing Video Language Pre-training by Feature Adapting and
Blending [78.1399386935455]
CLIPのような大規模画像テキストコントラスト事前学習モデルは、高品質なマルチモーダル表現を効果的に学習することが実証されている。
本稿では,VLAB(VLAB: Video Language pre-training by feature generativeality and Blending)という新しいビデオテキスト事前学習手法を提案する。
VLABはCLIP表現をビデオ事前訓練タスクに転送し、幅広いビデオテキストタスクのための統合ビデオマルチモーダルモデルを開発する。
論文 参考訳(メタデータ) (2023-05-22T15:54:22Z) - LiteVL: Efficient Video-Language Learning with Enhanced Spatial-Temporal
Modeling [48.283659682112926]
本稿では,事前学習した画像言語モデルBLIPを,下流タスク上で直接ビデオテキストモデルに適応させるLiteVLを提案する。
また、テキスト上に埋め込まれた微細なビデオ埋め込み条件を適応的に重み付けする非パラメトリックプーリング機構を提案する。
論文 参考訳(メタデータ) (2022-10-21T13:03:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。