論文の概要: Enhancing Multimodal LLM for Detailed and Accurate Video Captioning using Multi-Round Preference Optimization
- arxiv url: http://arxiv.org/abs/2410.06682v1
- Date: Fri, 11 Oct 2024 02:09:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 04:19:50.088660
- Title: Enhancing Multimodal LLM for Detailed and Accurate Video Captioning using Multi-Round Preference Optimization
- Title(参考訳): マルチラウンド優先最適化を用いた細部・高精度ビデオキャプションのためのマルチモーダルLLMの強化
- Authors: Changli Tang, Yixuan Li, Yudong Yang, Jimin Zhuang, Guangzhi Sun, Wei Li, Zujun Ma, Chao Zhang,
- Abstract要約: 低ランク適応 (LoRA) を用いた高度音声視覚大言語モデル (LLM) である Video-SALMONN 2 を提案する。
そこで本稿では,DPO(directed preference optimization)を用いて最適化された映像記述の完全性と精度を評価するための新しい指標を提案する。
実験の結果、mDPOはビデオSALMONN 2のキャプション精度を大幅に向上し、グローバルとローカルのエラー率をそれぞれ40%、20%削減することがわかった。
- 参考スコア(独自算出の注目度): 19.327911862822262
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Videos contain a wealth of information, and generating detailed and accurate descriptions in natural language is a key aspect of video understanding. In this paper, we present video-SALMONN 2, an advanced audio-visual large language model (LLM) with low-rank adaptation (LoRA) designed for enhanced video (with paired audio) captioning through directed preference optimization (DPO). We propose new metrics to evaluate the completeness and accuracy of video descriptions, which are optimized using DPO. To further improve training, we introduce a novel multi-round DPO (mrDPO) approach, which involves periodically updating the DPO reference model, merging and re-initializing the LoRA module as a proxy for parameter updates after each training round (1,000 steps), and incorporating guidance from ground-truth video captions to stabilize the process. To address potential catastrophic forgetting of non-captioning abilities due to mrDPO, we propose rebirth tuning, which finetunes the pre-DPO LLM by using the captions generated by the mrDPO-trained model as supervised labels. Experiments show that mrDPO significantly enhances video-SALMONN 2's captioning accuracy, reducing global and local error rates by 40\% and 20\%, respectively, while decreasing the repetition rate by 35\%. The final video-SALMONN 2 model, with just 7 billion parameters, surpasses leading models such as GPT-4o and Gemini-1.5-Pro in video captioning tasks, while maintaining competitive performance to the state-of-the-art on widely used video question-answering benchmark among models of similar size. Upon acceptance, we will release the code, model checkpoints, and training and test data. Demos are available at \href{https://video-salmonn-2.github.io}{https://video-salmonn-2.github.io}.
- Abstract(参考訳): ビデオには豊富な情報が含まれており、自然言語で詳細な正確な記述を生成することが、ビデオ理解の重要な側面である。
本稿では,指向性優先最適化 (DPO) によるビデオキャプションの強化を目的とした,低ランク適応 (LoRA) を備えた高度オーディオ視覚大言語モデル (LLM) である Video-SALMONN 2 を提案する。
DPOを用いて最適化されたビデオ記述の完全性と精度を評価するための新しい指標を提案する。
さらに,DPO参照モデルを定期的に更新し,各トレーニングラウンド(1000ステップ)後のパラメータ更新のプロキシとしてLoRAモジュールをマージ,再起動し,地上の映像キャプションからのガイダンスを取り入れてプロセスの安定化を図る,新しいマルチラウンドDPO(mrDPO)アプローチを導入する。
我々は,mDPO学習モデルによって生成されたキャプションを教師付きラベルとして使用することにより,pre-DPO LLMを微調整する再生チューニングを提案する。
実験の結果,mDPOはビデオSALMONN 2のキャプション精度を著しく向上させ,グローバル・ローカル・エラー率を40%,ローカル・エラー率を20%,反復率を35倍に低下させることがわかった。
ビデオキャプションタスクにおけるGPT-4oやGemini-1.5-Proといった主要なモデルよりも、70億のパラメータしか持たない最後のビデオ-SALMONN 2モデルは、同様のサイズのモデルの間で、最先端の動画質問応答ベンチマークと競合する性能を維持している。
受け入れたら、コード、モデルチェックポイント、トレーニングとテストデータをリリースします。
デモは \href{https://video-salmonn-2.github.io}{https://video-salmonn-2.github.io} で公開されている。
関連論文リスト
- Temporal Preference Optimization for Long-Form Video Understanding [28.623353303256653]
TPO(Temporal Preference Optimization)は、ビデオLMMの時間的グラウンド機能を高めるために設計された、新しいポストトレーニングフレームワークである。
TPOは、手動の注釈付きデータへの依存を減らしながら、時間的理解を著しく向上させる。
LLaVA-Video-TPOは、Video-MMEベンチマークでトップ7Bモデルとしての地位を確立している。
論文 参考訳(メタデータ) (2025-01-23T18:58:03Z) - Prompt-A-Video: Prompt Your Video Diffusion Model via Preference-Aligned LLM [54.2320450886902]
テキスト・ビデオ・モデルは高品質のテキスト・ビデオ・ペアを最適化することで顕著な進歩を遂げた。
現在の精製の自動化手法は、モダリティ・一貫性、コスト分散、モデルウナウエアといった課題に直面する。
Prompt-A-Videoは、特定のビデオ拡散モデルに合わせた、ビデオ中心、労働自由、調整されたプロンプトの製作に優れる。
論文 参考訳(メタデータ) (2024-12-19T18:32:21Z) - SoPo: Text-to-Motion Generation Using Semi-Online Preference Optimization [82.83603957387442]
我々は、高品質で人間の好む動きを常に好むように微調整されたテキスト・トゥ・モーションモデルに焦点を当てる。
本研究では,オンライン設定とオフライン設定の両方でDPOを理論的に検討する。
そこで本研究では,DPOに基づくテキスト・ツー・モーションモデルのトレーニング手法であるSemi-online Preference Optimization (SoPo)を紹介する。
論文 参考訳(メタデータ) (2024-12-06T14:50:38Z) - VideoSAVi: Self-Aligned Video Language Models without Human Supervision [0.6854849895338531]
VideoSAViは視覚言語モデル(VLM)のための新しい自己学習パイプラインである
広範囲のマニュアルアノテーションなしで独自のトレーニングデータを生成する。
VideoSAViは、複数のベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2024-12-01T00:33:05Z) - Bootstrapping Language Models with DPO Implicit Rewards [45.68366127605774]
直接選好最適化(DPO)は、人間のフィードバックからの強化学習において、過去の作業からプロセスを大幅に単純化した。
本研究では,この暗黙の報酬モデル自体をブートストラップ方式で利用することにより,LLMをさらに整合させることができることを示す。
DPO ImpliCit rEwards (DICE) を用いた自己アライメント(自己アライメント)という手法は、アライメントの大幅な改善と優れた性能を実現する。
論文 参考訳(メタデータ) (2024-06-14T06:57:18Z) - PLLaVA : Parameter-free LLaVA Extension from Images to Videos for Video Dense Captioning [78.23573511641548]
視覚言語事前学習は、幅広い画像言語アプリケーションで性能を大幅に向上させた。
しかし、ビデオ関連タスクの事前学習プロセスは、非常に大きな計算とデータリソースを必要とする。
本稿では,映像理解のための既存の画像言語事前学習モデルに適用するための,ストレートフォワード,高効率,資源光のアプローチについて検討する。
論文 参考訳(メタデータ) (2024-04-25T19:29:55Z) - Direct Preference Optimization of Video Large Multimodal Models from Language Model Reward [118.65089648651308]
本稿では,映像コンテンツのプロキシとして詳細な動画キャプションを利用する新しいフレームワークを提案する。
本稿では,DPOによる報酬の調整により,ビデオ質問応答(QA)タスクにおけるビデオLMMの性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2024-04-01T17:28:16Z) - VLAB: Enhancing Video Language Pre-training by Feature Adapting and
Blending [78.1399386935455]
CLIPのような大規模画像テキストコントラスト事前学習モデルは、高品質なマルチモーダル表現を効果的に学習することが実証されている。
本稿では,VLAB(VLAB: Video Language pre-training by feature generativeality and Blending)という新しいビデオテキスト事前学習手法を提案する。
VLABはCLIP表現をビデオ事前訓練タスクに転送し、幅広いビデオテキストタスクのための統合ビデオマルチモーダルモデルを開発する。
論文 参考訳(メタデータ) (2023-05-22T15:54:22Z) - LiteVL: Efficient Video-Language Learning with Enhanced Spatial-Temporal
Modeling [48.283659682112926]
本稿では,事前学習した画像言語モデルBLIPを,下流タスク上で直接ビデオテキストモデルに適応させるLiteVLを提案する。
また、テキスト上に埋め込まれた微細なビデオ埋め込み条件を適応的に重み付けする非パラメトリックプーリング機構を提案する。
論文 参考訳(メタデータ) (2022-10-21T13:03:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。