Fugu-MT 論文翻訳(概要): Enhancing Multimodal LLM for Detailed and Accurate Video Captioning using Multi-Round Preference Optimization

論文の概要: Enhancing Multimodal LLM for Detailed and Accurate Video Captioning using Multi-Round Preference Optimization

arxiv url: http://arxiv.org/abs/2410.06682v2
Date: Fri, 11 Oct 2024 02:09:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-01 04:19:50.085074
Title: Enhancing Multimodal LLM for Detailed and Accurate Video Captioning using Multi-Round Preference Optimization
Title（参考訳）: マルチラウンド優先最適化を用いた細部・高精度ビデオキャプションのためのマルチモーダルLLMの強化
Authors: Changli Tang, Yixuan Li, Yudong Yang, Jimin Zhuang, Guangzhi Sun, Wei Li, Zujun Ma, Chao Zhang,
Abstract要約: 低ランク適応 (LoRA) を用いた高度音声視覚大言語モデル (LLM) である Video-SALMONN 2 を提案する。そこで本稿では,DPO(directed preference optimization)を用いて最適化された映像記述の完全性と精度を評価するための新しい指標を提案する。実験の結果、mDPOはビデオSALMONN 2のキャプション精度を大幅に向上し、グローバルとローカルのエラー率をそれぞれ40%、20%削減することがわかった。
参考スコア（独自算出の注目度）: 19.327911862822262
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Videos contain a wealth of information, and generating detailed and accurate descriptions in natural language is a key aspect of video understanding. In this paper, we present video-SALMONN 2, an advanced audio-visual large language model (LLM) with low-rank adaptation (LoRA) designed for enhanced video (with paired audio) captioning through directed preference optimization (DPO). We propose new metrics to evaluate the completeness and accuracy of video descriptions, which are optimized using DPO. To further improve training, we introduce a novel multi-round DPO (mrDPO) approach, which involves periodically updating the DPO reference model, merging and re-initializing the LoRA module as a proxy for parameter updates after each training round (1,000 steps), and incorporating guidance from ground-truth video captions to stabilize the process. To address potential catastrophic forgetting of non-captioning abilities due to mrDPO, we propose rebirth tuning, which finetunes the pre-DPO LLM by using the captions generated by the mrDPO-trained model as supervised labels. Experiments show that mrDPO significantly enhances video-SALMONN 2's captioning accuracy, reducing global and local error rates by 40\% and 20\%, respectively, while decreasing the repetition rate by 35\%. The final video-SALMONN 2 model, with just 7 billion parameters, surpasses leading models such as GPT-4o and Gemini-1.5-Pro in video captioning tasks, while maintaining competitive performance to the state-of-the-art on widely used video question-answering benchmark among models of similar size. Upon acceptance, we will release the code, model checkpoints, and training and test data. Demos are available at \href{https://video-salmonn-2.github.io}{https://video-salmonn-2.github.io}.
Abstract（参考訳）: ビデオには豊富な情報が含まれており、自然言語で詳細な正確な記述を生成することが、ビデオ理解の重要な側面である。本稿では,指向性優先最適化 (DPO) によるビデオキャプションの強化を目的とした,低ランク適応 (LoRA) を備えた高度オーディオ視覚大言語モデル (LLM) である Video-SALMONN 2 を提案する。 DPOを用いて最適化されたビデオ記述の完全性と精度を評価するための新しい指標を提案する。さらに,DPO参照モデルを定期的に更新し,各トレーニングラウンド(1000ステップ)後のパラメータ更新のプロキシとしてLoRAモジュールをマージ,再起動し,地上の映像キャプションからのガイダンスを取り入れてプロセスの安定化を図る,新しいマルチラウンドDPO(mrDPO)アプローチを導入する。我々は,mDPO学習モデルによって生成されたキャプションを教師付きラベルとして使用することにより,pre-DPO LLMを微調整する再生チューニングを提案する。実験の結果,mDPOはビデオSALMONN 2のキャプション精度を著しく向上させ,グローバル・ローカル・エラー率を40%,ローカル・エラー率を20%,反復率を35倍に低下させることがわかった。ビデオキャプションタスクにおけるGPT-4oやGemini-1.5-Proといった主要なモデルよりも、70億のパラメータしか持たない最後のビデオ-SALMONN 2モデルは、同様のサイズのモデルの間で、最先端の動画質問応答ベンチマークと競合する性能を維持している。受け入れたら、コード、モデルチェックポイント、トレーニングとテストデータをリリースします。デモは \href{https://video-salmonn-2.github.io}{https://video-salmonn-2.github.io} で公開されている。

関連論文リスト

video-SALMONN 2: Captioning-Enhanced Audio-Visual Large Language Models [33.70837005629285]
低ランク適応 (LoRA) を用いた高度音声視覚大言語モデル (LLM) である Video-SALMONN 2 を提案する。そこで本稿では,映像記述の完全性と正確性を評価するための新しい指標を提案する。実験の結果,MrDPOはビデオSALMONN 2のキャプション精度を大幅に向上し,キャプション誤り率を28%低下させることがわかった。
論文参考訳（メタデータ） (2025-06-18T07:58:41Z)
DenseDPO: Fine-Grained Temporal Preference Optimization for Video Diffusion Models [60.716734545171114]
本稿では,3つのコントリビューションによって欠点に対処するDenseDPOを紹介する。まず,地上の真理ビデオの破損したコピーをデノベートすることで,DPO用のビデオペアを作成する。第二に、得られた時間的アライメントを利用して、クリップ全体よりも短いセグメントにラベルを付けることで、より密でより正確な学習信号が得られる。
論文参考訳（メタデータ） (2025-06-04T03:06:08Z)
SynPO: Synergizing Descriptiveness and Preference Optimization for Video Detailed Captioning [69.34975070207763]
我々は、選好学習を活用し、細粒度ビデオキャプションにおける視覚言語モデルの性能を向上させる。本稿では,DPOとその変種に対する大きな優位性を示す新しい最適化手法を提案する。その結果、SynPOはトレーニング効率を20%向上しつつ、DPOの変種を一貫して上回っていることがわかった。
論文参考訳（メタデータ） (2025-06-01T04:51:49Z)
VistaDPO: Video Hierarchical Spatial-Temporal Direct Preference Optimization for Large Video Models [80.92928946973026]
ビデオ階層型空間-時間的直接参照最適化のためのフレームワークであるVistaDPOを紹介する。 VistaDPOは3つの階層レベルにまたがってテキストとビデオの好みのアライメントを強化する。 Video Hallucination、Video QA、Captioningパフォーマンスタスクなどのベンチマークの実験では、VistaDPOが既存のLVMのパフォーマンスを大幅に改善していることが示されている。
論文参考訳（メタデータ） (2025-04-17T17:39:41Z)
PaMi-VDPO: Mitigating Video Hallucinations by Prompt-Aware Multi-Instance Video Preference Learning [50.81779197183613]
ビデオマルチモーダル大言語モデル(VLLM)における幻覚の低減を支援する直接選好最適化(DPO) 本稿では、嗜好アノテーションの不要なオンライン嗜好学習フレームワークであるVDPO(Video Direct Preference Optimization)を提案する。本稿では,Prompt-aware Multi-instance Learning VDPOを提案する。
論文参考訳（メタデータ） (2025-04-08T08:41:41Z)
VPO: Aligning Text-to-Video Generation Models with Prompt Optimization [80.86205966195593]
ビデオ生成モデルは、通常、高度に詳細で慎重に記述されたテキストとビデオのペアで訓練される。 VPOは3つの基本原則(無害性、正確性、有用性)に基づいてプロンプトを最適化する、原則化されたフレームワークです。実験の結果,VPOは基準法に比べて安全性,アライメント,画質を著しく向上することがわかった。
論文参考訳（メタデータ） (2025-03-26T12:28:20Z)
Temporal Preference Optimization for Long-Form Video Understanding [28.623353303256653]
TPO(Temporal Preference Optimization)は、ビデオLMMの時間的グラウンド機能を高めるために設計された、新しいポストトレーニングフレームワークである。 TPOは、手動の注釈付きデータへの依存を減らしながら、時間的理解を著しく向上させる。 LLaVA-Video-TPOは、Video-MMEベンチマークでトップ7Bモデルとしての地位を確立している。
論文参考訳（メタデータ） (2025-01-23T18:58:03Z)
Prompt-A-Video: Prompt Your Video Diffusion Model via Preference-Aligned LLM [54.2320450886902]
テキスト・ビデオ・モデルは高品質のテキスト・ビデオ・ペアを最適化することで顕著な進歩を遂げた。現在の精製の自動化手法は、モダリティ・一貫性、コスト分散、モデルウナウエアといった課題に直面する。 Prompt-A-Videoは、特定のビデオ拡散モデルに合わせた、ビデオ中心、労働自由、調整されたプロンプトの製作に優れる。
論文参考訳（メタデータ） (2024-12-19T18:32:21Z)
Bootstrapping Language Models with DPO Implicit Rewards [45.68366127605774]
直接選好最適化(DPO)は、人間のフィードバックからの強化学習において、過去の作業からプロセスを大幅に単純化した。本研究では,この暗黙の報酬モデル自体をブートストラップ方式で利用することにより,LLMをさらに整合させることができることを示す。 DPO ImpliCit rEwards (DICE) を用いた自己アライメント(自己アライメント)という手法は、アライメントの大幅な改善と優れた性能を実現する。
論文参考訳（メタデータ） (2024-06-14T06:57:18Z)
Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文参考訳（メタデータ） (2024-05-01T17:59:20Z)
PLLaVA : Parameter-free LLaVA Extension from Images to Videos for Video Dense Captioning [78.23573511641548]
視覚言語事前学習は、幅広い画像言語アプリケーションで性能を大幅に向上させた。しかし、ビデオ関連タスクの事前学習プロセスは、非常に大きな計算とデータリソースを必要とする。本稿では,映像理解のための既存の画像言語事前学習モデルに適用するための,ストレートフォワード,高効率,資源光のアプローチについて検討する。
論文参考訳（メタデータ） (2024-04-25T19:29:55Z)
Direct Preference Optimization of Video Large Multimodal Models from Language Model Reward [118.65089648651308]
本稿では,映像コンテンツのプロキシとして詳細な動画キャプションを利用する新しいフレームワークを提案する。本稿では,DPOによる報酬の調整により,ビデオ質問応答(QA)タスクにおけるビデオLMMの性能が著しく向上することを示す。
論文参考訳（メタデータ） (2024-04-01T17:28:16Z)
M2-RAAP: A Multi-Modal Recipe for Advancing Adaptation-based Pre-training towards Effective and Efficient Zero-shot Video-text Retrieval [13.418762442122723]
本稿では,M2-RAAPと呼ばれる,効果的かつ効率的なゼロショットビデオテキスト検索のための適応型事前学習のためのマルチモーダルレシピを提案する。
論文参考訳（メタデータ） (2024-01-31T12:45:44Z)
READ: Recurrent Adapter with Partial Video-Language Alignment for Parameter-Efficient Transfer Learning in Low-Resource Video-Language Modeling [31.745255364708864]
トレーニング済みモデルに軽量アダプタを導入し、微調整時にのみ更新する。本稿では、時間的モデリング機能を実現するために、繰り返し計算を利用する新しいRecurrent Adapter(READ)を提案する。我々は、READが既存のすべての微調整戦略を著しく上回る広範囲な実験を通じて、READフレームワークを検証する。
論文参考訳（メタデータ） (2023-12-12T03:09:30Z)
Video-Teller: Enhancing Cross-Modal Generation with Fusion and Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。 Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文参考訳（メタデータ） (2023-10-08T03:35:27Z)
VLAB: Enhancing Video Language Pre-training by Feature Adapting and Blending [78.1399386935455]
CLIPのような大規模画像テキストコントラスト事前学習モデルは、高品質なマルチモーダル表現を効果的に学習することが実証されている。本稿では,VLAB(VLAB: Video Language pre-training by feature generativeality and Blending)という新しいビデオテキスト事前学習手法を提案する。 VLABはCLIP表現をビデオ事前訓練タスクに転送し、幅広いビデオテキストタスクのための統合ビデオマルチモーダルモデルを開発する。
論文参考訳（メタデータ） (2023-05-22T15:54:22Z)
LiteVL: Efficient Video-Language Learning with Enhanced Spatial-Temporal Modeling [48.283659682112926]
本稿では,事前学習した画像言語モデルBLIPを,下流タスク上で直接ビデオテキストモデルに適応させるLiteVLを提案する。また、テキスト上に埋め込まれた微細なビデオ埋め込み条件を適応的に重み付けする非パラメトリックプーリング機構を提案する。
論文参考訳（メタデータ） (2022-10-21T13:03:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。