論文の概要: video-SALMONN 2: Captioning-Enhanced Audio-Visual Large Language Models
- arxiv url: http://arxiv.org/abs/2506.15220v1
- Date: Wed, 18 Jun 2025 07:58:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.580298
- Title: video-SALMONN 2: Captioning-Enhanced Audio-Visual Large Language Models
- Title(参考訳): Video-SALMONN 2: Captioning-Enhanced Audio-Visual Large Language Models
- Authors: Changli Tang, Yixuan Li, Yudong Yang, Jimin Zhuang, Guangzhi Sun, Wei Li, Zejun Ma, Chao Zhang,
- Abstract要約: 低ランク適応 (LoRA) を用いた高度音声視覚大言語モデル (LLM) である Video-SALMONN 2 を提案する。
そこで本稿では,映像記述の完全性と正確性を評価するための新しい指標を提案する。
実験の結果,MrDPOはビデオSALMONN 2のキャプション精度を大幅に向上し,キャプション誤り率を28%低下させることがわかった。
- 参考スコア(独自算出の注目度): 33.70837005629285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Videos contain a wealth of information, and generating detailed and accurate descriptions in natural language is a key aspect of video understanding. In this paper, we present video-SALMONN 2, an advanced audio-visual large language model (LLM) with low-rank adaptation (LoRA) designed for enhanced video (with paired audio) captioning through directed preference optimisation (DPO). We propose new metrics to evaluate the completeness and accuracy of video descriptions, which are optimised using DPO. To further improve training, we propose a novel multi-round DPO (MrDPO) approach, which involves periodically updating the DPO reference model, merging and re-initialising the LoRA module as a proxy for parameter updates after each training round (1,000 steps), and incorporating guidance from ground-truth video captions to stabilise the process. Experimental results show that MrDPO significantly enhances video-SALMONN 2's captioning accuracy, reducing the captioning error rates by 28\%. The final video-SALMONN 2 model, with just 7 billion parameters, surpasses leading models such as GPT-4o and Gemini-1.5-Pro in video captioning tasks, while maintaining highly competitive performance to the state-of-the-art on widely used video question-answering benchmarks among models of similar size. Codes are available at \href{https://github.com/bytedance/video-SALMONN-2}{https://github.com/bytedance/video-SALMONN-2}.
- Abstract(参考訳): ビデオには豊富な情報が含まれており、自然言語で詳細な正確な記述を生成することが、ビデオ理解の重要な側面である。
本稿では,指向性優先最適化(DPO)によるビデオキャプションの強化を目的とした,低ランク適応(LoRA)を備えた高度オーディオ視覚大言語モデル(LLM)であるVideo-SALMONN 2を提案する。
DPOを用いて最適化したビデオ記述の完全性と精度を評価するための新しい指標を提案する。
さらに,DPO参照モデルを定期的に更新し,各トレーニングラウンド(1000ステップ)後のパラメータ更新のプロキシとしてLoRAモジュールをマージ,再起動し,地上の映像キャプションからのガイダンスを取り入れてプロセスの安定化を図る,新しいマルチラウンドDPO(MrDPO)アプローチを提案する。
実験の結果,MrDPOはビデオSALMONN2のキャプション精度を著しく向上し,キャプション誤り率を28。
ビデオキャプションタスクにおけるGPT-4oやGemini-1.5-Proといった主要なモデルよりも、70億のパラメータしか持たない最後のビデオ-SALMONN 2モデルは、同様のサイズのモデル間で、最先端の動画質問応答ベンチマークと高い競争力を維持している。
コードは \href{https://github.com/bytedance/video-SALMONN-2}{https://github.com/bytedance/video-SALMONN-2} で公開されている。
関連論文リスト
- DenseDPO: Fine-Grained Temporal Preference Optimization for Video Diffusion Models [60.716734545171114]
本稿では,3つのコントリビューションによって欠点に対処するDenseDPOを紹介する。
まず,地上の真理ビデオの破損したコピーをデノベートすることで,DPO用のビデオペアを作成する。
第二に、得られた時間的アライメントを利用して、クリップ全体よりも短いセグメントにラベルを付けることで、より密でより正確な学習信号が得られる。
論文 参考訳(メタデータ) (2025-06-04T03:06:08Z) - SynPO: Synergizing Descriptiveness and Preference Optimization for Video Detailed Captioning [69.34975070207763]
我々は、選好学習を活用し、細粒度ビデオキャプションにおける視覚言語モデルの性能を向上させる。
本稿では,DPOとその変種に対する大きな優位性を示す新しい最適化手法を提案する。
その結果、SynPOはトレーニング効率を20%向上しつつ、DPOの変種を一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2025-06-01T04:51:49Z) - VistaDPO: Video Hierarchical Spatial-Temporal Direct Preference Optimization for Large Video Models [80.92928946973026]
ビデオ階層型空間-時間的直接参照最適化のためのフレームワークであるVistaDPOを紹介する。
VistaDPOは3つの階層レベルにまたがってテキストとビデオの好みのアライメントを強化する。
Video Hallucination、Video QA、Captioningパフォーマンスタスクなどのベンチマークの実験では、VistaDPOが既存のLVMのパフォーマンスを大幅に改善していることが示されている。
論文 参考訳(メタデータ) (2025-04-17T17:39:41Z) - Temporal Preference Optimization for Long-Form Video Understanding [28.623353303256653]
TPO(Temporal Preference Optimization)は、ビデオLMMの時間的グラウンド機能を高めるために設計された、新しいポストトレーニングフレームワークである。
TPOは、手動の注釈付きデータへの依存を減らしながら、時間的理解を著しく向上させる。
LLaVA-Video-TPOは、Video-MMEベンチマークでトップ7Bモデルとしての地位を確立している。
論文 参考訳(メタデータ) (2025-01-23T18:58:03Z) - Enhancing Multimodal LLM for Detailed and Accurate Video Captioning using Multi-Round Preference Optimization [19.327911862822262]
低ランク適応 (LoRA) を用いた高度音声視覚大言語モデル (LLM) である Video-SALMONN 2 を提案する。
そこで本稿では,DPO(directed preference optimization)を用いて最適化された映像記述の完全性と精度を評価するための新しい指標を提案する。
実験の結果、mDPOはビデオSALMONN 2のキャプション精度を大幅に向上し、グローバルとローカルのエラー率をそれぞれ40%、20%削減することがわかった。
論文 参考訳(メタデータ) (2024-10-09T08:44:47Z) - Direct Preference Optimization of Video Large Multimodal Models from Language Model Reward [118.65089648651308]
本稿では,映像コンテンツのプロキシとして詳細な動画キャプションを利用する新しいフレームワークを提案する。
本稿では,DPOによる報酬の調整により,ビデオ質問応答(QA)タスクにおけるビデオLMMの性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2024-04-01T17:28:16Z) - Video-Teller: Enhancing Cross-Modal Generation with Fusion and
Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。
Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。
大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文 参考訳(メタデータ) (2023-10-08T03:35:27Z) - HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [72.69268311756082]
本稿では,大言語モデル(LLM)の能力を活用して,大規模ビデオに対応する高品質な映像記述を実現することを提案する。
本稿では,より長い字幕テキストを考慮に入れたプロンプト手法を提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。