論文の概要: SynPO: Synergizing Descriptiveness and Preference Optimization for Video Detailed Captioning
- arxiv url: http://arxiv.org/abs/2506.00835v1
- Date: Sun, 01 Jun 2025 04:51:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.226548
- Title: SynPO: Synergizing Descriptiveness and Preference Optimization for Video Detailed Captioning
- Title(参考訳): SynPO: ビデオ詳細キャプションにおける記述性と参照最適化の相乗化
- Authors: Jisheng Dang, Yizhou Zhang, Hao Ye, Teng Wang, Siming Chen, Huicheng Zheng, Yulan Guo, Jianhuang Lai, Bin Hu,
- Abstract要約: 我々は、選好学習を活用し、細粒度ビデオキャプションにおける視覚言語モデルの性能を向上させる。
本稿では,DPOとその変種に対する大きな優位性を示す新しい最適化手法を提案する。
その結果、SynPOはトレーニング効率を20%向上しつつ、DPOの変種を一貫して上回っていることがわかった。
- 参考スコア(独自算出の注目度): 69.34975070207763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-grained video captioning aims to generate detailed, temporally coherent descriptions of video content. However, existing methods struggle to capture subtle video dynamics and rich detailed information. In this paper, we leverage preference learning to enhance the performance of vision-language models in fine-grained video captioning, while mitigating several limitations inherent to direct preference optimization (DPO). First, we propose a pipeline for constructing preference pairs that leverages the intrinsic properties of VLMs along with partial assistance from large language models, achieving an optimal balance between cost and data quality. Second, we propose Synergistic Preference Optimization (SynPO), a novel optimization method offering significant advantages over DPO and its variants. SynPO prevents negative preferences from dominating the optimization, explicitly preserves the model's language capability to avoid deviation of the optimization objective, and improves training efficiency by eliminating the need for the reference model. We extensively evaluate SynPO not only on video captioning benchmarks (e.g., VDC, VDD, VATEX) but also across well-established NLP tasks, including general language understanding and preference evaluation, using diverse pretrained models. Results demonstrate that SynPO consistently outperforms DPO variants while achieving 20\% improvement in training efficiency. Code is available at https://github.com/longmalongma/SynPO
- Abstract(参考訳): きめ細かいビデオキャプションは、ビデオコンテンツの詳細な時間的コヒーレントな記述を生成することを目的としている。
しかし、既存の手法は微妙なビデオのダイナミックスと豊富な詳細情報を捉えるのに苦労している。
本稿では、嗜好学習を活用し、直接選好最適化(DPO)に固有のいくつかの制限を緩和しつつ、細粒度ビデオキャプションにおける視覚言語モデルの性能を向上させる。
まず,VLMの本質的な特性と大規模言語モデルの部分的支援を活かし,コストとデータ品質の最適バランスを実現するためのパイプラインを提案する。
次に、DPOとその変種に対して大きな利点をもたらす新しい最適化手法であるSynPOを提案する。
SynPOは、最適化の優位性からネガティブな選好を防ぎ、最適化目標のずれを避けるために、モデルの言語能力を明示的に保持し、参照モデルの必要性を排除して、トレーニング効率を向上させる。
我々は、ビデオキャプションベンチマーク(例えば、VDC、VDD、VATEX)だけでなく、多種多様な事前学習モデルを用いて、一般的な言語理解や嗜好評価を含むよく確立されたNLPタスクに対しても、SynPOを広範囲に評価する。
その結果,SynPOはトレーニング効率を20%向上しつつ,DPOの変種を一貫して上回っていることがわかった。
コードはhttps://github.com/longmalongma/SynPOで入手できる。
関連論文リスト
- VPO: Aligning Text-to-Video Generation Models with Prompt Optimization [80.86205966195593]
ビデオ生成モデルは、通常、高度に詳細で慎重に記述されたテキストとビデオのペアで訓練される。
VPOは3つの基本原則(無害性、正確性、有用性)に基づいてプロンプトを最適化する、原則化されたフレームワークです。
実験の結果,VPOは基準法に比べて安全性,アライメント,画質を著しく向上することがわかった。
論文 参考訳(メタデータ) (2025-03-26T12:28:20Z) - TEMPLE:Temporal Preference Learning of Video LLMs via Difficulty Scheduling and Pre-SFT Alignment [48.94844127553743]
TEMPLEはビデオ大言語モデルの時間的推論能力を高めるための体系的なフレームワークである。
提案手法は,比較的小さな自己生成DPOデータを用いて,複数のベンチマークでビデオLLM性能を継続的に改善する。
我々のTEMPLEは、SFTベースの手法をスケーラブルかつ効率的に補完するものであり、信頼性の高いビデオLLMを開発するための道を開くものである。
論文 参考訳(メタデータ) (2025-03-21T08:00:29Z) - IPO: Iterative Preference Optimization for Text-to-Video Generation [10.625127393884462]
人間のフィードバックを取り入れて生成した映像の質を高めるための反復選好最適化手法を提案する。
IPOは、直接選好最適化(Direct Preference Optimization)やポイントワイズスコア(point-wise score)のように、ビデオ世代をペアワイズランキングで正当化する批判モデルを活用する。
さらに、IPOは批判モデルにマルチモダリティの大規模言語モデルを導入し、リトレーニングや緩和を必要とせず、自動的に好みラベルを割り当てることを可能にする。
論文 参考訳(メタデータ) (2025-02-04T08:14:34Z) - VideoDPO: Omni-Preference Alignment for Video Diffusion Generation [48.36302380755874]
DPO(Direct Preference Optimization)は、言語と画像生成において大幅に改善されている。
本稿では,いくつかの重要な調整を施したビデオDPOパイプラインを提案する。
本実験は視覚的品質とセマンティックアライメントの両面で大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2024-12-18T18:59:49Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。