論文の概要: Learning to Rank Caption Chains for Video-Text Alignment
- arxiv url: http://arxiv.org/abs/2603.25145v1
- Date: Thu, 26 Mar 2026 08:04:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.174074
- Title: Learning to Rank Caption Chains for Video-Text Alignment
- Title(参考訳): ビデオテキストアライメントのためのランク付けチェインの学習
- Authors: Ansel Blume, Burak Uzkent, Shalini Chaudhuri, Garin Kessler,
- Abstract要約: 直接選好最適化(DPO)は、好ましくない応答を生成するために言語モデルを訓練する効果的な手法である。
特に、代替品よりも好ましくないとしても、応答は依然として視覚的な入力に忠実であるかもしれない。
本研究では,視覚入力に対する応答の忠実度をより正確に評価する代替手段として,ランキング最適化について検討する。
- 参考スコア(独自算出の注目度): 6.779243901781581
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Direct preference optimization (DPO) is an effective technique to train language models to generate preferred over dispreferred responses. However, this binary "winner-takes-all" approach is suboptimal for vision-language models whose response quality is highly dependent on visual content. In particular, a response may still be faithful to the visual inputs even if it is less preferable than an alternative. The standard Bradley-Terry DPO formulation lacks this nuance, upweighting winning responses without sufficient regard for whether the "losing" response still maintains high visual fidelity. In this work, we investigate ranking optimization as an alternative that more precisely situates responses' faithfulness to visual inputs. We focus on video-text alignment using detailed video captions, proposing a method to generate challenging, totally ordered caption chains at scale through repeated caption degradation. Our results show ranking optimization outperforms binary DPO for long-form content generation and assessment, and importantly, we find that these approaches require finetuning of the vision encoder to be effective, challenging the view of DPO as purely a language-reweighting process.
- Abstract(参考訳): 直接選好最適化(DPO)は、好ましくない応答を生成するために言語モデルを訓練する効果的な手法である。
しかし、このバイナリ・テイク・オール(winner-takes-all)アプローチは、応答品質が視覚内容に大きく依存する視覚言語モデルに最適である。
特に、代替品よりも好ましくないとしても、応答は依然として視覚的な入力に忠実であるかもしれない。
標準的なBradley-Terry DPOの定式化は、このニュアンスを欠き、"ロスング"応答が高い視覚的忠実性を維持しているかどうかを十分に考慮せずに、勝利反応を重み付けしている。
本研究では,視覚入力に対する応答の忠実度をより正確に評価する代替手段として,ランキング最適化について検討する。
本稿では, ビデオキャプションを用いた動画テキストアライメントに着目し, 繰り返しキャプション劣化を繰り返すことで, 難易度の高い完全順序のキャプションチェーンを大規模に生成する手法を提案する。
これらの手法では,視覚エンコーダの微調整を効果的に行う必要があり,DPOを純粋に言語重み付けのプロセスと考えることに挑戦する。
関連論文リスト
- AVC-DPO: Aligned Video Captioning via Direct Preference Optimization [50.08618093204503]
ビデオマルチモーダル大言語モデル(ビデオMLLM)は,ビデオキャプションタスクにおいて大きな進歩を遂げている。
そこで我々は,ビデオMLLMのキャプション機能を高めるために,AVC-DPO(Designed Video Captioning via Direct Preference Optimization)を提案する。
LOVE@PRCV'25 Workshop Track 1A: Video Detailed Captioning Challengeで、ビデオ詳細キャプションのベンチマークで1位を獲得しました。
論文 参考訳(メタデータ) (2025-07-02T08:51:45Z) - SynPO: Synergizing Descriptiveness and Preference Optimization for Video Detailed Captioning [69.34975070207763]
我々は、選好学習を活用し、細粒度ビデオキャプションにおける視覚言語モデルの性能を向上させる。
本稿では,DPOとその変種に対する大きな優位性を示す新しい最適化手法を提案する。
その結果、SynPOはトレーニング効率を20%向上しつつ、DPOの変種を一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2025-06-01T04:51:49Z) - VPO: Aligning Text-to-Video Generation Models with Prompt Optimization [105.1387607806783]
ビデオ生成モデルは、通常、高度に詳細で慎重に記述されたテキストとビデオのペアで訓練される。
VPOは3つの基本原則(無害性、正確性、有用性)に基づいてプロンプトを最適化する、原則化されたフレームワークです。
実験の結果,VPOは基準法に比べて安全性,アライメント,画質を著しく向上することがわかった。
論文 参考訳(メタデータ) (2025-03-26T12:28:20Z) - Calibrated Self-Rewarding Vision Language Models [27.686545023186852]
LVLM(Large Vision-Language Models)は、訓練済みの大規模言語モデル(LLM)と視覚モデルを統合することで、指導チューニングを通じて大幅に進歩した。
LVLMは、しばしば幻覚現象を示し、生成されたテキスト応答は言語的に妥当に見えるが、入力画像に矛盾する。
本稿では,候補応答を反復的に生成し,各応答に対する報酬を評価し,微調整のための選好データをキュレートすることで,モデルの自己改善を可能にするCalibrated Self-Rewarding(CSR)アプローチを提案する。
論文 参考訳(メタデータ) (2024-05-23T14:30:33Z) - Debiasing Multimodal Large Language Models via Penalization of Language Priors [38.97645845493758]
MLLM(Multimodal Large Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
生成されたコンテンツは、入力画像よりも、基礎となるLarge Language Models (LLMs) の本質的な先行性によって駆動されることが多い。
本稿では、これらのバイアスを補正し、視覚情報に対するモデルの焦点をリダイレクトするための、単純でトレーニングのない2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。