論文の概要: Direct Preference Optimization of Video Large Multimodal Models from Language Model Reward
- arxiv url: http://arxiv.org/abs/2404.01258v2
- Date: Tue, 2 Apr 2024 12:47:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 21:36:17.722345
- Title: Direct Preference Optimization of Video Large Multimodal Models from Language Model Reward
- Title(参考訳): 言語モデルからのビデオ大マルチモーダルモデルの直接選好最適化
- Authors: Ruohong Zhang, Liangke Gui, Zhiqing Sun, Yihao Feng, Keyang Xu, Yuanhan Zhang, Di Fu, Chunyuan Li, Alexander Hauptmann, Yonatan Bisk, Yiming Yang,
- Abstract要約: 本稿では,映像コンテンツのプロキシとして詳細な動画キャプションを利用する新しいフレームワークを提案する。
本稿では,DPOによる報酬の調整により,ビデオ質問応答(QA)タスクにおけるビデオLMMの性能が著しく向上することを示す。
- 参考スコア(独自算出の注目度): 118.65089648651308
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Preference modeling techniques, such as direct preference optimization (DPO), has shown effective in enhancing the generalization abilities of large language model (LLM). However, in tasks involving video instruction-following, providing informative feedback, especially for detecting hallucinations in generated responses, remains a significant challenge. Previous studies have explored using large large multimodal models (LMMs) as reward models to guide preference modeling, but their ability to accurately assess the factuality of generated responses compared to corresponding videos has not been conclusively established. This paper introduces a novel framework that utilizes detailed video captions as a proxy of video content, enabling language models to incorporate this information as supporting evidence for scoring video Question Answering (QA) predictions. Our approach demonstrates robust alignment with OpenAI GPT-4V model's reward mechanism, which directly takes video frames as input. Furthermore, we show that applying this tailored reward through DPO significantly improves the performance of video LMMs on video QA tasks.
- Abstract(参考訳): 直接選好最適化(DPO)などの選好モデリング技術は,大規模言語モデル(LLM)の一般化能力の向上に有効である。
しかし、映像の指示追従を含むタスクでは、特に生成した応答における幻覚を検出するために、情報的フィードバックを提供することが大きな課題である。
従来の研究では、大規模なマルチモーダルモデル(LMM)を報酬モデルとして利用して嗜好モデリングを導出する方法が検討されてきたが、対応するビデオと比較して、生成した応答の事実性を正確に評価する能力は確立されていない。
本稿では,詳細なビデオキャプションをビデオコンテンツのプロキシとして活用する新たなフレームワークを提案する。
提案手法は,映像フレームを直接入力として取り込むOpenAI GPT-4Vモデルの報酬機構との整合性を示す。
さらに,DPOによる報酬の調整により,ビデオQAタスクにおけるビデオLMMの性能が大幅に向上することを示す。
関連論文リスト
- Prompting Video-Language Foundation Models with Domain-specific Fine-grained Heuristics for Video Question Answering [71.62961521518731]
HeurVidQAは、ドメイン固有のエンティティアクションを利用して、事前訓練されたビデオ言語基盤モデルを洗練するフレームワークである。
我々のアプローチでは、これらのモデルを暗黙の知識エンジンとして扱い、ドメイン固有のエンティティアクションプロンサを使用して、推論を強化する正確な手がかりにモデルを焦点を向けます。
論文 参考訳(メタデータ) (2024-10-12T06:22:23Z) - i-SRT: Aligning Large Multimodal Models for Videos by Iterative Self-Retrospective Judgment [36.69910114305134]
反応生成と選好モデリングの両方を強化するために,自己ふりかえりを用いた新しい手法を提案する。
多様なビデオ質問応答ベンチマークによる経験的評価は,i-SRTが先行技術よりも優れていたことを示す。
論文 参考訳(メタデータ) (2024-06-17T07:33:30Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - Tuning Large Multimodal Models for Videos using Reinforcement Learning from AI Feedback [38.708690624594794]
ビデオとテキストのマルチモーダルアライメントは、主にマルチモーダル命令・チューンデータのボリュームと品質が不足しているため、依然として困難である。
本稿では,AIフィードバックからの強化学習(Reinforcement Learning from AI Feedback, RLAIF)と呼ばれる,マルチモーダルAIシステムを用いた新たなアライメント戦略を提案する。
具体的には、嗜好フィードバックの生成中に、詳細な映像記述を文脈として提供することによって、文脈対応報酬モデルを提案する。
論文 参考訳(メタデータ) (2024-02-06T06:27:40Z) - Conditional Modeling Based Automatic Video Summarization [70.96973928590958]
ビデオ要約の目的は、全体を伝えるのに必要な重要な情報を保持しながら、自動的にビデオを短縮することである。
映像要約法は視覚的連続性や多様性などの視覚的要因に依存しており、ビデオの内容を完全に理解するには不十分である。
映像要約への新たなアプローチは、人間が地上の真実のビデオ要約を作成する方法から得られる知見に基づいて提案されている。
論文 参考訳(メタデータ) (2023-11-20T20:24:45Z) - EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [70.19437817951673]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。
我々のアプローチは、テキスト・ツー・ビデオ生成のための700のプロンプトの多種多様な包括的リストを作成することである。
そこで我々は、視覚的品質、コンテンツ品質、動作品質、テキスト・ビデオアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文 参考訳(メタデータ) (2023-10-17T17:50:46Z) - Video-Teller: Enhancing Cross-Modal Generation with Fusion and
Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。
Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。
大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文 参考訳(メタデータ) (2023-10-08T03:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。