論文の概要: MJ-VIDEO: Fine-Grained Benchmarking and Rewarding Video Preferences in Video Generation
- arxiv url: http://arxiv.org/abs/2502.01719v2
- Date: Wed, 05 Feb 2025 08:29:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 11:04:47.540169
- Title: MJ-VIDEO: Fine-Grained Benchmarking and Rewarding Video Preferences in Video Generation
- Title(参考訳): MJ-VIDEO:ビデオ生成における細粒度ベンチマークとリワード
- Authors: Haibo Tong, Zhaoyang Wang, Zhaorun Chen, Haonian Ji, Shi Qiu, Siwei Han, Kexin Geng, Zhongkai Xue, Yiyang Zhou, Peng Xia, Mingyu Ding, Rafael Rafailov, Chelsea Finn, Huaxiu Yao,
- Abstract要約: MJ-BENCH-VIDEOは,5つの重要な側面にわたる映像生成を評価するために設計された大規模ビデオ選好ベンチマークである。
我々は,MJ-VIDEO(Mixture-of-Experts-based video reward model)を提案する。
MJ-VIDEOは, 全体として17.58%, 15.87%の改善がみられた。
- 参考スコア(独自算出の注目度): 61.178253578058836
- License:
- Abstract: Recent advancements in video generation have significantly improved the ability to synthesize videos from text instructions. However, existing models still struggle with key challenges such as instruction misalignment, content hallucination, safety concerns, and bias. Addressing these limitations, we introduce MJ-BENCH-VIDEO, a large-scale video preference benchmark designed to evaluate video generation across five critical aspects: Alignment, Safety, Fineness, Coherence & Consistency, and Bias & Fairness. This benchmark incorporates 28 fine-grained criteria to provide a comprehensive evaluation of video preference. Building upon this dataset, we propose MJ-VIDEO, a Mixture-of-Experts (MoE)-based video reward model designed to deliver fine-grained reward. MJ-VIDEO can dynamically select relevant experts to accurately judge the preference based on the input text-video pair. This architecture enables more precise and adaptable preference judgments. Through extensive benchmarking on MJ-BENCH-VIDEO, we analyze the limitations of existing video reward models and demonstrate the superior performance of MJ-VIDEO in video preference assessment, achieving 17.58% and 15.87% improvements in overall and fine-grained preference judgments, respectively. Additionally, introducing MJ-VIDEO for preference tuning in video generation enhances the alignment performance.
- Abstract(参考訳): 近年の映像生成の進歩は、テキスト命令から映像を合成する能力を大幅に改善した。
しかし、既存のモデルは、命令の不一致、コンテンツ幻覚、安全性の懸念、バイアスといった重要な課題に苦戦している。
MJ-BENCH-VIDEOは、アライメント、セーフティ、ファインネス、コヒーレンス&一貫性、バイアス&フェアネスの5つの重要な側面でビデオ生成を評価するために設計された大規模なビデオ選好ベンチマークである。
このベンチマークでは、28のきめ細かい基準を取り入れて、ビデオの嗜好を総合的に評価する。
このデータセットに基づいて、我々はMJ-VIDEO(Mixture-of-Experts (MoE)ベースのビデオ報酬モデル)を提案する。
MJ-VIDEOは、関連する専門家を動的に選別し、入力されたテキスト-ビデオペアに基づいて選好を正確に判断する。
このアーキテクチャにより、より正確で適応可能な選好判断が可能になる。
MJ-BENCH-VIDEOの広範なベンチマークを通じて、既存のビデオ報酬モデルの限界を分析し、ビデオ嗜好評価においてMJ-VIDEOの優れた性能を示し、それぞれ17.58%と15.87%の改善を達成した。
さらに、ビデオ生成における優先調整のためのMJ-VIDEOの導入により、アライメント性能が向上する。
関連論文リスト
- VisionReward: Fine-Grained Multi-Dimensional Human Preference Learning for Image and Video Generation [70.68566282567207]
VisionRewardは細粒度で多次元の報酬モデルである。
我々は、画像やビデオの人間の好みを多次元に分解する。
VisionRewardに基づく多目的選好学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-12-30T16:24:09Z) - VideoDPO: Omni-Preference Alignment for Video Diffusion Generation [48.36302380755874]
DPO(Direct Preference Optimization)は、言語と画像生成において大幅に改善されている。
本稿では,いくつかの重要な調整を施したビデオDPOパイプラインを提案する。
本実験は視覚的品質とセマンティックアライメントの両面で大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2024-12-18T18:59:49Z) - EgoCVR: An Egocentric Benchmark for Fine-Grained Composed Video Retrieval [52.375143786641196]
EgoCVRは、きめ細かいComposted Video Retrievalの評価ベンチマークである。
EgoCVRは2,295のクエリで構成され、高品質な時間的ビデオ理解に特化している。
論文 参考訳(メタデータ) (2024-07-23T17:19:23Z) - Beyond Raw Videos: Understanding Edited Videos with Large Multimodal Model [62.38322742493649]
我々は、編集カテゴリ、すなわちエフェクト、面白い、ミーム、ゲームをカバーするビデオVQAベンチマークを構築した。
オープンソースビデオのLMMのほとんどはベンチマークでは不十分であり、ソーシャルメディア上の編集されたショートビデオと通常の生ビデオの間に大きなドメインギャップがあることを示唆している。
LMMの一般化能力を向上させるため,Panda-70M/WebVid生ビデオとTikTok/CapCut編集ビデオの両方に基づいて,提案したベンチマークのトレーニングセットを収集した。
論文 参考訳(メタデータ) (2024-06-15T03:28:52Z) - VideoGPT+: Integrating Image and Video Encoders for Enhanced Video Understanding [15.959757105308238]
ビデオLMMは、視覚入力を処理するために、画像エンコーダまたはビデオエンコーダに依存しており、それぞれに独自の制限がある。
本稿では,映像エンコーダと映像エンコーダの相補的利点(大域的時間文脈モデリング)を組み合わせたビデオGPT+を紹介する。
本稿では,VCGBench,MVBench,Zero-shotなど,複数のビデオベンチマークのパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2024-06-13T17:59:59Z) - Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。
私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文 参考訳(メタデータ) (2024-03-22T17:57:42Z) - MovieLLM: Enhancing Long Video Understanding with AI-Generated Movies [21.489102981760766]
MovieLLMは、一貫した高品質なビデオデータを合成し、命令のチューニングをするための新しいフレームワークである。
実験により,MovieLLMが生成したデータにより,複雑な映像物語の理解において,マルチモーダルモデルの性能が著しく向上することが確認された。
論文 参考訳(メタデータ) (2024-03-03T07:43:39Z) - PG-Video-LLaVA: Pixel Grounding Large Video-Language Models [52.83065081926238]
PG-Video-LLaVA は画素レベルのグラウンド機能を持つ最初の LMM であり,映像内容の理解を深めるためにテキストに書き起こして音声キューを統合する。
我々のフレームワークは、SoTAイメージベースのLLaVAモデルに基づいており、その利点をビデオ領域に拡張し、ビデオベースの会話と接地タスクに有望な利益をもたらす。
論文 参考訳(メタデータ) (2023-11-22T14:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。