論文の概要: MJ-VIDEO: Fine-Grained Benchmarking and Rewarding Video Preferences in Video Generation
- arxiv url: http://arxiv.org/abs/2502.01719v2
- Date: Wed, 05 Feb 2025 08:29:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:21:16.497716
- Title: MJ-VIDEO: Fine-Grained Benchmarking and Rewarding Video Preferences in Video Generation
- Title(参考訳): MJ-VIDEO:ビデオ生成における細粒度ベンチマークとリワード
- Authors: Haibo Tong, Zhaoyang Wang, Zhaorun Chen, Haonian Ji, Shi Qiu, Siwei Han, Kexin Geng, Zhongkai Xue, Yiyang Zhou, Peng Xia, Mingyu Ding, Rafael Rafailov, Chelsea Finn, Huaxiu Yao,
- Abstract要約: MJ-BENCH-VIDEOは,5つの重要な側面にわたる映像生成を評価するために設計された大規模ビデオ選好ベンチマークである。
我々は,MJ-VIDEO(Mixture-of-Experts-based video reward model)を提案する。
MJ-VIDEOは, 全体として17.58%, 15.87%の改善がみられた。
- 参考スコア(独自算出の注目度): 61.178253578058836
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in video generation have significantly improved the ability to synthesize videos from text instructions. However, existing models still struggle with key challenges such as instruction misalignment, content hallucination, safety concerns, and bias. Addressing these limitations, we introduce MJ-BENCH-VIDEO, a large-scale video preference benchmark designed to evaluate video generation across five critical aspects: Alignment, Safety, Fineness, Coherence & Consistency, and Bias & Fairness. This benchmark incorporates 28 fine-grained criteria to provide a comprehensive evaluation of video preference. Building upon this dataset, we propose MJ-VIDEO, a Mixture-of-Experts (MoE)-based video reward model designed to deliver fine-grained reward. MJ-VIDEO can dynamically select relevant experts to accurately judge the preference based on the input text-video pair. This architecture enables more precise and adaptable preference judgments. Through extensive benchmarking on MJ-BENCH-VIDEO, we analyze the limitations of existing video reward models and demonstrate the superior performance of MJ-VIDEO in video preference assessment, achieving 17.58% and 15.87% improvements in overall and fine-grained preference judgments, respectively. Additionally, introducing MJ-VIDEO for preference tuning in video generation enhances the alignment performance.
- Abstract(参考訳): 近年の映像生成の進歩は、テキスト命令から映像を合成する能力を大幅に改善した。
しかし、既存のモデルは、命令の不一致、コンテンツ幻覚、安全性の懸念、バイアスといった重要な課題に苦戦している。
MJ-BENCH-VIDEOは、アライメント、セーフティ、ファインネス、コヒーレンス&一貫性、バイアス&フェアネスの5つの重要な側面でビデオ生成を評価するために設計された大規模なビデオ選好ベンチマークである。
このベンチマークでは、28のきめ細かい基準を取り入れて、ビデオの嗜好を総合的に評価する。
このデータセットに基づいて、我々はMJ-VIDEO(Mixture-of-Experts (MoE)ベースのビデオ報酬モデル)を提案する。
MJ-VIDEOは、関連する専門家を動的に選別し、入力されたテキスト-ビデオペアに基づいて選好を正確に判断する。
このアーキテクチャにより、より正確で適応可能な選好判断が可能になる。
MJ-BENCH-VIDEOの広範なベンチマークを通じて、既存のビデオ報酬モデルの限界を分析し、ビデオ嗜好評価においてMJ-VIDEOの優れた性能を示し、それぞれ17.58%と15.87%の改善を達成した。
さらに、ビデオ生成における優先調整のためのMJ-VIDEOの導入により、アライメント性能が向上する。
関連論文リスト
- Video-Bench: Human-Aligned Video Generation Benchmark [26.31594706735867]
生成モデルが視覚的にリアルで高品質なビデオを生成することを保証するためには、ビデオ生成アセスメントが不可欠である。
本稿では,豊富なプロンプトスイートと広範囲な評価次元を備えた総合的なベンチマークであるVideo-Benchを紹介する。
Soraを含む先進的なモデルの実験は、ビデオベンチがあらゆる次元にわたる人間の好みと優れた整合性を達成することを示した。
論文 参考訳(メタデータ) (2025-04-07T10:32:42Z) - FiVE: A Fine-grained Video Editing Benchmark for Evaluating Emerging Diffusion and Rectified Flow Models [17.788970036356297]
本稿では,新たな拡散モデルと修正フローモデルを評価するための微細ビデオ編集ベンチマークFiVEを紹介する。
私たちのベンチマークには、74の現実世界のビデオと26の生成されたビデオが含まれており、6つのきめ細かい編集タイプ、420のオブジェクトレベルの編集プロンプトペア、およびそれに対応するマスクが含まれている。
本研究では, 背景保存, テキスト・ビデオの類似性, 時間的一貫性, 映像品質, ランタイムの5つの指標を用いて, 拡散に基づく5つの手法と2つのRFベースの編集手法をFiVEベンチマークで評価した。
論文 参考訳(メタデータ) (2025-03-17T19:47:41Z) - VideoSAVi: Self-Aligned Video Language Models without Human Supervision [0.6854849895338531]
VideoSAViは自己学習パイプラインで、ビデオ-LLMが外部の監督なしにビデオコンテンツを推論できる。
VideoSAViはMVBench(74.0%)の最先端のパフォーマンスを達成し、大幅な改善を実現している。
我々のモデルに依存しないアプローチは計算的に効率的であり、32フレームしか必要としない。
論文 参考訳(メタデータ) (2024-12-01T00:33:05Z) - Sync from the Sea: Retrieving Alignable Videos from Large-Scale Datasets [62.280729345770936]
AVR(Alignable Video Retrieval)の課題について紹介する。
クェリビデオが与えられた場合、我々は大量のクリップから良質な映像を識別し、時間的にクェリに同期させることができる。
大規模なKineetics700を含む3つのデータセットに関する実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-09-02T20:00:49Z) - VE-Bench: Subjective-Aligned Benchmark Suite for Text-Driven Video Editing Quality Assessment [6.627422081288281]
本稿では,テキスト駆動ビデオ編集の評価に適したベンチマークスイートであるVE-Benchを紹介する。
このスイートには、ビデオ編集のためのビデオ品質アセスメント(VQA)データベースであるVE-Bench DBが含まれている。
VE-Bench QAは、テキストビデオアライメントと、ソースと編集されたビデオ間の関連モデリングに焦点を当てている。
論文 参考訳(メタデータ) (2024-08-21T09:49:32Z) - EgoCVR: An Egocentric Benchmark for Fine-Grained Composed Video Retrieval [52.375143786641196]
EgoCVRは、きめ細かいComposted Video Retrievalの評価ベンチマークである。
EgoCVRは2,295のクエリで構成され、高品質な時間的ビデオ理解に特化している。
論文 参考訳(メタデータ) (2024-07-23T17:19:23Z) - Beyond Raw Videos: Understanding Edited Videos with Large Multimodal Model [62.38322742493649]
我々は、編集カテゴリ、すなわちエフェクト、面白い、ミーム、ゲームをカバーするビデオVQAベンチマークを構築した。
オープンソースビデオのLMMのほとんどはベンチマークでは不十分であり、ソーシャルメディア上の編集されたショートビデオと通常の生ビデオの間に大きなドメインギャップがあることを示唆している。
LMMの一般化能力を向上させるため,Panda-70M/WebVid生ビデオとTikTok/CapCut編集ビデオの両方に基づいて,提案したベンチマークのトレーニングセットを収集した。
論文 参考訳(メタデータ) (2024-06-15T03:28:52Z) - VideoGPT+: Integrating Image and Video Encoders for Enhanced Video Understanding [15.959757105308238]
ビデオLMMは、視覚入力を処理するために、画像エンコーダまたはビデオエンコーダに依存しており、それぞれに独自の制限がある。
本稿では,映像エンコーダと映像エンコーダの相補的利点(大域的時間文脈モデリング)を組み合わせたビデオGPT+を紹介する。
本稿では,VCGBench,MVBench,Zero-shotなど,複数のビデオベンチマークのパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2024-06-13T17:59:59Z) - Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - Direct Preference Optimization of Video Large Multimodal Models from Language Model Reward [118.65089648651308]
本稿では,映像コンテンツのプロキシとして詳細な動画キャプションを利用する新しいフレームワークを提案する。
本稿では,DPOによる報酬の調整により,ビデオ質問応答(QA)タスクにおけるビデオLMMの性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2024-04-01T17:28:16Z) - InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。
私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文 参考訳(メタデータ) (2024-03-22T17:57:42Z) - MovieLLM: Enhancing Long Video Understanding with AI-Generated Movies [21.489102981760766]
MovieLLMは、一貫した高品質なビデオデータを合成し、命令のチューニングをするための新しいフレームワークである。
実験により,MovieLLMが生成したデータにより,複雑な映像物語の理解において,マルチモーダルモデルの性能が著しく向上することが確認された。
論文 参考訳(メタデータ) (2024-03-03T07:43:39Z) - PG-Video-LLaVA: Pixel Grounding Large Video-Language Models [52.83065081926238]
PG-Video-LLaVA は画素レベルのグラウンド機能を持つ最初の LMM であり,映像内容の理解を深めるためにテキストに書き起こして音声キューを統合する。
我々のフレームワークは、SoTAイメージベースのLLaVAモデルに基づいており、その利点をビデオ領域に拡張し、ビデオベースの会話と接地タスクに有望な利益をもたらす。
論文 参考訳(メタデータ) (2023-11-22T14:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。