論文の概要: UI2V-Bench: An Understanding-based Image-to-video Generation Benchmark
- arxiv url: http://arxiv.org/abs/2509.24427v1
- Date: Mon, 29 Sep 2025 08:14:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.850351
- Title: UI2V-Bench: An Understanding-based Image-to-video Generation Benchmark
- Title(参考訳): UI2V-Bench: 理解に基づく画像-映像生成ベンチマーク
- Authors: Ailing Zhang, Lina Lei, Dehong Kong, Zhixin Wang, Jiaqi Xu, Fenglong Song, Chun-Le Guo, Chang Liu, Fan Li, Jie Chen,
- Abstract要約: I2V(Image-to-Video)の生成は、ビデオ合成の分野において重要な焦点となっている。
既存の評価ベンチマークは主にビデオの品質や時間的一貫性といった側面に焦点を当てている。
We propose UI2V-Bench, a novel benchmark for evaluation I2V model with focus on semantic understanding and reasoning。
- 参考スコア(独自算出の注目度): 35.157850129371525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative diffusion models are developing rapidly and attracting increasing attention due to their wide range of applications. Image-to-Video (I2V) generation has become a major focus in the field of video synthesis. However, existing evaluation benchmarks primarily focus on aspects such as video quality and temporal consistency, while largely overlooking the model's ability to understand the semantics of specific subjects in the input image or to ensure that the generated video aligns with physical laws and human commonsense. To address this gap, we propose UI2V-Bench, a novel benchmark for evaluating I2V models with a focus on semantic understanding and reasoning. It introduces four primary evaluation dimensions: spatial understanding, attribute binding, category understanding, and reasoning. To assess these dimensions, we design two evaluation methods based on Multimodal Large Language Models (MLLMs): an instance-level pipeline for fine-grained semantic understanding, and a feedback-based reasoning pipeline that enables step-by-step causal assessment for more accurate evaluation. UI2V-Bench includes approximately 500 carefully constructed text-image pairs and evaluates a range of both open source and closed-source I2V models across all defined dimensions. We further incorporate human evaluations, which show strong alignment with the proposed MLLM-based metrics. Overall, UI2V-Bench fills a critical gap in I2V evaluation by emphasizing semantic comprehension and reasoning ability, offering a robust framework and dataset to support future research and model development in the field.
- Abstract(参考訳): 生成拡散モデルは急速に発展し、広範囲の応用により注目が集まっている。
I2V(Image-to-Video)の生成は、ビデオ合成の分野において重要な焦点となっている。
しかし、既存の評価ベンチマークは、主にビデオの品質や時間的一貫性といった側面に焦点を当てているが、入力画像中の特定の対象のセマンティクスを理解したり、生成されたビデオが物理法則や人間の常識と整合することを保証するためのモデルの能力を主に見落としている。
このギャップに対処するために、意味理解と推論に焦点をあてた新しいI2Vモデル評価ベンチマークであるUI2V-Benchを提案する。
空間的理解、属性結合、カテゴリー理解、推論の4つの主要な評価次元を導入している。
これらの次元を評価するために,多モーダル大言語モデル(MLLM)に基づく2つの評価手法を設計した。
UI2V-Benchは、約500の慎重に構築されたテキストイメージペアを含み、すべての定義された次元にわたって、オープンソースとクローズドソースのI2Vモデルの両方の範囲を評価する。
さらに,提案したMLLMに基づく指標と強い整合性を示す人的評価を取り入れた。
UI2V-Benchは、セマンティック理解と推論能力を強調し、将来的な研究とモデル開発をサポートするための堅牢なフレームワークとデータセットを提供する。
関連論文リスト
- MinerU2.5: A Decoupled Vision-Language Model for Efficient High-Resolution Document Parsing [117.58619053719251]
MinerU2.5は、例外的な計算効率を維持しつつ、最先端の認識精度を実現する文書解析モデルである。
提案手法では,局所的なコンテンツ認識からグローバルなレイアウト解析を分離する,粗大な2段階解析戦略を採用している。
論文 参考訳(メタデータ) (2025-09-26T10:45:48Z) - Engagement Prediction of Short Videos with Large Multimodal Models [46.954597097369586]
ビデオエンゲージメント予測のための大規模マルチモーダルモデル(LMM)の可能性について実験的に検討する。
VideoLLaMA2はキービデオフレーム、テキストベースのメタデータ、バックグラウンドサウンドを処理し、Qwen2.5-VLはキービデオフレームとテキストベースのメタデータのみを使用する。
2種類のモデルをアンサンブルすることで,本手法はICCV VQualA 2025 EVQA-SnapUGC Challengeにおいて,短時間のビデオエンゲージメント予測において第一位となる。
論文 参考訳(メタデータ) (2025-08-04T15:21:29Z) - HV-MMBench: Benchmarking MLLMs for Human-Centric Video Understanding [79.06209664703258]
MLLM(Multimodal Large Language Models)は、画像とビデオの両方を含む視覚的理解タスクにおいて、大きな進歩を見せている。
既存の人間中心のベンチマークは、主にビデオ生成の品質と行動認識を強調し、人間中心のシナリオに必要な知覚と認知の能力を見落としている。
我々は,人間中心のビデオ理解におけるMLLMのより総合的な評価を提供するために,厳格にキュレートされたベンチマークを提案する。
論文 参考訳(メタデータ) (2025-07-07T11:52:24Z) - VideoMolmo: Spatio-Temporal Grounding Meets Pointing [66.19964563104385]
VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。
新しい仮面融合はSAM2を双方向の点伝播に用いている。
The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
論文 参考訳(メタデータ) (2025-06-05T17:59:29Z) - AIGCBench: Comprehensive Evaluation of Image-to-Video Content Generated
by AI [1.1035305628305816]
本稿では,様々なビデオ生成タスクを評価するために設計された,先駆的な総合ベンチマークであるAIGCBenchを紹介する。
等価条件下で異なる最先端アルゴリズムを評価する、多様なオープンドメインの画像テキストデータセット。
我々は、リッチテキストプロンプトを作成するために、新しいテキストコンバインダーとGPT-4を使用し、高度なテキスト・ツー・イメージモデルを用いて画像を生成する。
論文 参考訳(メタデータ) (2024-01-03T10:08:40Z) - Understanding ME? Multimodal Evaluation for Fine-grained Visual
Commonsense [98.70218717851665]
モデルが、限られた評価データ資源のために、視覚的シーンと基礎となるコモンセンス知識を本当に理解しているかどうかは不明だ。
本稿では,視覚シーン,テキスト,関連知識に対するモデルの理解をテストするために,質問応答ペアを自動的に生成するマルチモーダル評価(ME)パイプラインを提案する。
次に、MEデータによるトレーニングが標準VCR評価におけるモデルの性能を高めることを示すために、さらに一歩踏み出します。
論文 参考訳(メタデータ) (2022-11-10T21:44:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。