論文の概要: VC-Bench: Pioneering the Video Connecting Benchmark with a Dataset and Evaluation Metrics
- arxiv url: http://arxiv.org/abs/2601.19236v1
- Date: Tue, 27 Jan 2026 06:15:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.198911
- Title: VC-Bench: Pioneering the Video Connecting Benchmark with a Dataset and Evaluation Metrics
- Title(参考訳): VC-Bench: ビデオ接続ベンチマークをデータセットと評価メトリクスでパイオニア化
- Authors: Zhiyu Yin, Zhipeng Liu, Kehai Chen, Lemao Liu, Jin Liu, Hong-Dong Li, Yang Xiang, Min Zhang,
- Abstract要約: ビデオ接続(Video Connecting)は,ビデオクリップの開始と終了の間にスムーズな中間映像コンテンツを生成するタスクである。
このギャップを埋めるため、私たちはビデオ接続に特化した新しいベンチマークであるVC-Benchを提案しました。
VC-Benchは、ビデオ品質スコアVQS、スタート-エンド一貫性スコアSECS、トランジッションスムースネススコアSSの3つの中核的な側面に焦点を当てている。
- 参考スコア(独自算出の注目度): 83.61875204972465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While current video generation focuses on text or image conditions, practical applications like video editing and vlogging often need to seamlessly connect separate clips. In our work, we introduce Video Connecting, an innovative task that aims to generate smooth intermediate video content between given start and end clips. However, the absence of standardized evaluation benchmarks has hindered the development of this task. To bridge this gap, we proposed VC-Bench, a novel benchmark specifically designed for video connecting. It includes 1,579 high-quality videos collected from public platforms, covering 15 main categories and 72 subcategories to ensure diversity and structure. VC-Bench focuses on three core aspects: Video Quality Score VQS, Start-End Consistency Score SECS, and Transition Smoothness Score TSS. Together, they form a comprehensive framework that moves beyond conventional quality-only metrics. We evaluated multiple state-of-the-art video generation models on VC-Bench. Experimental results reveal significant limitations in maintaining start-end consistency and transition smoothness, leading to lower overall coherence and fluidity. We expect that VC-Bench will serve as a pioneering benchmark to inspire and guide future research in video connecting. The evaluation metrics and dataset are publicly available at: https://anonymous.4open.science/r/VC-Bench-1B67/.
- Abstract(参考訳): 現在のビデオ生成はテキストや画像の条件に重点を置いているが、ビデオ編集やvloggingのような実践的なアプリケーションでは、しばしば別のクリップをシームレスに接続する必要がある。
本研究では,ビデオ接続(Video Connecting, Video Connecting)を導入し,ビデオクリップの開始と終了の間にスムーズな中間映像コンテンツを生成する。
しかし、標準化された評価ベンチマークがないため、このタスクの開発は妨げられている。
このギャップを埋めるため、私たちはビデオ接続に特化した新しいベンチマークであるVC-Benchを提案しました。
パブリックプラットフォームから収集された高品質なビデオは1,579本、多様性と構造を確保するために15のカテゴリと72のサブカテゴリをカバーしている。
VC-Benchは、ビデオ品質スコアVQS、スタート-エンド一貫性スコアSECS、トランジッションスムースネススコアSSの3つの中核的な側面に焦点を当てている。
共に、従来の品質のみのメトリクスを超えて、包括的なフレームワークを形成します。
我々はVC-Bench上で複数の最先端ビデオ生成モデルを評価した。
実験結果から, 始端の一貫性と遷移のスムーズさの維持には大きな限界があり, 全体のコヒーレンスや流動性が低下することがわかった。
私たちは、VC-Benchがビデオ接続に関する将来の研究を刺激し指導するための先駆的なベンチマークになることを期待している。
評価指標とデータセットは、https://anonymous.4open.science/r/VC-Bench-1B67/で公開されている。
関連論文リスト
- VCapsBench: A Large-scale Fine-grained Benchmark for Video Caption Quality Evaluation [23.701884816475403]
ビデオキャプションは、テキストからビデオへの生成タスクにおいて重要な役割を果たす。
既存のベンチマークでは、きめ細かい評価が不十分である。
細粒度ビデオキャプション評価ベンチマーク(VCapsBench)を紹介する。
論文 参考訳(メタデータ) (2025-05-29T14:34:25Z) - SAMA: Towards Multi-Turn Referential Grounded Video Chat with Large Language Models [93.73583158211115]
ビデオにおけるきめ細かい時間的理解の獲得は、現在のビデオ大マルチモデル(ビデオLMM)にとって大きな課題である。
私たちは、データセット、モデル、ベンチマークの3つの中核的な側面に貢献しています。
まず,ビデオ理解,グラウンドニング,マルチターンビデオチャットの共用学習を実現するため、15Kビデオからなる大規模データセットであるSAMA-239Kを紹介する。
第2に,広義の時間的コンテキストアグリゲータとセグメンションモデルを組み合わせたSAMAモデルを提案する。
論文 参考訳(メタデータ) (2025-05-24T18:13:16Z) - SVBench: A Benchmark with Temporal Multi-Turn Dialogues for Streaming Video Understanding [56.78088668917983]
SVBenchは時間的マルチターン質問応答チェーンを用いた先駆的ベンチマークである。
半自動アノテーションパイプラインを設計し、49,979対のQA(QA)と1,353本のストリーミングビデオを取得する。
対話とストリーミング評価の14モデルから得られた実験結果から, クローズドソースのGPT-4oは他より優れているが, 大部分のオープンソースLVLMは, 長文のストリーミングビデオ理解に苦慮していることがわかった。
論文 参考訳(メタデータ) (2025-02-15T14:29:44Z) - EgoCVR: An Egocentric Benchmark for Fine-Grained Composed Video Retrieval [52.375143786641196]
EgoCVRは、きめ細かいComposted Video Retrievalの評価ベンチマークである。
EgoCVRは2,295のクエリで構成され、高品質な時間的ビデオ理解に特化している。
論文 参考訳(メタデータ) (2024-07-23T17:19:23Z) - Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - AIGCBench: Comprehensive Evaluation of Image-to-Video Content Generated
by AI [1.1035305628305816]
本稿では,様々なビデオ生成タスクを評価するために設計された,先駆的な総合ベンチマークであるAIGCBenchを紹介する。
等価条件下で異なる最先端アルゴリズムを評価する、多様なオープンドメインの画像テキストデータセット。
我々は、リッチテキストプロンプトを作成するために、新しいテキストコンバインダーとGPT-4を使用し、高度なテキスト・ツー・イメージモデルを用いて画像を生成する。
論文 参考訳(メタデータ) (2024-01-03T10:08:40Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。