論文の概要: ViDiC: Video Difference Captioning
- arxiv url: http://arxiv.org/abs/2512.03405v1
- Date: Wed, 03 Dec 2025 03:23:24 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:09:57.177501
- Title: ViDiC: Video Difference Captioning
- Title(参考訳): ViDiC:ビデオの差分キャプション
- Authors: Jiangtao Wu, Shihao Li, Zhaozhou Bian, Yuanxing Zhang, Jialu Chen, Runzhe Wen, An Ping, Yiwen He, Jiakai Wang, Jiaheng Liu,
- Abstract要約: 本稿では,ViDiCタスクとその対応するViDiC-1Kデータセットを紹介する。
ViDiC-1Kは、4000以上の比較チェックリストアイテムが注釈付けされた1,000のキュレートされたビデオペアで構成されている。
19種類の代表的マルチモーダルモデルに対する実験では、比較記述と差分知覚能力に顕著な性能差が示された。
- 参考スコア(独自算出の注目度): 33.77620135109391
- License:
- Abstract: Understanding visual differences between dynamic scenes requires the comparative perception of compositional, spatial, and temporal changes--a capability that remains underexplored in existing vision-language systems. While prior work on Image Difference Captioning (IDC) has enabled models to describe semantic changes between static images, these approaches fail to capture motion continuity, event evolution, or editing consistency over time. We introduce the ViDiC (Video Difference Captioning) task and its corresponding ViDiC-1K dataset, designed to evaluate the ability of Multimodal Large Language Models (MLLMs) to provide fine-grained descriptions of similarities and differences between video pairs. ViDiC-1K comprises 1,000 curated video pairs annotated with over 4,000 comparative checklist items, covering seven categories: subject, style, background, cinematography, motion, location, and playback techniques. To ensure reliable evaluation, we propose a dual-checklist framework that measures the accuracy of similarity and difference separately, based on the LLM-as-a-Judge protocol. Experiments on nineteen representative multimodal models reveal a significant performance gap in their comparative description and difference perception abilities. We hope ViDiC-1K can be a challenging benchmark that lays a solid foundation for advancing video understanding, edit awareness, and comparative reasoning in multimodal intelligence.
- Abstract(参考訳): 動的シーン間の視覚的差異を理解するには、構成的、空間的、時間的変化を比較認識する必要がある。
画像差分キャプション(IDC)に関する以前の作業では、静的イメージ間のセマンティックな変更をモデルで記述することができたが、これらのアプローチは、動きの連続性、イベントの進化、時間の経過とともに一貫性の編集に失敗している。
ビデオペア間の類似点や相違点を詳細に記述するためのマルチモーダル大言語モデル(MLLM)の能力を評価するために,ViDiCタスクとそれに対応するViDiC-1Kデータセットを導入する。
ViDiC-1Kは、4000以上の比較チェックリスト項目が注釈付けされた1,000のキュレートされたビデオペアで構成されており、主題、スタイル、背景、撮影、動き、位置、再生技術を含む7つのカテゴリをカバーしている。
そこで本稿では,LLM-as-a-Judgeプロトコルに基づいて,類似度と相違点の精度を別々に測定する2重チェックリストフレームワークを提案する。
19種類の代表的マルチモーダルモデルに対する実験では、比較記述と差分知覚能力に顕著な性能差が示された。
ViDiC-1Kは、ビデオ理解の進歩、認識の編集、マルチモーダルインテリジェンスにおける比較推論のための基盤となる、挑戦的なベンチマークになり得ることを願っている。
関連論文リスト
- ConViS-Bench: Estimating Video Similarity Through Semantic Concepts [57.40476559895395]
概念に基づくビデオ類似度推定(ConViS)を導入する。
ConViSは、事前に定義されたキーセマンティック概念のセット間で解釈可能な類似度スコアを計算することで、ビデオのペアを比較する。
また、複数のドメインにまたがるビデオペアを慎重に注釈付けした新しいベンチマークであるConViS-Benchについても紹介する。
論文 参考訳(メタデータ) (2025-09-23T17:06:11Z) - Towards Understanding Camera Motions in Any Video [89.97247162415158]
我々は、カメラモーション理解の評価と改善を目的とした大規模なデータセットとベンチマークであるCameraBenchを紹介する。
CameraBenchは、厳格な品質管理プロセスを通じて専門家によって注釈付けされた3,000の多様なインターネットビデオで構成されている。
私たちの貢献の1つは、撮影者との共同で設計されたカメラモーションプリミティブの分類である。
論文 参考訳(メタデータ) (2025-04-21T18:34:57Z) - Leveraging Modality Tags for Enhanced Cross-Modal Video Retrieval [26.40393400497247]
ビデオ検索には、視覚コンテンツを対応する自然言語記述と整合させる必要がある。
本稿では、ビデオ検索のためのModality Auxiliary Concepts(MAC-VR)を紹介する。
我々は、潜在空間におけるモダリティの整合と、補助潜在概念の学習と整合性を提案する。
論文 参考訳(メタデータ) (2025-04-02T10:56:01Z) - InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。
私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文 参考訳(メタデータ) (2024-03-22T17:57:42Z) - Let's Think Frame by Frame with VIP: A Video Infilling and Prediction
Dataset for Evaluating Video Chain-of-Thought [62.619076257298204]
我々は、少数のビデオ推論のシーケンシャルな理解として、フレーミングビデオ推論を動機付けている。
VIPは、ビデオチェーンオブ思考を通してモデルの推論能力を調べるために設計された、推論時の課題データセットである。
我々は、VIP上でGPT-4、GPT-3、VICUNAをベンチマークし、複雑なビデオ推論タスクのパフォーマンスギャップを実証し、今後の作業を促進する。
論文 参考訳(メタデータ) (2023-05-23T10:26:42Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。