論文の概要: ConViS-Bench: Estimating Video Similarity Through Semantic Concepts
- arxiv url: http://arxiv.org/abs/2509.19245v1
- Date: Tue, 23 Sep 2025 17:06:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.969452
- Title: ConViS-Bench: Estimating Video Similarity Through Semantic Concepts
- Title(参考訳): ConViS-Bench:セマンティックなコンセプトによるビデオの類似性の推定
- Authors: Benedetta Liberatori, Alessandro Conti, Lorenzo Vaquero, Yiming Wang, Elisa Ricci, Paolo Rota,
- Abstract要約: 概念に基づくビデオ類似度推定(ConViS)を導入する。
ConViSは、事前に定義されたキーセマンティック概念のセット間で解釈可能な類似度スコアを計算することで、ビデオのペアを比較する。
また、複数のドメインにまたがるビデオペアを慎重に注釈付けした新しいベンチマークであるConViS-Benchについても紹介する。
- 参考スコア(独自算出の注目度): 57.40476559895395
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: What does it mean for two videos to be similar? Videos may appear similar when judged by the actions they depict, yet entirely different if evaluated based on the locations where they were filmed. While humans naturally compare videos by taking different aspects into account, this ability has not been thoroughly studied and presents a challenge for models that often depend on broad global similarity scores. Large Multimodal Models (LMMs) with video understanding capabilities open new opportunities for leveraging natural language in comparative video tasks. We introduce Concept-based Video Similarity estimation (ConViS), a novel task that compares pairs of videos by computing interpretable similarity scores across a predefined set of key semantic concepts. ConViS allows for human-like reasoning about video similarity and enables new applications such as concept-conditioned video retrieval. To support this task, we also introduce ConViS-Bench, a new benchmark comprising carefully annotated video pairs spanning multiple domains. Each pair comes with concept-level similarity scores and textual descriptions of both differences and similarities. Additionally, we benchmark several state-of-the-art models on ConViS, providing insights into their alignment with human judgments. Our results reveal significant performance differences on ConViS, indicating that some concepts present greater challenges for estimating video similarity. We believe that ConViS-Bench will serve as a valuable resource for advancing research in language-driven video understanding.
- Abstract(参考訳): 2つのビデオが似ているということは何ですか?
ビデオは、彼らが描いたアクションによって判断されるときに類似しているように見えるが、撮影場所に基づいて評価される場合、全く異なる。
人間は様々な側面を考慮に入れて動画を自然に比較するが、この能力は十分に研究されていない。
ビデオ理解機能を備えた大規模マルチモーダルモデル(LMM)は、比較ビデオタスクで自然言語を活用する新たな機会を開く。
本稿では,概念に基づくビデオ類似度推定(ConViS)を提案する。これは,予め定義されたキーセマンティック概念の集合に対して,解釈可能な類似度スコアを計算することによって,ビデオのペアを比較する新しいタスクである。
ConViSは、ビデオの類似性に関する人間ライクな推論を可能にし、コンセプト条件付きビデオ検索のような新しいアプリケーションを可能にする。
このタスクをサポートするために、複数のドメインにまたがるビデオペアを慎重に注釈付けした新しいベンチマークであるConViS-Benchも導入する。
それぞれのペアには、概念レベルの類似点スコアと、相違点と類似点の両方に関するテキスト記述が付属している。
さらに、ConViSでいくつかの最先端モデルをベンチマークし、人間の判断との整合性に関する洞察を提供する。
以上の結果から,ConViSでは映像の類似度を推定する上で,いくつかの概念が大きな課題を呈していることが明らかとなった。
ConViS-Benchは、言語によるビデオ理解の研究を進めるための貴重なリソースになると考えています。
関連論文リスト
- Can Text-to-Video Generation help Video-Language Alignment? [53.0276936367765]
最近のビデオ言語アライメントモデルはビデオのセットに基づいて訓練されており、それぞれに関連付けられた正のキャプションと、大きな言語モデルによって生成された負のキャプションがある。
この手順の問題点は、否定的なキャプションが言語的バイアスをもたらす可能性があること、すなわち、概念は否定的なものとしてのみ見られ、ビデオと関連しないことである。
本研究では,合成ビデオがこの問題を克服するのに有効かどうかを考察する。
複数のジェネレータによる予備的な分析では、いくつかのタスクでは約束されているが、合成ビデオは、他のタスクではモデルの性能に悪影響を及ぼすことが示された。
論文 参考訳(メタデータ) (2025-03-24T10:02:22Z) - Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。
私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文 参考訳(メタデータ) (2024-03-22T17:57:42Z) - Let's Think Frame by Frame with VIP: A Video Infilling and Prediction
Dataset for Evaluating Video Chain-of-Thought [62.619076257298204]
我々は、少数のビデオ推論のシーケンシャルな理解として、フレーミングビデオ推論を動機付けている。
VIPは、ビデオチェーンオブ思考を通してモデルの推論能力を調べるために設計された、推論時の課題データセットである。
我々は、VIP上でGPT-4、GPT-3、VICUNAをベンチマークし、複雑なビデオ推論タスクのパフォーマンスギャップを実証し、今後の作業を促進する。
論文 参考訳(メタデータ) (2023-05-23T10:26:42Z) - Learning from Untrimmed Videos: Self-Supervised Video Representation
Learning with Hierarchical Consistency [60.756222188023635]
教師なしビデオにおいて,より豊富な情報を活用することで表現の学習を提案する。
HiCoは、トリミングされていないビデオのより強力な表現を生成するだけでなく、トリミングされたビデオに適用した場合の表現品質も向上する。
論文 参考訳(メタデータ) (2022-04-06T18:04:54Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Rethinking Self-supervised Correspondence Learning: A Video Frame-level
Similarity Perspective [13.90183404059193]
ビデオフレームレベルの類似度(VFS)学習を用いた対応学習を提案する。
我々の研究は、画像レベルのコントラスト学習と視覚認識のための類似学習の成功に触発されている。
VFSは、OTBビジュアルオブジェクトトラッキングとDAVISビデオオブジェクトセグメンテーションの両方において、最先端の自己監視アプローチを超える驚くべき結果を示しています。
論文 参考訳(メタデータ) (2021-03-31T17:56:35Z) - On Semantic Similarity in Video Retrieval [31.61611168620582]
本稿では,複数の映像/キャプチャを等しく関連づけることができる意味的類似性ビデオ検索への移行を提案する。
3つの一般的なビデオ検索データセット(MSR-VTT、YouCook2、EPIC-KITCHENS)で解析を行います。
論文 参考訳(メタデータ) (2021-03-18T09:12:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。