論文の概要: CURVE: A Benchmark for Cultural and Multilingual Long Video Reasoning
- arxiv url: http://arxiv.org/abs/2601.10649v1
- Date: Thu, 15 Jan 2026 18:15:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.257584
- Title: CURVE: A Benchmark for Cultural and Multilingual Long Video Reasoning
- Title(参考訳): CURVE: 文化的・多言語ビデオ推論のためのベンチマーク
- Authors: Darshan Singh, Arsha Nagrani, Kawshik Manikantan, Harman Singh, Dinesh Tewari, Tobias Weyand, Cordelia Schmid, Anelia Angelova, Shachi Dave,
- Abstract要約: CURVE(Cultural Understanding and Reasoning in Video Evaluation)は、多言語・多言語ビデオ推論のための挑戦的なベンチマークである。
18のグローバルローカライズされた、地域固有の文化的ビデオから、高品質で完全な人為的なアノテーションを含んでいる。
以上の結果から, SoTA Video-LLM は人間レベルの精度よりもかなり低い精度で動作していることが明らかとなった。
- 参考スコア(独自算出の注目度): 58.73855961335903
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in video models have shown tremendous progress, particularly in long video understanding. However, current benchmarks predominantly feature western-centric data and English as the dominant language, introducing significant biases in evaluation. To address this, we introduce CURVE (Cultural Understanding and Reasoning in Video Evaluation), a challenging benchmark for multicultural and multilingual video reasoning. CURVE comprises high-quality, entirely human-generated annotations from diverse, region-specific cultural videos across 18 global locales. Unlike prior work that relies on automatic translations, CURVE provides complex questions, answers, and multi-step reasoning steps, all crafted in native languages. Making progress on CURVE requires a deeply situated understanding of visual cultural context. Furthermore, we leverage CURVE's reasoning traces to construct evidence-based graphs and propose a novel iterative strategy using these graphs to identify fine-grained errors in reasoning. Our evaluations reveal that SoTA Video-LLMs struggle significantly, performing substantially below human-level accuracy, with errors primarily stemming from the visual perception of cultural elements. CURVE will be publicly available under https://github.com/google-deepmind/neptune?tab=readme-ov-file\#minerva-cultural
- Abstract(参考訳): ビデオモデルの最近の進歩は、特に長いビデオ理解において大きな進歩を見せている。
しかしながら、現在のベンチマークは主に西洋中心のデータと英語が支配的な言語であり、評価に重大なバイアスをもたらす。
そこで我々はCURVE(Cultural Understanding and Reasoning in Video Evaluation)を紹介した。
CURVEは18のグローバルローカライズにまたがる多様な地域固有の文化ビデオから、高品質で完全な人為的アノテーションを提供する。
自動翻訳に依存する以前の作業とは異なり、CURVEは複雑な質問、回答、多段階推論ステップを提供し、すべてネイティブ言語で作成されている。
CURVEを前進させるには、視覚文化の文脈を深く理解する必要がある。
さらに、CURVEの推論トレースを利用してエビデンスベースのグラフを構築し、これらのグラフを用いて推論におけるきめ細かい誤りを識別する新しい反復戦略を提案する。
評価の結果,SoTAビデオLLMは人体レベルの精度を大幅に下回っており,エラーは主に文化的要素の視覚的知覚から生じていることがわかった。
CURVEはhttps://github.com/google-deepmind/neptune?
tab=readme-ov-file\#minerva- cultural
関連論文リスト
- TCC-Bench: Benchmarking the Traditional Chinese Culture Understanding Capabilities of MLLMs [13.069833806549914]
中国伝統文化理解ベンチマーク(TCC-Bench)を提案する。
TCC-Benchは、文化的に豊かで視覚的に多様なデータで構成されており、博物館の工芸品、日常の生活シーン、漫画、その他の文化的に重要な文脈の画像が組み込まれている。
テキストのみのモードでGPT-4oを利用する半自動パイプラインを採用し、候補問題を生成し、続いて人間によるキュレーションを行い、データ品質を保証し、潜在的なデータ漏洩を回避する。
論文 参考訳(メタデータ) (2025-05-16T14:10:41Z) - VideoVista-CulturalLingo: 360$^\circ$ Horizons-Bridging Cultures, Languages, and Domains in Video Comprehension [66.03062468036507]
本稿では,ビデオ理解における文化的,言語的,ドメイン分割の橋渡しを目的とした,最初のビデオ評価ベンチマークであるVideoVista-CulturalLingoを紹介する。
VideoVista-CulturalLingoには1,389の動画と3,134のQAペアが含まれています。
論文 参考訳(メタデータ) (2025-04-23T13:47:30Z) - All-in-one: Understanding and Generation in Multimodal Reasoning with the MAIA Benchmark [70.92907745196153]
MAIAはビデオにおける視覚言語モデルの推論能力の詳細な調査のためのベンチマークである。
視覚入力の役割を強調することによって、言語と視覚関係を歪めようとする12の推論カテゴリを考察する。
MAIAは、そのデザイン、推論カテゴリ、使用するメトリクス、およびビデオの言語と文化に関して、他の利用可能なビデオベンチマークとは異なる。
論文 参考訳(メタデータ) (2025-02-24T09:25:51Z) - WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines [74.25764182510295]
視覚言語モデル(VLM)は、特に英語以外の言語において、文化特有の知識に苦しむことが多い。
我々は多言語および多文化の視覚的理解のための大規模ベンチマークであるWorld Cuisinesを紹介した。
このベンチマークには、30の言語と方言にまたがるテキストイメージペアを備えた、視覚的質問応答(VQA)データセットが含まれている。
論文 参考訳(メタデータ) (2024-10-16T16:11:49Z) - MultiHateClip: A Multilingual Benchmark Dataset for Hateful Video Detection on YouTube and Bilibili [11.049937698021054]
本研究は,ヘイトレキシコンと人間のアノテーションによって作成された,新しい多言語データセットであるMultiHateClipを提案する。
英語と中国語の両方のコンテンツを含む、YouTubeやBilibiliなどのプラットフォーム上でのヘイトフルなビデオの検出を強化することを目的としている。
論文 参考訳(メタデータ) (2024-07-28T08:19:09Z) - Understanding Chinese Video and Language via Contrastive Multimodal
Pre-Training [79.88705563918413]
VICTORという新しいビデオ言語理解フレームワークを提案します。VICTORは対比mulTimOdal pRe-trainingによる視覚言語理解の略です。
VICTORは、対応する高品質のテキスト記述を備えた1000万以上の完全なビデオを含む大規模な中国のビデオ言語データセットで訓練されています。
論文 参考訳(メタデータ) (2021-04-19T15:58:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。