論文の概要: VideoVista-CulturalLingo: 360$^\circ$ Horizons-Bridging Cultures, Languages, and Domains in Video Comprehension
- arxiv url: http://arxiv.org/abs/2504.17821v1
- Date: Wed, 23 Apr 2025 13:47:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.516313
- Title: VideoVista-CulturalLingo: 360$^\circ$ Horizons-Bridging Cultures, Languages, and Domains in Video Comprehension
- Title(参考訳): VideoVista-CulturalLingo:360$^\circ$ Horizons-Bridging Cultures, Languages, and Domains in Video Comprehension
- Authors: Xinyu Chen, Yunxin Li, Haoyuan Shi, Baotian Hu, Wenhan Luo, Yaowei Wang, Min Zhang,
- Abstract要約: 本稿では,ビデオ理解における文化的,言語的,ドメイン分割の橋渡しを目的とした,最初のビデオ評価ベンチマークであるVideoVista-CulturalLingoを紹介する。
VideoVista-CulturalLingoには1,389の動画と3,134のQAペアが含まれています。
- 参考スコア(独自算出の注目度): 66.03062468036507
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Assessing the video comprehension capabilities of multimodal AI systems can effectively measure their understanding and reasoning abilities. Most video evaluation benchmarks are limited to a single language, typically English, and predominantly feature videos rooted in Western cultural contexts. In this paper, we present VideoVista-CulturalLingo, the first video evaluation benchmark designed to bridge cultural, linguistic, and domain divide in video comprehension. Our work differs from existing benchmarks in the following ways: 1) Cultural diversity, incorporating cultures from China, North America, and Europe; 2) Multi-linguistics, with questions presented in Chinese and English-two of the most widely spoken languages; and 3) Broad domain, featuring videos sourced from hundreds of human-created domains. VideoVista-CulturalLingo contains 1,389 videos and 3,134 QA pairs, and we have evaluated 24 recent open-source or proprietary video large models. From the experiment results, we observe that: 1) Existing models perform worse on Chinese-centric questions than Western-centric ones, particularly those related to Chinese history; 2) Current open-source models still exhibit limitations in temporal understanding, especially in the Event Localization task, achieving a maximum score of only 45.2%; 3) Mainstream models demonstrate strong performance in general scientific questions, while open-source models demonstrate weak performance in mathematics.
- Abstract(参考訳): マルチモーダルAIシステムのビデオ理解能力を評価することは、その理解と推論能力を効果的に測定することができる。
ほとんどのビデオ評価ベンチマークは単一の言語(典型的には英語)に限定されており、主に西洋文化の文脈に根ざしたビデオが特徴的である。
本稿では,ビデオ理解における文化的,言語的,ドメイン分割の橋渡しを目的とした,最初のビデオ評価ベンチマークであるVideoVista-CulturalLingoを提案する。
私たちの仕事は、以下の方法で既存のベンチマークと異なります。
1)中国,北米,ヨーロッパからの文化を取り入れた文化の多様性
2)多言語学,中国語及び英語で提示された質問-最も広く話されている言語のうち2つ
3)ブロードドメイン(Broad domain)は、何百もの人間が作成したドメインから生成されたビデオを特徴とする。
VideoVista-CulturalLingoには1,389の動画と3,134のQAペアが含まれています。
実験の結果から、以下のことが分かる。
1)既存のモデルは、西洋中心のもの、特に中国史に関連するものよりも、中国中心の質問に悪影響を及ぼす。
2 現在のオープンソースモデルは、時間的理解の限界、特にイベントローカライゼーションのタスクにおいて、45.2%のスコアしか達成していない。
3)主流モデルは一般的な科学的問題において強い性能を示し,オープンソースモデルは数学において弱い性能を示す。
関連論文リスト
- All-in-one: Understanding and Generation in Multimodal Reasoning with the MAIA Benchmark [74.4821011648997]
MAIAはビデオにおける視覚言語モデルの推論能力の詳細な調査のために設計されたベンチマークである。
視覚言語モデル(VLM)を2つのタスクで評価する。
言語と視覚の関係を混乱させようとする12の推論カテゴリを考察する。
論文 参考訳(メタデータ) (2025-02-24T09:25:51Z) - WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines [74.25764182510295]
視覚言語モデル(VLM)は、特に英語以外の言語において、文化特有の知識に苦しむことが多い。
我々は多言語および多文化の視覚的理解のための大規模ベンチマークであるWorld Cuisinesを紹介した。
このベンチマークには、30の言語と方言にまたがるテキストイメージペアを備えた、視覚的質問応答(VQA)データセットが含まれている。
論文 参考訳(メタデータ) (2024-10-16T16:11:49Z) - Comparing diversity, negativity, and stereotypes in Chinese-language AI technologies: an investigation of Baidu, Ernie and Qwen [1.3354439722832292]
我々は、中国の主要検索エンジンBaiduに埋め込まれた社会的偏見を調査し、中国ベースのツールを調査した。
上記のツールにエンコードされた30万以上のビューを,そのようなグループを記述した候補語に誘導することで収集する。
言語モデルは検索エンジンに比べて多種多様な組込みビューを示すが、BaiduとQwenはErnieよりもネガティブなコンテンツを生成することが多い。
論文 参考訳(メタデータ) (2024-08-28T10:51:18Z) - CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark [68.21939124278065]
言語と文化の豊富なセットをカバーするために設計された、文化的に多言語なビジュアル質問回答ベンチマーク。
CVQAには文化的に駆動されたイメージと、4大陸30カ国の質問が含まれ、31の言語と13のスクリプトをカバーし、合計10万の質問を提供する。
CVQA上で複数のマルチモーダル大言語モデル (MLLM) をベンチマークし、現在の最先端モデルではデータセットが困難であることを示す。
論文 参考訳(メタデータ) (2024-06-10T01:59:00Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - Understanding Chinese Video and Language via Contrastive Multimodal
Pre-Training [79.88705563918413]
VICTORという新しいビデオ言語理解フレームワークを提案します。VICTORは対比mulTimOdal pRe-trainingによる視覚言語理解の略です。
VICTORは、対応する高品質のテキスト記述を備えた1000万以上の完全なビデオを含む大規模な中国のビデオ言語データセットで訓練されています。
論文 参考訳(メタデータ) (2021-04-19T15:58:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。