論文の概要: AVMeme Exam: A Multimodal Multilingual Multicultural Benchmark for LLMs' Contextual and Cultural Knowledge and Thinking
- arxiv url: http://arxiv.org/abs/2601.17645v1
- Date: Sun, 25 Jan 2026 01:40:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.109507
- Title: AVMeme Exam: A Multimodal Multilingual Multicultural Benchmark for LLMs' Contextual and Cultural Knowledge and Thinking
- Title(参考訳): AVMeme Exam: LLMの文脈的・文化的知識と思考のためのマルチモーダル多言語多文化ベンチマーク
- Authors: Xilin Jiang, Qiaolin Wang, Junkai Wu, Xiaomin He, Zhongweiyang Xu, Yinghao Ma, Minshuo Piao, Kaiyi Yang, Xiuwen Zheng, Riki Shimizu, Yicong Chen, Arsalan Firoozi, Gavin Mischler, Sukru Samet Dindar, Richard Antonello, Linyang He, Tsun-An Hsieh, Xulin Fan, Yulun Wu, Yuesheng Ma, Chaitanya Amballa, Weixiong Chen, Jiarui Hai, Ruisi Li, Vishal Choudhari, Cong Han, Yinghao Aaron Li, Adeen Flinker, Mounya Elhilali, Emmanouil Benetos, Mark Hasegawa-Johnson, Romit Roy Choudhury, Nima Mesgarani,
- Abstract要約: AVMeme Examは、音声、歌、音楽、サウンドエフェクトにまたがる、1000以上の象徴的なインターネットの音とビデオの人間による評価ベンチマークである。
各ミームは、表面コンテンツからコンテキスト、感情、使用法、世界知識への理解レベルを評価するユニークなQ&Aと組み合わせられる。
このベンチマークを用いて,最先端のマルチモーダル言語モデル (MLLM) を人間の参加者とともに体系的に評価した。
- 参考スコア(独自算出の注目度): 59.15472057710525
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Internet audio-visual clips convey meaning through time-varying sound and motion, which extend beyond what text alone can represent. To examine whether AI models can understand such signals in human cultural contexts, we introduce AVMeme Exam, a human-curated benchmark of over one thousand iconic Internet sounds and videos spanning speech, songs, music, and sound effects. Each meme is paired with a unique Q&A assessing levels of understanding from surface content to context and emotion to usage and world knowledge, along with metadata such as original year, transcript, summary, and sensitivity. We systematically evaluate state-of-the-art multimodal large language models (MLLMs) alongside human participants using this benchmark. Our results reveal a consistent limitation: current models perform poorly on textless music and sound effects, and struggle to think in context and in culture compared to surface content. These findings highlight a key gap in human-aligned multimodal intelligence and call for models that can perceive contextually and culturally beyond the surface of what they hear and see. Project page: avmemeexam.github.io/public
- Abstract(参考訳): インターネットのオーディオ映像クリップは、時間とともに変化する音と動きを通じて意味を伝える。
AVMeme Examは、音声、歌、音楽、音響効果にまたがる1000以上の象徴的なインターネット音とビデオの人間計算ベンチマークである。
各ミームには、表面コンテンツからコンテキスト、感情、使用法、世界知識への理解レベルを評価するユニークなQ&Aと、オリジナル年、書き起こし、要約、感度といったメタデータがペアリングされる。
このベンチマークを用いて,最先端のマルチモーダル言語モデル (MLLM) を人間の参加者とともに体系的に評価した。
現在のモデルでは、テキストのない音楽やサウンドエフェクトが不十分であり、表面コンテンツと比較して、文脈や文化における思考が困難である。
これらの発見は、人間の協調したマルチモーダルインテリジェンスにおける重要なギャップを浮き彫りにし、彼らが聴いたものの表面を超えて文脈的、文化的に知覚できるモデルを求める。
プロジェクトページ: avmeexam.github.io/public
関連論文リスト
- AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文 参考訳(メタデータ) (2025-08-29T07:40:39Z) - TCC-Bench: Benchmarking the Traditional Chinese Culture Understanding Capabilities of MLLMs [13.069833806549914]
中国伝統文化理解ベンチマーク(TCC-Bench)を提案する。
TCC-Benchは、文化的に豊かで視覚的に多様なデータで構成されており、博物館の工芸品、日常の生活シーン、漫画、その他の文化的に重要な文脈の画像が組み込まれている。
テキストのみのモードでGPT-4oを利用する半自動パイプラインを採用し、候補問題を生成し、続いて人間によるキュレーションを行い、データ品質を保証し、潜在的なデータ漏洩を回避する。
論文 参考訳(メタデータ) (2025-05-16T14:10:41Z) - All-in-one: Understanding and Generation in Multimodal Reasoning with the MAIA Benchmark [70.92907745196153]
MAIAはビデオにおける視覚言語モデルの推論能力の詳細な調査のためのベンチマークである。
視覚入力の役割を強調することによって、言語と視覚関係を歪めようとする12の推論カテゴリを考察する。
MAIAは、そのデザイン、推論カテゴリ、使用するメトリクス、およびビデオの言語と文化に関して、他の利用可能なビデオベンチマークとは異なる。
論文 参考訳(メタデータ) (2025-02-24T09:25:51Z) - MERLOT Reserve: Neural Script Knowledge through Vision and Language and
Sound [90.1857707251566]
MERLOT Reserveは、時間とともに動画を共同で表現するモデルである。
我々は、テキストとオーディオのスニペットをMASKトークンに置き換え、正しいマスクアウトスニペットを選択して学習する。
私たちの目標は代替手段よりも早く学習し、大規模に機能します。
論文 参考訳(メタデータ) (2022-01-07T19:00:21Z) - MERLOT: Multimodal Neural Script Knowledge Models [74.05631672657452]
我々はMERLOTを紹介した。MERLOTは、翻訳された音声で何百万ものYouTubeビデオを視聴することで、マルチモーダルなスクリプト知識を学習するモデルである。
MERLOTは、時間的コモンセンスの強力なアウトオブボックス表現を示し、12の異なるビデオQAデータセット上で最先端のパフォーマンスを達成する。
Visual Commonsense Reasoning では、MERLOT が80.6%の精度で正解し、同じ大きさの最先端のモデルを3%以上上回っている。
論文 参考訳(メタデータ) (2021-06-04T17:57:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。