論文の概要: On the Cultural Anachronism and Temporal Reasoning in Vision Language Models
- arxiv url: http://arxiv.org/abs/2605.15071v1
- Date: Thu, 14 May 2026 16:58:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.961841
- Title: On the Cultural Anachronism and Temporal Reasoning in Vision Language Models
- Title(参考訳): 視覚言語モデルにおける文化的アナコニズムと時間的推論について
- Authors: Mukul Ranjan, Prince Jha, Khushboo Kumari, Zhiqiang Shen,
- Abstract要約: ヴィジュアル・ランゲージ・モデル(VLM)は、文化遺産にますます応用されている。
この研究は、これらのモデルが歴史的アーティファクトをどのように解釈するかという根本的な問題を特定する。
我々は、この現象を、時間的に不適切な概念を用いて歴史的対象を誤解釈する傾向である文化的アナクロニズムと定義する。
- 参考スコア(独自算出の注目度): 35.132248635251266
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) are increasingly applied to cultural heritage materials, from digital archives to educational platforms. This work identifies a fundamental issue in how these models interpret historical artifacts. We define this phenomenon as cultural anachronism, the tendency to misinterpret historical objects using temporally inappropriate concepts, materials, or cultural frameworks. To quantify this phenomenon, we introduce the Temporal Anachronism Benchmark for Vision-Language Models (TAB-VLM), a dataset of 600 questions across six categories, designed to evaluate temporal reasoning on 1,600 Indian cultural artifacts spanning prehistoric to modern periods. Systematic evaluations of ten state-of-the-art models reveal significant deficiencies on our benchmark, and even the best model (GPT-5.2) achieves only 58.7% overall accuracy. The performance gap persists across varying architectures and scales, suggesting that cultural anachronism represents a significant limitation in visual AI systems, regardless of model size. These findings highlight the disparity between current VLM capabilities and the requirements for accurately interpreting cultural heritage materials, particularly for non-Western visual cultures underrepresented in training data. Our benchmark provides a foundation for enhancing temporal cognition in multimodal AI systems that interact with historical artifacts. The dataset and code are available in our project page.
- Abstract(参考訳): VLM(Vision-Language Models)は、デジタルアーカイブから教育プラットフォームまで、ますます文化遺産に応用されている。
この研究は、これらのモデルが歴史的アーティファクトをどのように解釈するかという根本的な問題を特定する。
我々は、この現象を文化的アナクロニズムと定義し、時間的に不適切な概念、資料、文化の枠組みを用いて歴史的対象を誤解釈する傾向がある。
この現象を定量化するために、先史時代から近代にかけての1,600のインド文化アーティファクトに関する時間的推論を評価するために、6つのカテゴリにわたる600の質問のデータセットであるTAB-VLM(Temporal Anachronism Benchmark for Vision-Language Models)を導入する。
10の最先端モデルの体系的評価は、我々のベンチマークに重大な欠陥を示し、最高のモデル(GPT-5.2)でさえ、全体的な精度は58.7%に過ぎなかった。
パフォーマンスギャップはさまざまなアーキテクチャやスケールにまたがって持続しており、モデルのサイズに関わらず、文化的なアナクロニズムが視覚AIシステムにおいて重要な制限となっていることを示唆している。
これらの知見は、現在のVLM能力と文化遺産の正確な解釈要件の相違、特にトレーニングデータで表現されていない西洋以外の視覚文化の相違を浮き彫りにしている。
我々のベンチマークは、歴史的アーティファクトと相互作用するマルチモーダルAIシステムにおいて、時間認知を高める基盤を提供する。
データセットとコードはプロジェクトのページで公開されています。
関連論文リスト
- Do Large Language Models Truly Understand Cross-cultural Differences? [53.481048019144644]
我々は,大規模言語モデルの異文化間理解と推論を評価するシナリオベースのベンチマークを開発した。
文化理論を基礎として、異文化の能力を9次元に分類する。
データセットは連続的な拡張をサポートし、実験は他の言語への転送可能性を確認する。
論文 参考訳(メタデータ) (2025-12-08T01:21:58Z) - Hire Your Anthropologist! Rethinking Culture Benchmarks Through an Anthropological Lens [9.000522371422628]
ベンチマークのフレームカルチャーを分類する4つのフレームワークを紹介します。
20の文化指標を質的に検討し,6つの方法論的問題を同定した。
我々の目標は、静的リコールタスクを超える文化ベンチマークの開発をガイドすることです。
論文 参考訳(メタデータ) (2025-10-07T13:42:44Z) - RAVENEA: A Benchmark for Multimodal Retrieval-Augmented Visual Culture Understanding [79.44246283490665]
本稿では,検索による視覚文化理解の促進を目的とした新しいベンチマークであるRAVENEAを紹介する。
RAVENEAは、文化中心の視覚的質問応答(cVQA)と文化インフォームドイメージキャプション(cIC)の2つのタスクに焦点を当てている。
画像クエリ毎に7つのマルチモーダルレトリバーを訓練・評価し、14の最先端の視覚言語モデルにおける検索強化入力の下流への影響を計測する。
論文 参考訳(メタデータ) (2025-05-20T14:57:16Z) - Synthetic History: Evaluating Visual Representations of the Past in Diffusion Models [2.9793019246605676]
本稿では,テキスト・トゥ・イメージ(TTI)モデルが歴史的文脈をどのように表現するかを評価するためのベンチマークを紹介する。
このベンチマークは、3つの最先端拡散モデルによって生成される3万の合成画像のデータセットであるHistVisを組み合わせたものだ。
生成した画像は,(1)意図しない立体的協会,(2)歴史的一貫性,(3)デモグラフィー表現の3つの重要な側面で評価した。
論文 参考訳(メタデータ) (2025-05-18T13:35:23Z) - Time Travel: A Comprehensive Benchmark to Evaluate LMMs on Historical and Cultural Artifacts [65.90535970515266]
TimeTravelは、10つの主要な歴史的地域にわたる266の異なる文化にまたがる10,250のエキスパート認定サンプルのベンチマークである。
TimeTravelは、原稿、アートワーク、碑文、考古学的発見のAIによる分析のために設計されている。
我々は、TimeTravelで現代のAIモデルを評価し、その強みを強調し、改善すべき領域を特定する。
論文 参考訳(メタデータ) (2025-02-20T18:59:51Z) - Understanding Museum Exhibits using Vision-Language Reasoning [52.35301212718003]
博物館は、様々なエポック、文明、地域の文化遺産や歴史的遺物の保管所として機能している。
ドメイン固有モデルは、インタラクティブなクエリ解決と歴史的洞察を得るために不可欠である。
世界中の展示品に対して,65万枚の画像と2億枚の質問回答ペアの大規模なデータセットを収集し,キュレートする。
論文 参考訳(メタデータ) (2024-12-02T10:54:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。