論文の概要: Appear2Meaning: A Cross-Cultural Benchmark for Structured Cultural Metadata Inference from Images
- arxiv url: http://arxiv.org/abs/2604.07338v1
- Date: Wed, 08 Apr 2026 17:53:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.667215
- Title: Appear2Meaning: A Cross-Cultural Benchmark for Structured Cultural Metadata Inference from Images
- Title(参考訳): Appear2Meaning: 画像からの構造化文化メタデータ推論のための異文化間ベンチマーク
- Authors: Yuechen Jiang, Enze Zhang, Md Mohsinul Kabir, Qianqian Xie, Stavroula Golfomitsou, Konstantinos Arvanitis, Sophia Ananiadou,
- Abstract要約: 我々は,この課題に対する多カテゴリ・異文化間ベンチマークを導入し,視覚言語モデル(VLM)を評価する。
文化的推論を評価するため,文化地域全体での正確なマッチング,部分マッチング,属性レベルの精度について報告する。
その結果、モデルは断片化された信号をキャプチャし、文化やメタデータのタイプ間で大きなパフォーマンス変化を示し、一貫性がなく、基盤の弱い予測に繋がることがわかった。
- 参考スコア(独自算出の注目度): 28.09239790313765
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in vision-language models (VLMs) have improved image captioning for cultural heritage. However, inferring structured cultural metadata (e.g., creator, origin, period) from visual input remains underexplored. We introduce a multi-category, cross-cultural benchmark for this task and evaluate VLMs using an LLM-as-Judge framework that measures semantic alignment with reference annotations. To assess cultural reasoning, we report exact-match, partial-match, and attribute-level accuracy across cultural regions. Results show that models capture fragmented signals and exhibit substantial performance variation across cultures and metadata types, leading to inconsistent and weakly grounded predictions. These findings highlight the limitations of current VLMs in structured cultural metadata inference beyond visual perception.
- Abstract(参考訳): 近年の視覚言語モデル(VLM)は,文化遺産のイメージキャプションを改善している。
しかし、視覚的な入力から構造化された文化的メタデータ(例えば、創始者、創始者、時代)を推測することは、まだ未定である。
本稿では,この課題に対する多カテゴリ間ベンチマークを導入し,参照アノテーションとのセマンティックアライメントを測定するLLM-as-Judgeフレームワークを用いてVLMを評価する。
文化的推論を評価するため,文化地域全体での正確なマッチング,部分マッチング,属性レベルの精度について報告する。
その結果、モデルは断片化された信号をキャプチャし、文化やメタデータのタイプ間で大きなパフォーマンス変化を示し、一貫性がなく、基盤の弱い予測に繋がることがわかった。
これらの知見は、視覚的知覚を超えた構造化文化メタデータ推論における現在のVLMの限界を浮き彫りにした。
関連論文リスト
- CURE: Cultural Understanding and Reasoning Evaluation - A Framework for "Thick" Culture Alignment Evaluation in LLMs [24.598338950728234]
大規模言語モデル(LLM)は、文化的に多様な環境にますます展開されている。
既存の方法は、非文脈的正当性や強制選択判断に重点を置いている。
現実的な状況下でモデルを提示するベンチマークのセットを紹介する。
論文 参考訳(メタデータ) (2025-11-15T03:39:13Z) - Culturally-Aware Conversations: A Framework & Benchmark for LLMs [8.314136556868563]
LLMの文化的適応を測定する既存のベンチマークは、さまざまな文化的背景を持つユーザと対話する際に、これらのモデルが直面する実際の課題と不一致である。
社会文化的理論を基礎として,我々の枠組みは,状況的,関係的,文化的文脈によって言語様式がどう形成されるかを定式化した。
我々は,この枠組みに基づいて,文化的に多彩なラッカーによって注釈付けされたベンチマークデータセットを構築し,NLPにおける異文化間評価のための新しいデシラタセットを提案する。
論文 参考訳(メタデータ) (2025-10-13T16:06:14Z) - CultureScope: A Dimensional Lens for Probing Cultural Understanding in LLMs [57.653830744706305]
CultureScopeは、大規模な言語モデルにおける文化的理解を評価するための、これまでで最も包括的な評価フレームワークである。
文化的な氷山理論に触発されて、文化知識分類のための新しい次元スキーマを設計する。
実験結果から,文化的理解を効果的に評価できることが示唆された。
論文 参考訳(メタデータ) (2025-09-19T17:47:48Z) - From Surveys to Narratives: Rethinking Cultural Value Adaptation in LLMs [62.9861554207279]
LLM(Large Language Models)における文化的価値の適応は大きな課題である。
これまでの作業は主に、World Values Survey (WVS)データを使用して、LLMをさまざまな文化的価値と整合させる。
我々は,文化価値適応のためのWVSベースのトレーニングについて検討し,調査データのみに頼って文化規範を実践し,事実知識に干渉することを発見した。
論文 参考訳(メタデータ) (2025-05-22T09:00:01Z) - RAVENEA: A Benchmark for Multimodal Retrieval-Augmented Visual Culture Understanding [79.44246283490665]
本稿では,検索による視覚文化理解の促進を目的とした新しいベンチマークであるRAVENEAを紹介する。
RAVENEAは、文化中心の視覚的質問応答(cVQA)と文化インフォームドイメージキャプション(cIC)の2つのタスクに焦点を当てている。
画像クエリ毎に7つのマルチモーダルレトリバーを訓練・評価し、14の最先端の視覚言語モデルにおける検索強化入力の下流への影響を計測する。
論文 参考訳(メタデータ) (2025-05-20T14:57:16Z) - Cultural Learning-Based Culture Adaptation of Language Models [70.1063219524999]
大きな言語モデル(LLM)をさまざまな文化的価値に適用することは難しい課題です。
文化的学習に基づくLLMと文化的価値との整合性を高めるための新しい枠組みであるCLCAについて述べる。
論文 参考訳(メタデータ) (2025-04-03T18:16:26Z) - CROPE: Evaluating In-Context Adaptation of Vision and Language Models to Culture-Specific Concepts [45.77570690529597]
文化固有の概念の知識を探索するための視覚的質問応答ベンチマークであるCROPEを紹介する。
いくつかの最先端のオープンビジョンと言語モデルの評価は、文化固有の概念と共通の概念の相違が大きいことを示す。
文脈知識を用いた実験は、モデルがマルチモーダル情報を効果的に活用し、文化固有の概念を描写に結びつけるのに苦労していることを示している。
論文 参考訳(メタデータ) (2024-10-20T17:31:19Z) - Benchmarking Machine Translation with Cultural Awareness [50.183458829028226]
文化関連コンテンツの翻訳は、効果的な異文化間コミュニケーションに不可欠である。
多くの文化特化項目(CSI)は言語間の翻訳を欠いていることが多い。
この難しさは機械翻訳システムの文化的意識の分析を妨げる。
論文 参考訳(メタデータ) (2023-05-23T17:56:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。