論文の概要: Cultural Evaluations of Vision-Language Models Have a Lot to Learn from Cultural Theory
- arxiv url: http://arxiv.org/abs/2505.22793v1
- Date: Wed, 28 May 2025 19:04:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.495367
- Title: Cultural Evaluations of Vision-Language Models Have a Lot to Learn from Cultural Theory
- Title(参考訳): 視覚言語モデルの文化的評価は文化的理論から学ぶ余地がある
- Authors: Srishti Yadav, Lauren Tilton, Maria Antoniak, Taylor Arnold, Jiaang Li, Siddhesh Milind Pawar, Antonia Karamolegkou, Stella Frank, Zhaochong An, Negar Rostamzadeh, Daniel Hershcovich, Serge Belongie, Ekaterina Shutova,
- Abstract要約: 現代の視覚言語モデル(VLM)は、しばしば文化的能力評価とベンチマークで失敗する。
本稿では,視覚文化研究の基盤となる方法論が画像の文化的分析に欠かせないことを論じる。
- 参考スコア(独自算出の注目度): 25.953345583487312
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern vision-language models (VLMs) often fail at cultural competency evaluations and benchmarks. Given the diversity of applications built upon VLMs, there is renewed interest in understanding how they encode cultural nuances. While individual aspects of this problem have been studied, we still lack a comprehensive framework for systematically identifying and annotating the nuanced cultural dimensions present in images for VLMs. This position paper argues that foundational methodologies from visual culture studies (cultural studies, semiotics, and visual studies) are necessary for cultural analysis of images. Building upon this review, we propose a set of five frameworks, corresponding to cultural dimensions, that must be considered for a more complete analysis of the cultural competencies of VLMs.
- Abstract(参考訳): 現代の視覚言語モデル(VLM)は、しばしば文化的能力評価とベンチマークで失敗する。
VLM上に構築されるアプリケーションの多様性を考えると、どのように文化的なニュアンスをエンコードするかを理解することへの関心が高まっている。
この問題の個々の側面は研究されているが、VLMのイメージに存在するニュアンス文化次元を体系的に識別し、注釈する包括的な枠組みはいまだに欠如している。
画像の文化的分析には,視覚文化研究(文化研究,セミオティックス,視覚研究)の基盤的方法論が必要であると論じる。
本稿では,VLMの文化的能力のより完全な分析のために,文化的な側面に対応する5つの枠組みを提案する。
関連論文リスト
- From Word to World: Evaluate and Mitigate Culture Bias via Word Association Test [48.623761108859085]
我々は,人中心語関連テスト(WAT)を拡張し,異文化間認知による大規模言語モデルのアライメントを評価する。
文化選好を緩和するために,カルチャー対応のステアリング機構を統合する革新的なアプローチであるCultureSteerを提案する。
論文 参考訳(メタデータ) (2025-05-24T07:05:10Z) - Cultural Learning-Based Culture Adaptation of Language Models [70.1063219524999]
大きな言語モデル(LLM)をさまざまな文化的価値に適用することは難しい課題です。
文化的学習に基づくLLMと文化的価値との整合性を高めるための新しい枠組みであるCLCAについて述べる。
論文 参考訳(メタデータ) (2025-04-03T18:16:26Z) - CultureVLM: Characterizing and Improving Cultural Understanding of Vision-Language Models for over 100 Countries [63.00147630084146]
視覚言語モデル(VLM)は高度な人間とAIの相互作用を持つが、文化的な理解に苦慮している。
CultureVerseは大規模なマルチモーダルベンチマークで、682の文化的概念、188の国/地域、15の文化的概念、3の質問タイプをカバーしている。
本稿では,文化理解の大幅な向上を実現するために,我々のデータセットを微調整したVLMのシリーズであるCultureVLMを提案する。
論文 参考訳(メタデータ) (2025-01-02T14:42:37Z) - CROPE: Evaluating In-Context Adaptation of Vision and Language Models to Culture-Specific Concepts [45.77570690529597]
文化固有の概念の知識を探索するための視覚的質問応答ベンチマークであるCROPEを紹介する。
いくつかの最先端のオープンビジョンと言語モデルの評価は、文化固有の概念と共通の概念の相違が大きいことを示す。
文脈知識を用いた実験は、モデルがマルチモーダル情報を効果的に活用し、文化固有の概念を描写に結びつけるのに苦労していることを示している。
論文 参考訳(メタデータ) (2024-10-20T17:31:19Z) - From Local Concepts to Universals: Evaluating the Multicultural Understanding of Vision-Language Models [10.121734731147376]
視覚言語モデルの性能は、西欧文化のイメージに最適以下である。
様々なベンチマークが、モデルの文化的傾向をテストするために提案されているが、それらは限られた範囲の文化をカバーしている。
我々はGlobalRGベンチマークを導入し、普遍性を越えた検索と文化的な視覚的接地という2つの課題からなる。
論文 参考訳(メタデータ) (2024-06-28T23:28:28Z) - Understanding the Capabilities and Limitations of Large Language Models for Cultural Commonsense [98.09670425244462]
大規模言語モデル(LLM)は、かなりの常識的理解を示している。
本稿では,文化的コモンセンスタスクの文脈におけるいくつかの最先端LCMの能力と限界について検討する。
論文 参考訳(メタデータ) (2024-05-07T20:28:34Z) - Navigating Cultural Chasms: Exploring and Unlocking the Cultural POV of Text-To-Image Models [32.99865895211158]
テキスト・トゥ・イメージ(TTI)モデルに埋め込まれた文化的知覚を,3層にまたがる文化を特徴付けることによって探求する。
本稿では,CLIP空間を用いた本質的な評価を含む総合的な評価手法を提案する。
我々の研究を促進するために、CulText2Iデータセットを導入しました。
論文 参考訳(メタデータ) (2023-10-03T10:13:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。