論文の概要: ValueGround: Evaluating Culture-Conditioned Visual Value Grounding in MLLMs
- arxiv url: http://arxiv.org/abs/2604.06484v1
- Date: Tue, 07 Apr 2026 21:35:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.253891
- Title: ValueGround: Evaluating Culture-Conditioned Visual Value Grounding in MLLMs
- Title(参考訳): ValueGround: MLLMにおける文化中心のビジュアルバリューグラウンドの評価
- Authors: Zhipin Wang, Christoph Leiter, Christian Frey, Mohamed Hesham Ibrahim Abdalla, Josif Grabocka, Steffen Eger,
- Abstract要約: 本研究では,大規模言語モデルにおける文化条件付きビジュアルバリューグラウンドの評価のためのベンチマークであるValueGroundを紹介する。
ValueGroundは最小限のコントラストイメージペアを使用して、無関係な変動をコントロールしながら、反対の応答オプションを表現します。
6つのMLLMと13の国で、テキストのみの設定では平均精度が72.8%から65.8%に低下している。
- 参考スコア(独自算出の注目度): 31.549979260466074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cultural values are expressed not only through language but also through visual scenes and everyday social practices. Yet existing evaluations of cultural values in language models are almost entirely text-only, making it unclear whether models can ground culture-conditioned judgments when response options are visualized. We introduce ValueGround, a benchmark for evaluating culture-conditioned visual value grounding in multimodal large language models (MLLMs). Built from World Values Survey (WVS) questions, ValueGround uses minimally contrastive image pairs to represent opposing response options while controlling irrelevant variation. Given a country, a question, and an image pair, a model must choose the image that best matches the country's value tendency without access to the original response-option texts. Across six MLLMs and 13 countries, average accuracy drops from 72.8% in the text-only setting to 65.8% when options are visualized, despite 92.8% accuracy on option-image alignment. Stronger models are more robust, but all remain prone to prediction reversals. Our benchmark provides a controlled testbed for studying cross-modal transfer of culture-conditioned value judgments.
- Abstract(参考訳): 文化的な価値観は言語だけでなく、視覚的な場面や日常的な社会的実践を通じても表現される。
しかし、既存の言語モデルにおける文化的価値の評価は、ほぼ完全にテキストのみであり、応答オプションが視覚化されたときに、モデルが文化条件の判断を下すことができるかどうかは不明である。
本稿では,マルチモーダル大言語モデル(MLLM)における文化条件付きビジュアルバリューグラウンドの評価ベンチマークであるValueGroundを紹介する。
World Values Survey (WVS)の質問から構築されたValueGroundは、最小限のコントラストのあるイメージペアを使用して、反対のレスポンスオプションを表現し、無関係なバリエーションをコントロールしている。
国、質問、イメージペアが与えられた場合、モデルは、元のレスポンスオプションテキストにアクセスすることなく、国の値傾向に最もよくマッチするイメージを選択する必要がある。
6つのMLLMと13の国で、テキストのみの設定では平均精度が72.8%から65.8%に低下している。
より強いモデルはより堅牢だが、予測逆転の傾向にある。
本ベンチマークでは,文化条件付値判断の相互伝達について検討するための制御テストベッドを提供する。
関連論文リスト
- LLMs and Cultural Values: the Impact of Prompt Language and Explicit Cultural Framing [0.21485350418225244]
大規模言語モデル(LLM)は、世界中のユーザによって急速に採用され、さまざまな言語でそれらと対話している。
言語と文化のフレーミングが、異なる国の人的価値にどのように影響するかを検討する。
論文 参考訳(メタデータ) (2025-11-06T02:09:29Z) - I Am Aligned, But With Whom? MENA Values Benchmark for Evaluating Cultural Alignment and Multilingual Bias in LLMs [5.060243371992739]
大規模言語モデル(LLM)の文化的アライメントと多言語バイアスを評価するための新しいベンチマークであるMENAValuesを紹介する。
大規模で権威ある人的調査から、我々は16カ国の人口レベルの応答分布を持つMENAの社会文化的景観を捉えた構造化データセットをキュレートした。
分析の結果,同じ質問が言語に基づいて大きく異なる反応をもたらす「クロス・Lingual Value Shifts」,その理由の説明を促す「Reasoning-induced Degradation」,モデルがセンシティブな質問を拒否する「Logit Leakage」,内部確率が強く隠蔽される「Logit Leakage」の3つの重要な現象が明らかになった。
論文 参考訳(メタデータ) (2025-10-15T05:10:57Z) - Revisiting LLM Value Probing Strategies: Are They Robust and Expressive? [81.49470136653665]
広範に利用されている3つの探索戦略における値表現の頑健さと表現性を評価する。
人口統計学的文脈は自由テキスト生成にはほとんど影響を与えず、モデルの値は値に基づく行動の好みと弱い相関しか示さない。
論文 参考訳(メタデータ) (2025-07-17T18:56:41Z) - CAIRe: Cultural Attribution of Images by Retrieval-Augmented Evaluation [61.130639734982395]
本稿では,画像の文化的関連度を評価する新しい評価指標であるCAIReを紹介する。
本フレームワークは,イメージ内の実体と概念を知識ベースに基盤として,実情報を用いて各文化ラベルに対して独立した評価を行う。
論文 参考訳(メタデータ) (2025-06-10T17:16:23Z) - CaMMT: Benchmarking Culturally Aware Multimodal Machine Translation [47.54347964192231]
本稿では,5800枚以上の画像のベンチマークであるCaMMTと,英語と地域語でのパラレルキャプションを紹介する。
自動的および人的評価により、視覚的コンテキストは一般的に翻訳品質を改善する。
論文 参考訳(メタデータ) (2025-05-30T10:42:44Z) - Beyond Words: Exploring Cultural Value Sensitivity in Multimodal Models [26.051898880298126]
文化的文脈に基づく大規模言語モデルにおける価値アライメントの調査は、重要な研究領域となっている。
同様のバイアスは、大きな視覚言語モデル(VLM)では広く研究されていない。
論文 参考訳(メタデータ) (2025-02-18T19:03:02Z) - Vision-Language Models under Cultural and Inclusive Considerations [53.614528867159706]
視覚言語モデル(VLM)は、日常生活の画像を記述することで視覚障害者を支援する。
現在の評価データセットは、多様な文化的ユーザ背景や、このユースケースの状況を反映していない可能性がある。
我々は、字幕の好みを決定するための調査を作成し、視覚障害者によって撮影された画像を含む既存のデータセットであるVizWizをフィルタリングすることで、文化中心の評価ベンチマークを提案する。
次に,複数のVLMを評価し,その信頼性を文化的に多様な環境で視覚アシスタントとして検証した。
論文 参考訳(メタデータ) (2024-07-08T17:50:00Z) - See It from My Perspective: How Language Affects Cultural Bias in Image Understanding [60.70852566256668]
視覚言語モデル(VLM)は、多くの言語における画像に関するクエリに応答することができる。
画像理解におけるVLMの西洋的偏見を特徴付け,この格差の中で言語が果たす役割について検討する。
論文 参考訳(メタデータ) (2024-06-17T15:49:51Z) - On the Cultural Gap in Text-to-Image Generation [75.69755281031951]
テキスト・トゥ・イメージ(T2I)生成における課題のひとつは、トレーニングデータに存在する文化ギャップの意図しない反映である。
クロスカルチャー画像を生成するT2Iモデルの能力を体系的に評価するベンチマークは存在しない。
本稿では,モデルが対象文化にどの程度適しているかを評価するため,包括的評価基準付きChallenging Cross-Cultural (C3)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-06T13:17:55Z) - The Ghost in the Machine has an American accent: value conflict in GPT-3 [0.0]
言語と文化的価値の共創が大きな言語モデルに与える影響について論じる。
我々は、いくつかの言語や国を表す様々な価値豊富なテキストでGPT-3をテストした。
入力テキストに埋め込まれた値が生成された出力に変異されているのを観察した。
論文 参考訳(メタデータ) (2022-03-15T11:06:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。