論文の概要: CAIRe: Cultural Attribution of Images by Retrieval-Augmented Evaluation
- arxiv url: http://arxiv.org/abs/2506.09109v1
- Date: Tue, 10 Jun 2025 17:16:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:01.768773
- Title: CAIRe: Cultural Attribution of Images by Retrieval-Augmented Evaluation
- Title(参考訳): CAIRe:検索・拡張評価による画像の文化的属性
- Authors: Arnav Yayavaram, Siddharth Yayavaram, Simran Khanuja, Michael Saxon, Graham Neubig,
- Abstract要約: 本稿では,画像の文化的関連度を評価する新しい評価指標であるCAIReを紹介する。
本フレームワークは,イメージ内の実体と概念を知識ベースに基盤として,実情報を用いて各文化ラベルに対して独立した評価を行う。
- 参考スコア(独自算出の注目度): 61.130639734982395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As text-to-image models become increasingly prevalent, ensuring their equitable performance across diverse cultural contexts is critical. Efforts to mitigate cross-cultural biases have been hampered by trade-offs, including a loss in performance, factual inaccuracies, or offensive outputs. Despite widespread recognition of these challenges, an inability to reliably measure these biases has stalled progress. To address this gap, we introduce CAIRe, a novel evaluation metric that assesses the degree of cultural relevance of an image, given a user-defined set of labels. Our framework grounds entities and concepts in the image to a knowledge base and uses factual information to give independent graded judgments for each culture label. On a manually curated dataset of culturally salient but rare items built using language models, CAIRe surpasses all baselines by 28% F1 points. Additionally, we construct two datasets for culturally universal concept, one comprising of T2I-generated outputs and another retrieved from naturally occurring data. CAIRe achieves Pearson's correlations of 0.56 and 0.66 with human ratings on these sets, based on a 5-point Likert scale of cultural relevance. This demonstrates its strong alignment with human judgment across diverse image sources.
- Abstract(参考訳): テキスト・ツー・イメージのモデルがますます普及するにつれて、さまざまな文化的文脈で同等のパフォーマンスを確保することが重要である。
異文化間の偏見を軽減する努力は、業績の低下、事実的不正確さ、攻撃的なアウトプットなど、トレードオフによって妨げられている。
これらの課題が広く認識されているにもかかわらず、これらのバイアスを確実に測定できないことが進歩を妨げている。
このギャップに対処するために,ユーザが定義したラベルセットから,画像の文化的関連度を評価する新しい評価指標であるCAIReを導入する。
本フレームワークは,イメージ内の実体と概念を知識ベースに基盤として,実情報を用いて各文化ラベルに対して独立した評価を行う。
CAIReは、言語モデルを用いて構築された、文化的に健全だが稀なアイテムを手作業でキュレートしたデータセットで、すべてのベースラインを28%のF1ポイント上回る。
さらに,文化的に普遍的な概念のための2つのデータセットを構築し,その1つはT2I生成出力と自然発生データから抽出したデータからなる。
CAIReは5点のカルチャー関連尺度に基づいて、ピアソンの0.56と0.66の相関をこれらのセット上の人間の評価と達成している。
これは、多様な画像ソースをまたいだ人間の判断と強い整合性を示す。
関連論文リスト
- CulturalFrames: Assessing Cultural Expectation Alignment in Text-to-Image Models and Evaluation Metrics [23.567641319277943]
我々は、明示的および暗黙的な文化的期待の両方に関して、テキスト・ツー・イメージ(T2I)モデルと評価指標のアライメントを定量化する。
本稿では,視覚世代における文化的表現の厳密な評価を目的とした新しいベンチマークであるCulturalFramesを紹介する。
T2Iモデルは、より挑戦的な暗黙的な期待を満たさないだけでなく、より挑戦的な明示的な期待を満たさないことが分かっています。
論文 参考訳(メタデータ) (2025-06-10T14:21:46Z) - From Surveys to Narratives: Rethinking Cultural Value Adaptation in LLMs [57.43233760384488]
LLM(Large Language Models)における文化的価値の適応は大きな課題である。
これまでの作業は主に、World Values Survey (WVS)データを使用して、LLMをさまざまな文化的価値と整合させる。
本稿では,文化価値適応のためのWVSベースのトレーニングについて検討し,調査データのみに頼って文化規範を把握し,事実知識に干渉することを見出した。
論文 参考訳(メタデータ) (2025-05-22T09:00:01Z) - Deconstructing Bias: A Multifaceted Framework for Diagnosing Cultural and Compositional Inequities in Text-to-Image Generative Models [3.6335172274433414]
本稿では,CIS(Component Inclusion Score)を指標として,文化的文脈における画像生成の忠実度を評価する。
我々は、構成的脆弱性と文脈的不整合の観点からバイアスを定量化し、西洋と非西洋の文化的プロンプトの間に顕著なパフォーマンスのギャップを浮き彫りにする。
論文 参考訳(メタデータ) (2025-04-05T06:17:43Z) - Beyond Aesthetics: Cultural Competence in Text-to-Image Models [34.98692829036475]
CUBEは、テキスト・ツー・イメージ・モデルの文化的能力を評価するための最初のベンチマークである。
CUBEは、異なる地理的文化圏の8か国に関連する文化的アーティファクトをカバーしている。
CUBE-CSpaceは、文化的多様性を評価する基盤となる文化的アーティファクトのより大きなデータセットである。
論文 参考訳(メタデータ) (2024-07-09T13:50:43Z) - Extrinsic Evaluation of Cultural Competence in Large Language Models [53.626808086522985]
本稿では,2つのテキスト生成タスクにおける文化能力の評価に焦点をあてる。
我々は,文化,特に国籍の明示的なキューが,そのプロンプトに乱入している場合のモデル出力を評価する。
異なる国におけるアウトプットのテキスト類似性とこれらの国の文化的価値との間には弱い相関関係がある。
論文 参考訳(メタデータ) (2024-06-17T14:03:27Z) - On the Cultural Gap in Text-to-Image Generation [75.69755281031951]
テキスト・トゥ・イメージ(T2I)生成における課題のひとつは、トレーニングデータに存在する文化ギャップの意図しない反映である。
クロスカルチャー画像を生成するT2Iモデルの能力を体系的に評価するベンチマークは存在しない。
本稿では,モデルが対象文化にどの程度適しているかを評価するため,包括的評価基準付きChallenging Cross-Cultural (C3)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-06T13:17:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。