Fugu-MT 論文翻訳(概要): The Case for "Thick Evaluations" of Cultural Representation in AI

論文の概要: The Case for "Thick Evaluations" of Cultural Representation in AI

arxiv url: http://arxiv.org/abs/2503.19075v1
Date: Mon, 24 Mar 2025 19:01:14 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-26 19:42:58.54076
Title: The Case for "Thick Evaluations" of Cultural Representation in AI
Title（参考訳）: AIにおける文化表現の「強み評価」の事例
Authors: Rida Qadri, Mark Diaz, Ding Wang, Michael Madaio,
Abstract要約: 生成的AI画像モデルは、非西洋文化を表現することができないことから、ますます評価されている。これらの評価は、人々が自身の表現を定義する方法を無視して、還元的な表現の理想を通じて行われると論じる。我々は、AI画像における社会世界の表現を評価するための、よりきめ細やかで、位置的かつ非帰的な測定フレームワークである「厚さ評価」の考え方を紹介した。
参考スコア（独自算出の注目度）: 11.53198252426806
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Generative AI image models have been increasingly evaluated for their (in)ability to represent non-Western cultures. We argue that these evaluations operate through reductive ideals of representation, abstracted from how people define their own representation and neglecting the inherently interpretive and contextual nature of cultural representation. In contrast to these 'thin' evaluations, we introduce the idea of 'thick evaluations': a more granular, situated, and discursive measurement framework for evaluating representations of social worlds in AI images, steeped in communities' own understandings of representation. We develop this evaluation framework through workshops in South Asia, by studying the 'thick' ways in which people interpret and assign meaning to images of their own cultures. We introduce practices for thicker evaluations of representation that expand the understanding of representation underpinning AI evaluations and by co-constructing metrics with communities, bringing measurement in line with the experiences of communities on the ground.
Abstract（参考訳）: 生成的AI画像モデルは、非西洋文化を表現することができないことから、ますます評価されている。これらの評価は、人々が自身の表現を定義する方法から抽象化され、文化的表現の本質的解釈と文脈的性質を無視する、還元的表現の理想を通して行われると我々は主張する。これらの「薄い」評価とは対照的に、我々は、よりきめ細やかな位置、そして、AI画像における社会世界の表現を評価するための、よりきめ細やかな測定フレームワークである「厚さ評価」の概念を導入し、コミュニティの表現に対する理解を急ぐ。この評価枠組みは、人々が自分の文化のイメージに意味を解釈し割り当てる「太い」方法を研究することで、東南アジアのワークショップを通じて展開する。我々は,AI評価の基盤となる表現の理解の拡大と,コミュニティとのメトリクスの共構築により,地上でのコミュニティの経験に則って,表現のより厚い評価を行うプラクティスを紹介した。

関連論文リスト

Randomness, Not Representation: The Unreliability of Evaluating Cultural Alignment in LLMs [7.802103248428407]
我々は,現在の調査に基づく評価手法の背景にある3つの仮定を特定し,検証する。提示形式間の不安定性,評価された文化次元と保持された文化的次元間の不整合性,即時操舵時の不整合性などについて検討した。
論文参考訳（メタデータ） (2025-03-11T17:59:53Z)
Diffusion Models Through a Global Lens: Are They Culturally Inclusive? [15.991121392458748]
我々はCultDiffベンチマークを導入し、最先端の拡散モデルを評価する。これらのモデルは、建築、衣服、食品の文化的なアーティファクトを生成するのに失敗することが多いことを示します。我々は、カルトディフ-Sというニューラルネットワークによる画像画像類似度測定法を開発し、文化的アーティファクトを用いた実画像と生成画像の人間の判断を予測する。
論文参考訳（メタデータ） (2025-02-13T03:05:42Z)
CultureVLM: Characterizing and Improving Cultural Understanding of Vision-Language Models for over 100 Countries [63.00147630084146]
視覚言語モデル(VLM)は高度な人間とAIの相互作用を持つが、文化的な理解に苦慮している。 CultureVerseは大規模なマルチモーダルベンチマークで、682の文化的概念、188の国/地域、15の文化的概念、3の質問タイプをカバーしている。本稿では,文化理解の大幅な向上を実現するために,我々のデータセットを微調整したVLMのシリーズであるCultureVLMを提案する。
論文参考訳（メタデータ） (2025-01-02T14:42:37Z)
Risks of Cultural Erasure in Large Language Models [4.613949381428196]
我々は,歴史的権力不平等を疑問視し,考慮する言語技術の量化可能な評価の必要性を論じる。我々は、言語モデルがこれらの文脈を記述するよう依頼されたとき、世界中の様々な場所で生成する表現を探索する。言語モデルアプリケーションを用いて,旅行レコメンデーションに表される文化を分析した。
論文参考訳（メタデータ） (2025-01-02T04:57:50Z)
Towards Automatic Evaluation for Image Transcreation [52.71090829502756]
本稿では,機械翻訳(MT)メトリクスにインスパイアされた自動評価指標群を提案する。画像トランスクリエーションの3つの重要な側面として,文化的関連性,意味的等価性,視覚的類似性を挙げる。この結果から,視覚エンコーダの表現は視覚的類似度を測定するのに有効であるのに対し,プロプライエタリなVLMは文化的関連性と意味的等価性を最もよく認識していることがわかった。
論文参考訳（メタデータ） (2024-12-18T10:55:58Z)
CROPE: Evaluating In-Context Adaptation of Vision and Language Models to Culture-Specific Concepts [45.77570690529597]
文化固有の概念の知識を探索するための視覚的質問応答ベンチマークであるCROPEを紹介する。いくつかの最先端のオープンビジョンと言語モデルの評価は、文化固有の概念と共通の概念の相違が大きいことを示す。文脈知識を用いた実験は、モデルがマルチモーダル情報を効果的に活用し、文化固有の概念を描写に結びつけるのに苦労していることを示している。
論文参考訳（メタデータ） (2024-10-20T17:31:19Z)
Vision-Language Models under Cultural and Inclusive Considerations [53.614528867159706]
視覚言語モデル(VLM)は、日常生活の画像を記述することで視覚障害者を支援する。現在の評価データセットは、多様な文化的ユーザ背景や、このユースケースの状況を反映していない可能性がある。我々は、字幕の好みを決定するための調査を作成し、視覚障害者によって撮影された画像を含む既存のデータセットであるVizWizをフィルタリングすることで、文化中心の評価ベンチマークを提案する。次に,複数のVLMを評価し,その信頼性を文化的に多様な環境で視覚アシスタントとして検証した。
論文参考訳（メタデータ） (2024-07-08T17:50:00Z)
Extrinsic Evaluation of Cultural Competence in Large Language Models [53.626808086522985]
本稿では,2つのテキスト生成タスクにおける文化能力の評価に焦点をあてる。我々は,文化,特に国籍の明示的なキューが,そのプロンプトに乱入している場合のモデル出力を評価する。異なる国におけるアウトプットのテキスト類似性とこれらの国の文化的価値との間には弱い相関関係がある。
論文参考訳（メタデータ） (2024-06-17T14:03:27Z)
Towards Geographic Inclusion in the Evaluation of Text-to-Image Models [25.780536950323683]
我々は,アフリカ,ヨーロッパ,東南アジアにおけるアノテータの地理的表現,視覚的魅力,実画像および生成画像の一貫性に対する認識の程度について検討した。例えば、異なる場所のアノテータは、地理的に代表的であると見なされる領域の誇張されたステレオタイプ的な描写について、しばしば意見が一致しない。自動評価と人的評価を改善するためのステップを推奨する。
論文参考訳（メタデータ） (2024-05-07T16:23:06Z)
Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。テキスト生成における社会的バイアスを軽減するためのステップを提案する。我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文参考訳（メタデータ） (2021-06-24T17:52:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。