論文の概要: Evaluating AI-Generated Images of Cultural Artifacts with Community-Informed Rubrics
- arxiv url: http://arxiv.org/abs/2604.02406v1
- Date: Thu, 02 Apr 2026 17:17:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.147953
- Title: Evaluating AI-Generated Images of Cultural Artifacts with Community-Informed Rubrics
- Title(参考訳): コミュニティインフォームド・ルーブリックによる文化人工物のAI生成画像の評価
- Authors: Nari Johnson, Deepthi Sudharsan, Hamna, Samantha Dalal, Theo Holroyd, Anja Thieme, Hoda Heidari, Daniela Massiceti, Jennifer Wortman Vaughan, Cecily Morrison,
- Abstract要約: AIのパフォーマンス向上と、疎外されたグループに対する害軽減に不可欠な測定。
測定を自動化するドライブは、測定機器がAIによって影響を受けるコミュニティの専門知識や視点を捉える能力と緊張関係にある可能性がある。
最近の研究は、まず抽象的な概念から正確に「体系化された」概念へと移行する、いくつかの重要な段階に測定を分割することを提唱している。
- 参考スコア(独自算出の注目度): 18.0561997964007
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Measurement is essential to improving AI performance and mitigating harms for marginalized groups. As generative AI systems are rapidly deployed across geographies and contexts, AI measurement practices must be designed to support repeatable, automatable application across different models, datasets, and evaluation settings. But the drive to automate measurement can be in tension with the ability for measurement instruments to capture the expertise and perspectives of communities impacted by AI. Recent work advocates for breaking measurement into several key stages: first moving from an abstract concept to be measured into a precise, "systematized" concept; next operationalizing the systematized concept into a concrete measurement instrument; and finally applying the measurement instrument on data to produce measurements. This opens up an opportunity to concentrate community engagement in the systematization phase before operationalizing and applying measurement instruments. In this paper, we explore how to involve communities in systematizing the concept of "cultural appropriateness" in text-to-image models' representation of culturally significant artifacts through case studies with three communities: blind and low vision individuals residing in the UK, residents of Kerala, and residents of Tamil Nadu. Our systematized concepts reflect community members' lived experiences interacting with each artifact and how they want their material culture to be depicted, demonstrating the value of community involvement in defining valid measures. We explore how these systematized concepts can be operationalized into automated measurement instruments that could be applied using a multimodal LLM-as-a-judge approach and challenges that remain. We reflect on the benefits and limitations of such approaches.
- Abstract(参考訳): 測定はAIのパフォーマンス向上と、疎外されたグループに対する害軽減に不可欠である。
生成可能なAIシステムは、地理的およびコンテキストにわたって迅速にデプロイされるため、AI測定プラクティスは、さまざまなモデル、データセット、評価設定にわたって、反復可能で自動化可能なアプリケーションをサポートするように設計されなければならない。
しかし、測定自動化の推進力は、測定器がAIによって影響を受けるコミュニティの専門知識や視点を捉える能力と緊張関係にある可能性がある。
最近の研究は、まず抽象的な概念から正確に「体系化された」概念に移行し、次に体系化された概念を具体的な測定器に運用し、最後に測定器をデータに応用して測定を行う、いくつかの重要な段階に分割することを提唱している。
これにより、計測機器を運用・適用する前に、システム化段階におけるコミュニティの関与に集中する機会が開ける。
本稿では、英国在住の盲人・低視力者、ケララ住民、タミル・ナードゥ住民の3つのコミュニティとのケーススタディを通じて、テキスト・ツー・イメージモデルにおける「文化的適切性」の概念の体系化にコミュニティを巻き込む方法について検討する。
我々の体系化された概念は、各アーティファクトと相互作用するコミュニティメンバーの生きた経験と、彼らの物質文化をどう表現したいのかを反映し、有効措置の定義におけるコミュニティの関与の価値を実証している。
マルチモーダル LLM-as-a-judge アプローチを応用可能な自動測定器に,これらのシステム化された概念をどのように運用することができるか,その課題について検討する。
我々はそのようなアプローチの利点と限界を反映する。
関連論文リスト
- Position: Evaluating Generative AI Systems Is a Social Science Measurement Challenge [78.35388859345056]
我々は,MLコミュニティが,GenAIシステム評価のための計測機器を開発する際に,社会科学の学習と図面の恩恵を受けることを論じる。
我々は,GenAIシステムの能力,行動,および影響に関する概念を測定するための,社会科学からの計測理論に基づく4段階の枠組みを提案する。
論文 参考訳(メタデータ) (2025-02-01T21:09:51Z) - Towards Automatic Evaluation for Image Transcreation [52.71090829502756]
本稿では,機械翻訳(MT)メトリクスにインスパイアされた自動評価指標群を提案する。
画像トランスクリエーションの3つの重要な側面として,文化的関連性,意味的等価性,視覚的類似性を挙げる。
この結果から,視覚エンコーダの表現は視覚的類似度を測定するのに有効であるのに対し,プロプライエタリなVLMは文化的関連性と意味的等価性を最もよく認識していることがわかった。
論文 参考訳(メタデータ) (2024-12-18T10:55:58Z) - A Shared Standard for Valid Measurement of Generative AI Systems' Capabilities, Risks, and Impacts [38.66213773948168]
生成AI(GenAI)システムの能力、リスク、影響の有効な測定は、これらのシステムを評価する能力の基盤となる。
本稿では,現在使用されている様々な評価手法の多くを,共通の足場に配置する上で有効な評価基準を提案する。
論文 参考訳(メタデータ) (2024-12-02T19:50:00Z) - Evaluating Generative AI Systems is a Social Science Measurement Challenge [78.35388859345056]
我々は,GenAIシステムの能力,影響,機会,リスクに関連する概念を測定するための枠組みを提案する。
このフレームワークは、背景概念、体系化された概念、測定器、インスタンスレベルの測定そのものの4つのレベルを区別する。
論文 参考訳(メタデータ) (2024-11-17T02:35:30Z) - The Cadaver in the Machine: The Social Practices of Measurement and
Validation in Motion Capture Technology [1.1650821883155187]
身体の計測とモーションキャプチャシステムに対する測定の妥当性は,社会的な実践として理解することができると論じる。
これらのプラクティスが、時間の経過とともに、モーションキャプチャーデザインとイノベーションにどのように浸透していくかを示します。
我々は,データ・センサ駆動システムの開発において,測定・検証の社会的実践がどこにでもあることを示唆する。
論文 参考訳(メタデータ) (2024-01-19T18:41:53Z) - Towards Fair and Explainable AI using a Human-Centered AI Approach [5.888646114353372]
分類システムと単語埋め込みにおける説明可能性と公平性の向上を目的とした5つの研究プロジェクトについて述べる。
最初のプロジェクトは、ローカルモデル説明を機械教師のインタフェースとして導入するユーティリティ/ダウンサイドについて検討する。
第二のプロジェクトは、因果性に基づくヒューマン・イン・ザ・ループ視覚ツールであるD-BIASを紹介し、データセットの社会的バイアスを特定し緩和する。
第3のプロジェクトは、グループに対するバイアスに対するトレーニング済みの静的単語埋め込みの監査を支援する、ビジュアルインタラクティブツールであるWordBiasを提示する。
4番目のプロジェクトは、ソーシャルを識別するビジュアル分析ツールDramatVis Personae
論文 参考訳(メタデータ) (2023-06-12T21:08:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。