論文の概要: Culture Affordance Atlas: Reconciling Object Diversity Through Functional Mapping
- arxiv url: http://arxiv.org/abs/2512.03173v1
- Date: Tue, 02 Dec 2025 19:16:39 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:13:30.817572
- Title: Culture Affordance Atlas: Reconciling Object Diversity Through Functional Mapping
- Title(参考訳): Culture Affordance Atlas: 機能マッピングによるオブジェクトの多様性の再構築
- Authors: Joan Nwatu, Longju Bai, Oana Ignat, Rada Mihalcea,
- Abstract要約: VL(Vision-Language)データセットは、文化的な偏見を示し、高い所得、西洋の文脈を不均等に好んでいる。
本稿では, 多様な文化的・経済的文脈にまたがって, 対象物が果たす機能によって分類する, 機能中心の枠組みを提案する。
- 参考スコア(独自算出の注目度): 38.345727498425
- License:
- Abstract: Culture shapes the objects people use and for what purposes, yet mainstream Vision-Language (VL) datasets frequently exhibit cultural biases, disproportionately favoring higher-income, Western contexts. This imbalance reduces model generalizability and perpetuates performance disparities, especially impacting lower-income and non-Western communities. To address these disparities, we propose a novel function-centric framework that categorizes objects by the functions they fulfill, across diverse cultural and economic contexts. We implement this framework by creating the Culture Affordance Atlas, a re-annotated and culturally grounded restructuring of the Dollar Street dataset spanning 46 functions and 288 objects publicly available at https://lit.eecs.umich.edu/CultureAffordance-Atlas/index.html. Through extensive empirical analyses using the CLIP model, we demonstrate that function-centric labels substantially reduce socioeconomic performance gaps between high- and low-income groups by a median of 6 pp (statistically significant), improving model effectiveness for lower-income contexts. Furthermore, our analyses reveals numerous culturally essential objects that are frequently overlooked in prominent VL datasets. Our contributions offer a scalable pathway toward building inclusive VL datasets and equitable AI systems.
- Abstract(参考訳): 文化は人々が使用するオブジェクトや目的を形作るが、主流のVision-Language(VL)データセットは文化的なバイアスを頻繁に示し、高所得の西洋的文脈を不当に好んでいる。
この不均衡はモデルの一般化性を低下させ、特に低所得社会と非西洋社会に影響を及ぼすパフォーマンス格差を持続させる。
これらの格差に対処するために, 多様な文化的, 経済的な文脈において, 対象を果たす機能によって分類する, 機能中心の枠組みを提案する。
46の関数と288のオブジェクトが公開され、https://lit.eecs.umich.edu/CultureAffordance-Atlas/index.htmlで公開されている。
CLIPモデルを用いた広範な実証分析により,高所得層と低所得層の間の社会経済的パフォーマンスギャップを6pp(統計的に有意)で大幅に低減し,低所得層におけるモデルの有効性を向上することを示した。
さらに,本研究では,著名なVLデータセットでしばしば見落とされがちな,文化的に不可欠な対象を多数明らかにした。
私たちのコントリビューションは、包括的VLデータセットと同等のAIシステムを構築するためのスケーラブルなパスを提供します。
関連論文リスト
- From Surveys to Narratives: Rethinking Cultural Value Adaptation in LLMs [62.9861554207279]
LLM(Large Language Models)における文化的価値の適応は大きな課題である。
これまでの作業は主に、World Values Survey (WVS)データを使用して、LLMをさまざまな文化的価値と整合させる。
我々は,文化価値適応のためのWVSベースのトレーニングについて検討し,調査データのみに頼って文化規範を実践し,事実知識に干渉することを発見した。
論文 参考訳(メタデータ) (2025-05-22T09:00:01Z) - CAReDiO: Cultural Alignment of LLM via Representativeness and Distinctiveness Guided Data Optimization [50.90288681622152]
大規模言語モデル(LLM)は、より深く様々な地域における人間の生活に統合される。
既存のアプローチは、文化固有のコーパスを微調整することで、文化的に整合したLCMを開発する。
本稿では,新しい文化データ構築フレームワークであるCAReDiOを紹介する。
論文 参考訳(メタデータ) (2025-04-09T13:40:13Z) - Cultural Learning-Based Culture Adaptation of Language Models [70.1063219524999]
大きな言語モデル(LLM)をさまざまな文化的価値に適用することは難しい課題です。
文化的学習に基づくLLMと文化的価値との整合性を高めるための新しい枠組みであるCLCAについて述べる。
論文 参考訳(メタデータ) (2025-04-03T18:16:26Z) - CultureVLM: Characterizing and Improving Cultural Understanding of Vision-Language Models for over 100 Countries [63.00147630084146]
視覚言語モデル(VLM)は高度な人間とAIの相互作用を持つが、文化的な理解に苦慮している。
CultureVerseは大規模なマルチモーダルベンチマークで、682の文化的概念、188の国/地域、15の文化的概念、3の質問タイプをカバーしている。
本稿では,文化理解の大幅な向上を実現するために,我々のデータセットを微調整したVLMのシリーズであるCultureVLMを提案する。
論文 参考訳(メタデータ) (2025-01-02T14:42:37Z) - ValuesRAG: Enhancing Cultural Alignment Through Retrieval-Augmented Contextual Learning [1.1343849658875087]
ValuesRAGは、テキスト生成中に文化的および人口統計学的知識を動的に統合する新しいフレームワークである。
本研究では,6つの地域データセットを用いてValuesRAGを評価し,ベースラインを一貫して上回ることを示す。
本研究は,グローバルLLM能力と局所文化的価値のギャップを埋める動的検索手法の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2025-01-02T03:26:13Z) - Uplifting Lower-Income Data: Strategies for Socioeconomic Perspective Shifts in Large Multi-modal Models [28.3552578648979]
非英語・地理的・社会経済的属性を用いたいくつかのプロンプト戦略を提案し,評価する。
これらの地理的・社会経済的統合的なプロンプトは、各国の低所得世帯のデータからよく見られる話題の出現を回収することを好んでいる。
論文 参考訳(メタデータ) (2024-07-02T19:27:00Z) - No Filter: Cultural and Socioeconomic Diversity in Contrastive Vision-Language Models [38.932610459192105]
コントラッシブ・ビジョン言語モデル(VLM)における文化的・社会経済的多様性の研究
我々の研究は、より包括的なマルチモーダルシステムを構築するために、多様なデータを使うことの価値を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-05-22T16:04:22Z) - One-Shot Open Affordance Learning with Foundation Models [54.15857111929812]
私たちは、モデルがベースオブジェクトカテゴリ毎に1つの例でトレーニングされる、ワンショットのオープンアフォーダンスラーニング(OOAL)を紹介します。
本稿では,視覚的特徴と手頃なテキスト埋め込みとの整合性を高める,シンプルで効果的な設計の視覚言語フレームワークを提案する。
2つのアベイランスセグメンテーションのベンチマーク実験により、提案手法はトレーニングデータの1%未満で最先端のモデルより優れていることが示された。
論文 参考訳(メタデータ) (2023-11-29T16:23:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。