論文の概要: DOSA: A Dataset of Social Artifacts from Different Indian Geographical Subcultures
- arxiv url: http://arxiv.org/abs/2403.14651v1
- Date: Fri, 23 Feb 2024 20:10:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 03:52:54.824760
- Title: DOSA: A Dataset of Social Artifacts from Different Indian Geographical Subcultures
- Title(参考訳): DOSA:インドにおける異なる地理的サブカルチャーのソーシャルアーティファクトのデータセット
- Authors: Agrima Seth, Sanchit Ahuja, Kalika Bali, Sunayana Sitaram,
- Abstract要約: 生成モデルは、テキスト生成、コモンセンス推論、質問応答など、様々なアプリケーションでますます使われている。
グローバルに効果的にするためには、これらのモデルは地域社会文化の文脈を認識し、説明する必要がある。
私たちは、19の異なるインド地域サブカルチャーから260人の参加者を参加させることで、最初のコミュニティ生成の $textbfD$ataset $textbfo$f 615 $textbfS$ocial $textbfA$rtifacts を導入するために参加研究手法を使用します。
- 参考スコア(独自算出の注目度): 13.430332609906998
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative models are increasingly being used in various applications, such as text generation, commonsense reasoning, and question-answering. To be effective globally, these models must be aware of and account for local socio-cultural contexts, making it necessary to have benchmarks to evaluate the models for their cultural familiarity. Since the training data for LLMs is web-based and the Web is limited in its representation of information, it does not capture knowledge present within communities that are not on the Web. Thus, these models exacerbate the inequities, semantic misalignment, and stereotypes from the Web. There has been a growing call for community-centered participatory research methods in NLP. In this work, we respond to this call by using participatory research methods to introduce $\textit{DOSA}$, the first community-generated $\textbf{D}$ataset $\textbf{o}$f 615 $\textbf{S}$ocial $\textbf{A}$rtifacts, by engaging with 260 participants from 19 different Indian geographic subcultures. We use a gamified framework that relies on collective sensemaking to collect the names and descriptions of these artifacts such that the descriptions semantically align with the shared sensibilities of the individuals from those cultures. Next, we benchmark four popular LLMs and find that they show significant variation across regional sub-cultures in their ability to infer the artifacts.
- Abstract(参考訳): 生成モデルは、テキスト生成、コモンセンス推論、質問応答など、様々なアプリケーションでますます使われている。
グローバルに効果的にするためには、これらのモデルは地域社会文化の文脈を意識し、考慮しなければなりません。
LLM のトレーニングデータは Web ベースであり,Web は情報表現に制限があるため,Web 上にないコミュニティ内に存在する知識を捉えない。
したがって、これらのモデルはWebからの不等式、意味的ミスアライメント、ステレオタイプを悪化させる。
NLPでは,コミュニティ中心の参加型研究手法を求める声が高まっている。
本研究では,最初のコミュニティ生成である$\textbf{D}$ataset $\textbf{o}$f 615 $\textbf{S}$ocial $\textbf{A}$rtifactsを紹介し,19の異なるインディアンのサブカルチャーから260人の参加者を参加させることで,参加型研究手法を用いてこのコールに応答する。
我々は、これらの人工物の名前や記述を集合的な感覚に頼って収集するゲーミフィケーション・フレームワークを用いて、これらの文化の個人が共有する感覚と意味的に一致させる。
次に,4つの人気のあるLCMをベンチマークし,各地域のサブカルチャーにおいて,アーティファクトを推測する能力に有意な差異があることを見出した。
関連論文リスト
- Crossroads of Continents: Automated Artifact Extraction for Cultural Adaptation with Large Multimodal Models [22.92083941222383]
DALL-E 3によって生成され、人間によって検証される大規模なデータセットであるDalleStreetを紹介する。
我々は,オープンソース(LLaVA)とクローズドソース(GPT-4V)の両方のモデルを用いて,地理的サブリージョンレベルでの文化的理解の相違を見出した。
以上の結果から,LMMの文化的能力の微妙なイメージが浮かび上がっており,文化認識システムの開発の必要性が浮かび上がっている。
論文 参考訳(メタデータ) (2024-07-02T08:55:41Z) - CulturePark: Boosting Cross-cultural Understanding in Large Language Models [63.452948673344395]
本稿では,LLMを利用した文化データ収集のためのマルチエージェント通信フレームワークであるCultureParkを紹介する。
人間の信念、規範、習慣をカプセル化した高品質な異文化対話を生成する。
我々はこれらのモデルを,コンテンツモデレーション,文化的アライメント,文化教育という3つの下流課題にまたがって評価する。
論文 参考訳(メタデータ) (2024-05-24T01:49:02Z) - CIVICS: Building a Dataset for Examining Culturally-Informed Values in Large Language Models [59.22460740026037]
大規模言語モデル(LLM)の社会的・文化的変動を評価するためのデータセット「CIVICS:文化インフォームド・バリュース・インクルーシブ・コーパス・フォー・ソシエティ・インパクト」
我々は、LGBTQIの権利、社会福祉、移民、障害権利、代理など、特定の社会的に敏感なトピックに対処する、手作りの多言語プロンプトのデータセットを作成します。
論文 参考訳(メタデータ) (2024-05-22T20:19:10Z) - CULTURE-GEN: Revealing Global Cultural Perception in Language Models through Natural Language Prompting [73.94059188347582]
110か国・地域での3つのSOTAモデルの文化認識を,文化条件付き世代を通して8つの文化関連トピックについて明らかにした。
文化条件付き世代は、デフォルトの文化と区別される余分な文化を区別する言語的な「マーカー」から成り立っていることが判明した。
論文 参考訳(メタデータ) (2024-04-16T00:50:43Z) - Investigating Cultural Alignment of Large Language Models [10.738300803676655]
LLM(Large Language Models)は,異なる文化で採用されている多様な知識を真にカプセル化していることを示す。
社会学的調査をシミュレートし、実際の調査参加者のモデル応答を参考として、文化的アライメントの定量化を行う。
本稿では,人類学的推論を活用し,文化的アライメントを高める新しい手法である人類学的プロンプティングを紹介する。
論文 参考訳(メタデータ) (2024-02-20T18:47:28Z) - Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking [48.21982147529661]
本稿では,多文化知識獲得のための新しいアプローチを提案する。
本手法は,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。
私たちの仕事は、AIにおける文化的格差のギャップを深く理解し、橋渡しするための重要なステップです。
論文 参考訳(メタデータ) (2024-02-14T18:16:54Z) - From Pampas to Pixels: Fine-Tuning Diffusion Models for Ga\'ucho
Heritage [0.0]
本稿では, 地域文化概念, 歴史人物, 絶滅危惧種の表現における潜在拡散モデル (LDM) の可能性について考察する。
我々の目標は、生産モデルが地域の文化的・歴史的アイデンティティを捉え保存するのにどう役立つか、より広い理解に貢献することである。
論文 参考訳(メタデータ) (2024-01-10T19:34:52Z) - Not All Countries Celebrate Thanksgiving: On the Cultural Dominance in
Large Language Models [89.94270049334479]
本稿では,大規模言語モデル(LLM)における文化的優位性について述べる。
LLMは、ユーザーが非英語で尋ねるときに期待する文化とは無関係な、不適切な英語文化関連の回答を提供することが多い。
論文 参考訳(メタデータ) (2023-10-19T05:38:23Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - Probing Pre-Trained Language Models for Cross-Cultural Differences in
Values [42.45033681054207]
我々は、事前学習言語モデルにどの文化にわたってどの価値が埋め込まれているかを調査するためにプローブを導入する。
PTLMは文化全体における価値の差異を捉えているが、確立した価値調査と弱く一致しているだけである。
論文 参考訳(メタデータ) (2022-03-25T15:45:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。