Fugu-MT 論文翻訳(概要): Extrinsic Evaluation of Cultural Competence in Large Language Models

論文の概要: Extrinsic Evaluation of Cultural Competence in Large Language Models

arxiv url: http://arxiv.org/abs/2406.11565v3
Date: Thu, 03 Oct 2024 19:28:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 12:36:02.082537
Title: Extrinsic Evaluation of Cultural Competence in Large Language Models
Title（参考訳）: 大規模言語モデルにおける文化能力の極端評価
Authors: Shaily Bhatt, Fernando Diaz,
Abstract要約: 本稿では,2つのテキスト生成タスクにおける文化能力の評価に焦点をあてる。我々は,文化,特に国籍の明示的なキューが,そのプロンプトに乱入している場合のモデル出力を評価する。異なる国におけるアウトプットのテキスト類似性とこれらの国の文化的価値との間には弱い相関関係がある。
参考スコア（独自算出の注目度）: 53.626808086522985
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Productive interactions between diverse users and language technologies require outputs from the latter to be culturally relevant and sensitive. Prior works have evaluated models' knowledge of cultural norms, values, and artifacts, without considering how this knowledge manifests in downstream applications. In this work, we focus on extrinsic evaluation of cultural competence in two text generation tasks, open-ended question answering and story generation. We quantitatively and qualitatively evaluate model outputs when an explicit cue of culture, specifically nationality, is perturbed in the prompts. Although we find that model outputs do vary when varying nationalities and feature culturally relevant words, we also find weak correlations between text similarity of outputs for different countries and the cultural values of these countries. Finally, we discuss important considerations in designing comprehensive evaluation of cultural competence in user-facing tasks.
Abstract（参考訳）: 多様なユーザと言語技術の間の生産的な相互作用は、文化的に関連性があり、センシティブな出力を必要とする。先行研究は、この知識が下流のアプリケーションにどのように現れるかを考えることなく、モデルによる文化的規範、価値観、アーティファクトに関する知識を評価してきた。本研究では,2つのテキスト生成タスク,オープンエンド質問応答とストーリー生成における文化能力の非本質的な評価に焦点をあてる。我々は,文化,特に国籍の明示的なキューが,そのプロンプトに乱入している場合に,モデル出力を定量的に質的に評価する。諸民族の多様さや文化的に関係のある言葉が特徴的である場合, モデル出力は異なるが, 異なる国におけるアウトプットのテキスト類似性と, それらの国の文化的価値との間には弱い相関関係があることが判明した。最後に,ユーザ向けタスクにおける文化的能力の包括的評価を設計する上で重要な課題について論じる。

関連論文リスト

MCEval: A Dynamic Framework for Fair Multilingual Cultural Evaluation of LLMs [25.128936333806678]
大規模な言語モデルは、文化的バイアスと限定的な文化的理解能力を示す。動的文化的質問構築を用いた多言語評価フレームワークであるMCEvalを提案する。
論文参考訳（メタデータ） (2025-07-13T16:24:35Z)
CulFiT: A Fine-grained Cultural-aware LLM Training Paradigm via Multilingual Critique Data Synthesis [41.261808170896686]
CulFiTは、多言語データと微粒な報酬モデリングを利用して、文化的感受性と傾きを高める新しいトレーニングパラダイムである。本手法は,文化関連諸質問を合成し,文化関連言語における批判データを構築し,文化文献を検証可能な知識単位に分解するために,きめ細かい報酬を用いる。
論文参考訳（メタデータ） (2025-05-26T04:08:26Z)
From Surveys to Narratives: Rethinking Cultural Value Adaptation in LLMs [57.43233760384488]
LLM(Large Language Models)における文化的価値の適応は大きな課題である。これまでの作業は主に、World Values Survey (WVS)データを使用して、LLMをさまざまな文化的価値と整合させる。本稿では,文化価値適応のためのWVSベースのトレーニングについて検討し,調査データのみに頼って文化規範を把握し,事実知識に干渉することを見出した。
論文参考訳（メタデータ） (2025-05-22T09:00:01Z)
CAReDiO: Cultural Alignment of LLM via Representativeness and Distinctiveness Guided Data Optimization [50.90288681622152]
大規模言語モデル(LLM)は、より深く様々な地域における人間の生活に統合される。既存のアプローチは、文化固有のコーパスを微調整することで、文化的に整合したLCMを開発する。本稿では,新しい文化データ構築フレームワークであるCAReDiOを紹介する。
論文参考訳（メタデータ） (2025-04-09T13:40:13Z)
CultureVLM: Characterizing and Improving Cultural Understanding of Vision-Language Models for over 100 Countries [63.00147630084146]
視覚言語モデル(VLM)は高度な人間とAIの相互作用を持つが、文化的な理解に苦慮している。 CultureVerseは大規模なマルチモーダルベンチマークで、682の文化的概念、188の国/地域、15の文化的概念、3の質問タイプをカバーしている。本稿では,文化理解の大幅な向上を実現するために,我々のデータセットを微調整したVLMのシリーズであるCultureVLMを提案する。
論文参考訳（メタデータ） (2025-01-02T14:42:37Z)
Risks of Cultural Erasure in Large Language Models [4.613949381428196]
我々は,歴史的権力不平等を疑問視し,考慮する言語技術の量化可能な評価の必要性を論じる。我々は、言語モデルがこれらの文脈を記述するよう依頼されたとき、世界中の様々な場所で生成する表現を探索する。言語モデルアプリケーションを用いて,旅行レコメンデーションに表される文化を分析した。
論文参考訳（メタデータ） (2025-01-02T04:57:50Z)
KULTURE Bench: A Benchmark for Assessing Language Model in Korean Cultural Context [5.693660906643207]
韓国文化に特化して設計された評価フレームワークであるKULTURE Benchを紹介する。言語モデルの文化的理解と、単語、文、段落レベルでの推論能力を評価するように設計されている。その結果,韓国文化のより深い側面に関連する文章の理解は,依然として改善の余地があることが示唆された。
論文参考訳（メタデータ） (2024-12-10T07:20:51Z)
CROPE: Evaluating In-Context Adaptation of Vision and Language Models to Culture-Specific Concepts [45.77570690529597]
文化固有の概念の知識を探索するための視覚的質問応答ベンチマークであるCROPEを紹介する。いくつかの最先端のオープンビジョンと言語モデルの評価は、文化固有の概念と共通の概念の相違が大きいことを示す。文脈知識を用いた実験は、モデルがマルチモーダル情報を効果的に活用し、文化固有の概念を描写に結びつけるのに苦労していることを示している。
論文参考訳（メタデータ） (2024-10-20T17:31:19Z)
CulturePark: Boosting Cross-cultural Understanding in Large Language Models [63.452948673344395]
本稿では,LLMを利用した文化データ収集のためのマルチエージェント通信フレームワークであるCultureParkを紹介する。人間の信念、規範、習慣をカプセル化した高品質な異文化対話を生成する。我々はこれらのモデルを,コンテンツモデレーション,文化的アライメント,文化教育という3つの下流課題にまたがって評価する。
論文参考訳（メタデータ） (2024-05-24T01:49:02Z)
CIVICS: Building a Dataset for Examining Culturally-Informed Values in Large Language Models [59.22460740026037]
大規模言語モデル(LLM)の社会的・文化的変動を評価するためのデータセット「CIVICS:文化インフォームド・バリュース・インクルーシブ・コーパス・フォー・ソシエティ・インパクト」我々は、LGBTQIの権利、社会福祉、移民、障害権利、代理など、特定の社会的に敏感なトピックに対処する、手作りの多言語プロンプトのデータセットを作成します。
論文参考訳（メタデータ） (2024-05-22T20:19:10Z)
What You Use is What You Get: Unforced Errors in Studying Cultural Aspects in Agile Software Development [2.9418191027447906]
文化的特徴の影響を調べることは、多面的な文化概念のために困難である。文化的・社会的側面は、実際にの使用が成功する上で非常に重要である。
論文参考訳（メタデータ） (2024-04-25T20:08:37Z)
Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking [48.21982147529661]
本稿では,多文化知識獲得のための新しいアプローチを提案する。本手法は,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。私たちの仕事は、AIにおける文化的格差のギャップを深く理解し、橋渡しするための重要なステップです。
論文参考訳（メタデータ） (2024-02-14T18:16:54Z)
Not All Countries Celebrate Thanksgiving: On the Cultural Dominance in Large Language Models [89.94270049334479]
本稿では,大規模言語モデル(LLM)における文化的優位性について述べる。 LLMは、ユーザーが非英語で尋ねるときに期待する文化とは無関係な、不適切な英語文化関連の回答を提供することが多い。
論文参考訳（メタデータ） (2023-10-19T05:38:23Z)
Cultural Alignment in Large Language Models: An Explanatory Analysis Based on Hofstede's Cultural Dimensions [10.415002561977655]
本研究は,ホフステデの文化次元の枠組みを用いて文化的アライメントを定量化する文化アライメントテスト (Hoftede's CAT) を提案する。我々は、米国、中国、アラブ諸国といった地域の文化的側面に対して、大規模言語モデル(LLM)を定量的に評価する。その結果, LLMの文化的アライメントを定量化し, 説明的文化的次元におけるLCMの差異を明らかにすることができた。
論文参考訳（メタデータ） (2023-08-25T14:50:13Z)
Assessing Cross-Cultural Alignment between ChatGPT and Human Societies: An Empirical Study [9.919972416590124]
ChatGPTは、対話で人間のような反応を生成できるという異常な能力で広く認知されている。そこで我々は,ChatGPTの文化的背景を,人間の文化的差異を定量化するための質問に対する応答の分析によって検討した。
論文参考訳（メタデータ） (2023-03-30T15:43:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。