論文の概要: AI and Cultural Context: An Empirical Investigation of Large Language Models' Performance on Chinese Social Work Professional Standards
- arxiv url: http://arxiv.org/abs/2412.14971v1
- Date: Thu, 19 Dec 2024 15:48:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:32:42.042660
- Title: AI and Cultural Context: An Empirical Investigation of Large Language Models' Performance on Chinese Social Work Professional Standards
- Title(参考訳): AIと文化文脈:中国社会労働基準における大規模言語モデルの性能に関する実証的研究
- Authors: Zia Qi, Brian E. Perron, Miao Wang, Cao Fang, Sitao Chen, Bryan G. Victor,
- Abstract要約: 本研究は、中国と西欧の大規模言語モデルがどのように中国社会労働の原則を理解し、適用するかを考察する。
発展途上国の文化的文脈がモデル推論と精度に影響を及ぼすかどうかを検証する。
- 参考スコア(独自算出の注目度): 2.0275382001913487
- License:
- Abstract: Objective: This study examines how well leading Chinese and Western large language models understand and apply Chinese social work principles, focusing on their foundational knowledge within a non-Western professional setting. We test whether the cultural context in the developing country influences model reasoning and accuracy. Method: Using a published self-study version of the Chinese National Social Work Examination (160 questions) covering jurisprudence and applied knowledge, we administered three testing conditions to eight cloud-based large language models - four Chinese and four Western. We examined their responses following official guidelines and evaluated their explanations' reasoning quality. Results: Seven models exceeded the 60-point passing threshold in both sections. Chinese models performed better in jurisprudence (median = 77.0 vs. 70.3) but slightly lower in applied knowledge (median = 65.5 vs. 67.0). Both groups showed cultural biases, particularly regarding gender equality and family dynamics. Models demonstrated strong professional terminology knowledge but struggled with culturally specific interventions. Valid reasoning in incorrect answers ranged from 16.4% to 45.0%. Conclusions: While both Chinese and Western models show foundational knowledge of Chinese social work principles, technical language proficiency does not ensure cultural competence. Chinese models demonstrate advantages in regulatory content, yet both Chinese and Western models struggle with culturally nuanced practice scenarios. These findings contribute to informing responsible AI integration into cross-cultural social work practice.
- Abstract(参考訳): 目的: 本研究は,中国・西欧の大規模言語モデルが中国社会労働の原則をいかによく理解し,適用しているかを,非西欧の専門分野における基礎知識に焦点をあてて検討する。
発展途上国の文化的文脈がモデル推論と精度に影響を及ぼすかどうかを検証する。
方法:中国国家社会労働試験(160質問)の自己学習版を用いて,3つの試験条件をクラウドベース大規模言語モデル(4つの中国語と4つの西洋語)に適用した。
公式ガイドラインに従って回答を検証し,説明の質を評価した。
結果: 両区間の60点通過閾値を7モデルが上回った。
中国のモデルでは、法学(中級 = 77.0 vs. 70.3)では性能が向上したが、応用知識(中級 = 65.5 vs. 67.0)では若干低下した。
どちらのグループも文化的偏見を示しており、特に男女平等と家族の動態についてであった。
モデルは強力な専門用語の知識を示したが、文化的に特定の介入に苦しんだ。
正解の正解率は16.4%から45.0%であった。
結論:中国と西洋の両方のモデルが中国の社会労働原理の基礎知識を示しているが、技術言語能力は文化的な能力を保証するものではない。
中国モデルは規制内容の利点を示しているが、中国と西洋のモデルは文化的に曖昧な実践シナリオに苦慮している。
これらの知見は、文化横断的なソーシャルワークの実践に責任あるAI統合を知らせることに寄与する。
関連論文リスト
- CulturalBench: a Robust, Diverse and Challenging Benchmark on Measuring the (Lack of) Cultural Knowledge of LLMs [75.82306181299153]
文化ベンチについて紹介する: 文化的知識を評価するための1,227の人文的・人文的な質問である。
同じ質問を共有しながら異なる質問をするCulturalBench-EasyとCulturalBench-Hardの2つの設定でモデルを評価する。
人間のパフォーマンス(92.6%の精度)と比較して、カルチャーベンチ・ハードは、最もパフォーマンスの良いモデル(GPT-4o)が61.5%、最悪のモデル(Llama3-8b)が21.4%であるフロンティアのLLMにとってより難しい。
論文 参考訳(メタデータ) (2024-10-03T17:04:31Z) - Edu-Values: Towards Evaluating the Chinese Education Values of Large Language Models [9.761584874383873]
大規模言語モデルのアライメント能力を測定するために設計された,中国初の教育価値評価ベンチマークであるEdu-Valuesを提案する。
我々は,複数の選択,多モーダルな質問応答,主観的分析,敵対的プロンプト,伝統的な中国文化に関する質問など,1,418の質問を慎重に設計・コンパイルする。
教育文化の相違により、中国語のLLMは英語のLLMを大きく上回り、Qwen 2は81.37でランクインした。
論文 参考訳(メタデータ) (2024-09-19T13:02:54Z) - Methodology of Adapting Large English Language Models for Specific Cultural Contexts [10.151487049108626]
本稿では,特定の文化的文脈における大規模モデルの迅速な適応手法を提案する。
適応LLMは、ドメイン固有の知識と安全性値への適応性において、その能力を著しく向上させる。
論文 参考訳(メタデータ) (2024-06-26T09:16:08Z) - Extrinsic Evaluation of Cultural Competence in Large Language Models [53.626808086522985]
本稿では,2つのテキスト生成タスクにおける文化能力の評価に焦点をあてる。
我々は,文化,特に国籍の明示的なキューが,そのプロンプトに乱入している場合のモデル出力を評価する。
異なる国におけるアウトプットのテキスト類似性とこれらの国の文化的価値との間には弱い相関関係がある。
論文 参考訳(メタデータ) (2024-06-17T14:03:27Z) - CulturePark: Boosting Cross-cultural Understanding in Large Language Models [63.452948673344395]
本稿では,LLMを利用した文化データ収集のためのマルチエージェント通信フレームワークであるCultureParkを紹介する。
人間の信念、規範、習慣をカプセル化した高品質な異文化対話を生成する。
我々はこれらのモデルを,コンテンツモデレーション,文化的アライメント,文化教育という3つの下流課題にまたがって評価する。
論文 参考訳(メタデータ) (2024-05-24T01:49:02Z) - Understanding the Capabilities and Limitations of Large Language Models for Cultural Commonsense [98.09670425244462]
大規模言語モデル(LLM)は、かなりの常識的理解を示している。
本稿では,文化的コモンセンスタスクの文脈におけるいくつかの最先端LCMの能力と限界について検討する。
論文 参考訳(メタデータ) (2024-05-07T20:28:34Z) - What You Use is What You Get: Unforced Errors in Studying Cultural Aspects in Agile Software Development [2.9418191027447906]
文化的特徴の影響を調べることは、多面的な文化概念のために困難である。
文化的・社会的側面は、実際にの使用が成功する上で非常に重要である。
論文 参考訳(メタデータ) (2024-04-25T20:08:37Z) - Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking [48.21982147529661]
本稿では,多文化知識獲得のための新しいアプローチを提案する。
本手法は,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。
私たちの仕事は、AIにおける文化的格差のギャップを深く理解し、橋渡しするための重要なステップです。
論文 参考訳(メタデータ) (2024-02-14T18:16:54Z) - Not All Countries Celebrate Thanksgiving: On the Cultural Dominance in
Large Language Models [89.94270049334479]
本稿では,大規模言語モデル(LLM)における文化的優位性について述べる。
LLMは、ユーザーが非英語で尋ねるときに期待する文化とは無関係な、不適切な英語文化関連の回答を提供することが多い。
論文 参考訳(メタデータ) (2023-10-19T05:38:23Z) - Cultural Alignment in Large Language Models: An Explanatory Analysis Based on Hofstede's Cultural Dimensions [10.415002561977655]
本研究は,ホフステデの文化次元の枠組みを用いて文化的アライメントを定量化する文化アライメントテスト (Hoftede's CAT) を提案する。
我々は、米国、中国、アラブ諸国といった地域の文化的側面に対して、大規模言語モデル(LLM)を定量的に評価する。
その結果, LLMの文化的アライメントを定量化し, 説明的文化的次元におけるLCMの差異を明らかにすることができた。
論文 参考訳(メタデータ) (2023-08-25T14:50:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。