Fugu-MT 論文翻訳(概要): Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking

論文の概要: Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking

arxiv url: http://arxiv.org/abs/2402.09369v1
Date: Wed, 14 Feb 2024 18:16:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-15 14:10:04.264011
Title: Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking
Title（参考訳）: 多文化的知識獲得とlmベンチマーク
Authors: Yi Fung, Ruining Zhao, Jae Doo, Chenkai Sun, Heng Ji
Abstract要約: 本稿では,多文化知識獲得のための新しいアプローチを提案する。本手法は,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。私たちの仕事は、AIにおける文化的格差のギャップを深く理解し、橋渡しするための重要なステップです。
参考スコア（独自算出の注目度）: 48.21982147529661
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Pretrained large language models have revolutionized many applications but still face challenges related to cultural bias and a lack of cultural commonsense knowledge crucial for guiding cross-culture communication and interactions. Recognizing the shortcomings of existing methods in capturing the diverse and rich cultures across the world, this paper introduces a novel approach for massively multicultural knowledge acquisition. Specifically, our method strategically navigates from densely informative Wikipedia documents on cultural topics to an extensive network of linked pages. Leveraging this valuable source of data collection, we construct the CultureAtlas dataset, which covers a wide range of sub-country level geographical regions and ethnolinguistic groups, with data cleaning and preprocessing to ensure textual assertion sentence self-containment, as well as fine-grained cultural profile information extraction. Our dataset not only facilitates the evaluation of language model performance in culturally diverse contexts but also serves as a foundational tool for the development of culturally sensitive and aware language models. Our work marks an important step towards deeper understanding and bridging the gaps of cultural disparities in AI, to promote a more inclusive and balanced representation of global cultures in the digital domain.
Abstract（参考訳）: 事前訓練された大きな言語モデルは、多くの応用に革命をもたらしたが、文化的な偏見と文化的なコモンセンス知識の欠如が、異文化間のコミュニケーションと相互作用を導く上で重要な課題に直面している。世界中の多様で豊かな文化をとらえる既存の手法の欠点を認識し,多文化的知識獲得のための新たなアプローチを提案する。具体的には,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。この貴重なデータ収集の源泉を活用し、広範にわたる地域レベルの地理的地域と民族言語学グループをカバーするc cultureatlasデータセットを構築し、テキストによるアサーション文の自己完結を確実にするためのデータクリーニングと前処理を行い、文化的なプロファイル情報抽出を行う。私たちのデータセットは、文化的に多様なコンテキストにおける言語モデルのパフォーマンスの評価を促進するだけでなく、文化的にセンシティブな言語モデルの開発のための基礎的なツールとしても機能します。我々の研究は、デジタルドメインにおけるグローバル文化のより包括的でバランスのとれた表現を促進するために、AIにおける文化格差のギャップを深く理解し、ブリッジする重要なステップである。

関連論文リスト

LLMs as Cultural Archives: Cultural Commonsense Knowledge Graph Extraction [57.23766971626989]
大規模言語モデル(LLM)は、多様なWebスケールデータから学んだ豊富な文化的知識を符号化する。文化常識知識グラフ(CCKG)構築のための反復的,即時的枠組みを提案する。対象文化が英語ではない場合でも、文化知識グラフは英語でよりよく認識されている。
論文参考訳（メタデータ） (2026-01-25T20:05:04Z)
CultureScope: A Dimensional Lens for Probing Cultural Understanding in LLMs [57.653830744706305]
CultureScopeは、大規模な言語モデルにおける文化的理解を評価するための、これまでで最も包括的な評価フレームワークである。文化的な氷山理論に触発されて、文化知識分類のための新しい次元スキーマを設計する。実験結果から,文化的理解を効果的に評価できることが示唆された。
論文参考訳（メタデータ） (2025-09-19T17:47:48Z)
Grounding Multilingual Multimodal LLMs With Cultural Knowledge [48.95126394270723]
本稿では,MLLMを文化的知識に根ざしたデータ中心型アプローチを提案する。 CulturalGroundは、42の国と39の言語にまたがる2200万の高品質で文化的に豊かなVQAペアで構成されている。我々は,MLLM CulturalPangeaをCulturalGround上で学習し,汎用性を維持するために,標準の多言語指導訓練データをインターリーブする。
論文参考訳（メタデータ） (2025-08-10T16:24:11Z)
MAKIEval: A Multilingual Automatic WiKidata-based Framework for Cultural Awareness Evaluation for LLMs [26.806566827956875]
MAKIEvalは、大規模言語モデルにおける文化的認識を評価するための自動多言語フレームワークである。モデル出力における文化的実体を自動的に識別し、構造化された知識にリンクする。オープンソースのシステムとプロプライエタリシステムの両方を対象とする,世界のさまざまな場所で開発された7つのLLMを評価した。
論文参考訳（メタデータ） (2025-05-27T19:29:40Z)
CulFiT: A Fine-grained Cultural-aware LLM Training Paradigm via Multilingual Critique Data Synthesis [41.261808170896686]
CulFiTは、多言語データと微粒な報酬モデリングを利用して、文化的感受性と傾きを高める新しいトレーニングパラダイムである。本手法は,文化関連諸質問を合成し,文化関連言語における批判データを構築し,文化文献を検証可能な知識単位に分解するために,きめ細かい報酬を用いる。
論文参考訳（メタデータ） (2025-05-26T04:08:26Z)
From Surveys to Narratives: Rethinking Cultural Value Adaptation in LLMs [57.43233760384488]
LLM(Large Language Models)における文化的価値の適応は大きな課題である。これまでの作業は主に、World Values Survey (WVS)データを使用して、LLMをさまざまな文化的価値と整合させる。本稿では,文化価値適応のためのWVSベースのトレーニングについて検討し,調査データのみに頼って文化規範を把握し,事実知識に干渉することを見出した。
論文参考訳（メタデータ） (2025-05-22T09:00:01Z)
CAReDiO: Cultural Alignment of LLM via Representativeness and Distinctiveness Guided Data Optimization [50.90288681622152]
大規模言語モデル(LLM)は、より深く様々な地域における人間の生活に統合される。既存のアプローチは、文化固有のコーパスを微調整することで、文化的に整合したLCMを開発する。本稿では,新しい文化データ構築フレームワークであるCAReDiOを紹介する。
論文参考訳（メタデータ） (2025-04-09T13:40:13Z)
CARE: Aligning Language Models for Regional Cultural Awareness [28.676469530858924]
既存の言語モデル(LM)はしばしば西洋中心のバイアスを示し、多様な文化的知識を表現するのに苦労する。これに対処する以前の試みは、合成データに頼り、文化的な知識を英語でのみ表現するものだった。まず、中国文化とアラブ文化に関する2,580の質問に対して、人選好による24.1k応答の多言語リソースであるCAREを紹介した。
論文参考訳（メタデータ） (2025-04-07T14:57:06Z)
CultureVLM: Characterizing and Improving Cultural Understanding of Vision-Language Models for over 100 Countries [63.00147630084146]
視覚言語モデル(VLM)は高度な人間とAIの相互作用を持つが、文化的な理解に苦慮している。 CultureVerseは大規模なマルチモーダルベンチマークで、682の文化的概念、188の国/地域、15の文化的概念、3の質問タイプをカバーしている。本稿では,文化理解の大幅な向上を実現するために,我々のデータセットを微調整したVLMのシリーズであるCultureVLMを提案する。
論文参考訳（メタデータ） (2025-01-02T14:42:37Z)
Risks of Cultural Erasure in Large Language Models [4.613949381428196]
我々は,歴史的権力不平等を疑問視し,考慮する言語技術の量化可能な評価の必要性を論じる。我々は、言語モデルがこれらの文脈を記述するよう依頼されたとき、世界中の様々な場所で生成する表現を探索する。言語モデルアプリケーションを用いて,旅行レコメンデーションに表される文化を分析した。
論文参考訳（メタデータ） (2025-01-02T04:57:50Z)
Navigating the Cultural Kaleidoscope: A Hitchhiker's Guide to Sensitivity in Large Language Models [4.771099208181585]
LLMはますますグローバルなアプリケーションにデプロイされ、さまざまなバックグラウンドを持つユーザが尊敬され、理解されることが保証される。文化的な害は、これらのモデルが特定の文化的規範と一致しないときに起こり、文化的な価値観の誤った表現や違反をもたらす。潜在的な文化的不感を露呈するシナリオを通じて、異なる文化的文脈におけるモデルアウトプットを評価するために作成された文化的調和テストデータセットと、多様なアノテータからのフィードバックに基づいた微調整による文化的感受性の回復を目的とした、文化的に整合した選好データセットである。
論文参考訳（メタデータ） (2024-10-15T18:13:10Z)
Extrinsic Evaluation of Cultural Competence in Large Language Models [53.626808086522985]
本稿では,2つのテキスト生成タスクにおける文化能力の評価に焦点をあてる。我々は,文化,特に国籍の明示的なキューが,そのプロンプトに乱入している場合のモデル出力を評価する。異なる国におけるアウトプットのテキスト類似性とこれらの国の文化的価値との間には弱い相関関係がある。
論文参考訳（メタデータ） (2024-06-17T14:03:27Z)
CulturePark: Boosting Cross-cultural Understanding in Large Language Models [63.452948673344395]
本稿では,LLMを利用した文化データ収集のためのマルチエージェント通信フレームワークであるCultureParkを紹介する。人間の信念、規範、習慣をカプセル化した高品質な異文化対話を生成する。我々はこれらのモデルを,コンテンツモデレーション,文化的アライメント,文化教育という3つの下流課題にまたがって評価する。
論文参考訳（メタデータ） (2024-05-24T01:49:02Z)
CIVICS: Building a Dataset for Examining Culturally-Informed Values in Large Language Models [59.22460740026037]
大規模言語モデル(LLM)の社会的・文化的変動を評価するためのデータセット「CIVICS:文化インフォームド・バリュース・インクルーシブ・コーパス・フォー・ソシエティ・インパクト」我々は、LGBTQIの権利、社会福祉、移民、障害権利、代理など、特定の社会的に敏感なトピックに対処する、手作りの多言語プロンプトのデータセットを作成します。
論文参考訳（メタデータ） (2024-05-22T20:19:10Z)
CULTURE-GEN: Revealing Global Cultural Perception in Language Models through Natural Language Prompting [73.94059188347582]
110か国・地域での3つのSOTAモデルの文化認識を,文化条件付き世代を通して8つの文化関連トピックについて明らかにした。文化条件付き世代は、デフォルトの文化と区別される余分な文化を区別する言語的な「マーカー」から成り立っていることが判明した。
論文参考訳（メタデータ） (2024-04-16T00:50:43Z)
Does Mapo Tofu Contain Coffee? Probing LLMs for Food-related Cultural Knowledge [47.57055368312541]
FmLAMA(FmLAMA)は、食品関連の文化的事実と食実践のバリエーションに着目した多言語データセットである。我々は,LLMを様々なアーキテクチャや構成にわたって分析し,その性能を単言語と多言語の両方で評価する。
論文参考訳（メタデータ） (2024-04-10T08:49:27Z)
Investigating Cultural Alignment of Large Language Models [10.738300803676655]
LLM(Large Language Models)は,異なる文化で採用されている多様な知識を真にカプセル化していることを示す。社会学的調査をシミュレートし、実際の調査参加者のモデル応答を参考として、文化的アライメントの定量化を行う。本稿では,人類学的推論を活用し,文化的アライメントを高める新しい手法である人類学的プロンプティングを紹介する。
論文参考訳（メタデータ） (2024-02-20T18:47:28Z)
Enhancing Content Moderation with Culturally-Aware Models [9.890160776193616]
この研究は、文化的な知識で基礎言語モデルを強化する柔軟なフレームワークを導入します。この枠組みを,様々な領域にまたがるコンテンツを備えたオンラインポッドキャストプラットフォームを事例として評価した。
論文参考訳（メタデータ） (2023-12-05T00:11:09Z)
Cultural Compass: Predicting Transfer Learning Success in Offensive Language Detection with Cultural Features [19.72091739119933]
本研究は,文化的特徴の交わりと伝達学習の有効性について考察する。これらの結果に基づいて,文化情報のデータセットへの統合を提唱する。我々の研究は、より包括的で文化的に敏感な言語技術の探求において、一歩前進していることを示している。
論文参考訳（メタデータ） (2023-10-10T09:29:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。