論文の概要: Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking
- arxiv url: http://arxiv.org/abs/2402.09369v1
- Date: Wed, 14 Feb 2024 18:16:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 14:10:04.264011
- Title: Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking
- Title(参考訳): 多文化的知識獲得とlmベンチマーク
- Authors: Yi Fung, Ruining Zhao, Jae Doo, Chenkai Sun, Heng Ji
- Abstract要約: 本稿では,多文化知識獲得のための新しいアプローチを提案する。
本手法は,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。
私たちの仕事は、AIにおける文化的格差のギャップを深く理解し、橋渡しするための重要なステップです。
- 参考スコア(独自算出の注目度): 48.21982147529661
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Pretrained large language models have revolutionized many applications but
still face challenges related to cultural bias and a lack of cultural
commonsense knowledge crucial for guiding cross-culture communication and
interactions. Recognizing the shortcomings of existing methods in capturing the
diverse and rich cultures across the world, this paper introduces a novel
approach for massively multicultural knowledge acquisition. Specifically, our
method strategically navigates from densely informative Wikipedia documents on
cultural topics to an extensive network of linked pages. Leveraging this
valuable source of data collection, we construct the CultureAtlas dataset,
which covers a wide range of sub-country level geographical regions and
ethnolinguistic groups, with data cleaning and preprocessing to ensure textual
assertion sentence self-containment, as well as fine-grained cultural profile
information extraction. Our dataset not only facilitates the evaluation of
language model performance in culturally diverse contexts but also serves as a
foundational tool for the development of culturally sensitive and aware
language models. Our work marks an important step towards deeper understanding
and bridging the gaps of cultural disparities in AI, to promote a more
inclusive and balanced representation of global cultures in the digital domain.
- Abstract(参考訳): 事前訓練された大きな言語モデルは、多くの応用に革命をもたらしたが、文化的な偏見と文化的なコモンセンス知識の欠如が、異文化間のコミュニケーションと相互作用を導く上で重要な課題に直面している。
世界中の多様で豊かな文化をとらえる既存の手法の欠点を認識し,多文化的知識獲得のための新たなアプローチを提案する。
具体的には,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。
この貴重なデータ収集の源泉を活用し、広範にわたる地域レベルの地理的地域と民族言語学グループをカバーするc cultureatlasデータセットを構築し、テキストによるアサーション文の自己完結を確実にするためのデータクリーニングと前処理を行い、文化的なプロファイル情報抽出を行う。
私たちのデータセットは、文化的に多様なコンテキストにおける言語モデルのパフォーマンスの評価を促進するだけでなく、文化的にセンシティブな言語モデルの開発のための基礎的なツールとしても機能します。
我々の研究は、デジタルドメインにおけるグローバル文化のより包括的でバランスのとれた表現を促進するために、AIにおける文化格差のギャップを深く理解し、ブリッジする重要なステップである。
関連論文リスト
- Investigating Cultural Alignment of Large Language Models [11.730822193746826]
LLM(Large Language Models)は,異なる文化で採用されている多様な知識を真にカプセル化していることを示す。
社会学的調査をシミュレートし、実際の調査参加者のモデル応答を参考として、文化的アライメントの定量化を行う。
本稿では,人類学的推論を活用し,文化的アライメントを高める新しい手法である人類学的プロンプティングを紹介する。
論文 参考訳(メタデータ) (2024-02-20T18:47:28Z) - Bridging Cultural Nuances in Dialogue Agents through Cultural Value
Surveys [20.82269206759988]
cuDialogは、文化レンズを使った対話生成のための第一級ベンチマークである。
対話交換から文化的属性を抽出できるベースラインモデルを開発した。
本稿では,対話型エンコーディング機能に文化的次元を組み込むことを提案する。
論文 参考訳(メタデータ) (2024-01-18T19:42:04Z) - Not All Countries Celebrate Thanksgiving: On the Cultural Dominance in
Large Language Models [89.94270049334479]
本稿では,大規模言語モデル(LLM)における文化的優位性について述べる。
LLMは、ユーザーが非英語で尋ねるときに期待する文化とは無関係な、不適切な英語文化関連の回答を提供することが多い。
論文 参考訳(メタデータ) (2023-10-19T05:38:23Z) - Cultural Compass: Predicting Transfer Learning Success in Offensive
Language Detection with Cultural Features [21.54368550883955]
本研究は,文化的特徴の交わりと伝達学習の有効性について考察する。
これらの結果に基づいて,文化情報のデータセットへの統合を提唱する。
我々の研究は、より包括的で文化的に敏感な言語技術の探求において、一歩前進していることを示している。
論文 参考訳(メタデータ) (2023-10-10T09:29:38Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - Empowering LLM-based Machine Translation with Cultural Awareness [52.365390827200464]
伝統的なニューラルネットワーク翻訳(NMT)システムは、しばしば文化的に特定の情報を含む文の翻訳に失敗する。
最近のインコンテキスト学習では、機械翻訳を行うために、軽量なプロンプトを使用して、大規模言語モデル(LLM)をガイドしている。
我々は、文化的に関連のある並列コーパスを構築するための新しいデータキュレーションパイプラインを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:56:33Z) - Assessing Cross-Cultural Alignment between ChatGPT and Human Societies:
An Empirical Study [9.919972416590124]
ChatGPTは、対話で人間のような反応を生成できるという異常な能力で広く認知されている。
そこで我々は,ChatGPTの文化的背景を,人間の文化的差異を定量化するための質問に対する応答の分析によって検討した。
論文 参考訳(メタデータ) (2023-03-30T15:43:39Z) - EnCBP: A New Benchmark Dataset for Finer-Grained Cultural Background
Prediction in English [25.38572483508948]
文化的背景を持つ自然言語処理モデルを拡張した。
英語を話す5カ国と米国の4州で、言語表現に顕著な違いがあることが示されている。
本研究は,多種多様なNLPタスクに対する文化的背景モデリングの重要性を裏付け,文化関連研究におけるEnCBPの適用性を示すものである。
論文 参考訳(メタデータ) (2022-03-28T04:57:17Z) - Learning Robust Real-Time Cultural Transmission without Human Data [82.05222093231566]
人工知能エージェントにおけるゼロショット、高リコール文化伝達を生成する方法を提案する。
我々のエージェントは、事前に収集された人間のデータを使わずに、新しい文脈で人間からリアルタイムの文化的伝達に成功した。
これは、人工知能を開発するアルゴリズムとしての文化進化の道を開くものである。
論文 参考訳(メタデータ) (2022-03-01T19:32:27Z) - Experience Grounds Language [185.73483760454454]
言語理解研究は、言語が記述する物理的世界と、それが促進する社会的相互作用とを関連づけることに失敗している。
テキストだけで訓練された後にタスクに取り組むための言語処理モデルの驚くべき効果にもかかわらず、成功した言語コミュニケーションは世界の共有経験に依存している。
論文 参考訳(メタデータ) (2020-04-21T16:56:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。