論文の概要: EnCBP: A New Benchmark Dataset for Finer-Grained Cultural Background
Prediction in English
- arxiv url: http://arxiv.org/abs/2203.14498v1
- Date: Mon, 28 Mar 2022 04:57:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-29 12:17:42.955849
- Title: EnCBP: A New Benchmark Dataset for Finer-Grained Cultural Background
Prediction in English
- Title(参考訳): EnCBP: 英語のファイナグラインド文化背景予測のためのベンチマークデータセット
- Authors: Weicheng Ma, Samiha Datta, Lili Wang, Soroush Vosoughi
- Abstract要約: 文化的背景を持つ自然言語処理モデルを拡張した。
英語を話す5カ国と米国の4州で、言語表現に顕著な違いがあることが示されている。
本研究は,多種多様なNLPタスクに対する文化的背景モデリングの重要性を裏付け,文化関連研究におけるEnCBPの適用性を示すものである。
- 参考スコア(独自算出の注目度): 25.38572483508948
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While cultural backgrounds have been shown to affect linguistic expressions,
existing natural language processing (NLP) research on culture modeling is
overly coarse-grained and does not examine cultural differences among speakers
of the same language. To address this problem and augment NLP models with
cultural background features, we collect, annotate, manually validate, and
benchmark EnCBP, a finer-grained news-based cultural background prediction
dataset in English. Through language modeling (LM) evaluations and manual
analyses, we confirm that there are noticeable differences in linguistic
expressions among five English-speaking countries and across four states in the
US. Additionally, our evaluations on nine syntactic (CoNLL-2003), semantic
(PAWS-Wiki, QNLI, STS-B, and RTE), and psycholinguistic tasks (SST-5, SST-2,
Emotion, and Go-Emotions) show that, while introducing cultural background
information does not benefit the Go-Emotions task due to text domain conflicts,
it noticeably improves deep learning (DL) model performance on other tasks. Our
findings strongly support the importance of cultural background modeling to a
wide variety of NLP tasks and demonstrate the applicability of EnCBP in
culture-related research.
- Abstract(参考訳): 文化背景は言語表現に影響を与えることが示されているが、既存の自然言語処理(NLP)による文化モデリングの研究は、極端に粗い粒度であり、同じ言語の話者間での文化的差異を調査していない。
この問題に対処し、文化的背景を持つNLPモデルを増強するために、我々は、よりきめ細かいニュースベースの文化的背景予測データセットであるEnCBPを収集し、注釈し、手動で検証し、ベンチマークする。
言語モデル (lm) の評価と手作業による分析により, 英語圏5カ国と米国4州で, 言語表現に有意差があることを確認した。
さらに、9つの構文(CoNLL-2003)、意味(PAWS-Wiki, QNLI, STS-B, RTE)、心理言語的タスク(SST-5, SST-2, Emotion, Go-Emotions)について評価した結果、文化的背景情報の導入は、テキストドメインの衝突によるGo-Emotionsタスクの恩恵を受けないが、他のタスクにおけるディープラーニング(DL)モデルの性能が著しく向上することが示された。
本研究は,多様なNLPタスクに対する文化的背景モデリングの重要性を強く支持し,文化関連研究におけるEnCBPの適用性を示した。
関連論文リスト
- Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking [48.21982147529661]
本稿では,多文化知識獲得のための新しいアプローチを提案する。
本手法は,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。
私たちの仕事は、AIにおける文化的格差のギャップを深く理解し、橋渡しするための重要なステップです。
論文 参考訳(メタデータ) (2024-02-14T18:16:54Z) - Natural Language Processing for Dialects of a Language: A Survey [59.78833854847185]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Not All Countries Celebrate Thanksgiving: On the Cultural Dominance in
Large Language Models [89.94270049334479]
本稿では,大規模言語モデル(LLM)における文化的優位性について述べる。
LLMは、ユーザーが非英語で尋ねるときに期待する文化とは無関係な、不適切な英語文化関連の回答を提供することが多い。
論文 参考訳(メタデータ) (2023-10-19T05:38:23Z) - Navigating Cultural Chasms: Exploring and Unlocking the Cultural POV of
Text-To-Image Models [36.04866429768613]
本稿では,3つの階層(文化次元,文化領域,文化概念)にまたがる文化を特徴付けることによって,テキスト・トゥ・イメージ・モデルに埋め込まれた文化的知覚を探求する。
本稿では,CLIP空間を用いた内在的評価,ビジュアルクエスト・アンサー(VQA)モデルによる外在的評価,人的評価など,総合的な評価手法を提案する。
我々の実験は、TTIモデルにおける文化的エンコーディングの性質について、Do、What、What、Howおよび研究に関する洞察を提供し、異文化的な応用への道を開いた。
論文 参考訳(メタデータ) (2023-10-03T10:13:36Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - Assessing Cross-Cultural Alignment between ChatGPT and Human Societies:
An Empirical Study [9.919972416590124]
ChatGPTは、対話で人間のような反応を生成できるという異常な能力で広く認知されている。
そこで我々は,ChatGPTの文化的背景を,人間の文化的差異を定量化するための質問に対する応答の分析によって検討した。
論文 参考訳(メタデータ) (2023-03-30T15:43:39Z) - On the Language-specificity of Multilingual BERT and the Impact of
Fine-tuning [7.493779672689531]
multilingual BERT (mBERT) が獲得した知識は、言語固有のものと言語ニュートラルな2つのコンポーネントを持っている。
本稿では,2つのタスクの微調整の文脈において,それらの関係を解析する。
論文 参考訳(メタデータ) (2021-09-14T19:28:31Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Deception detection in text and its relation to the cultural dimension
of individualism/collectivism [6.17866386107486]
本研究は,文化における特定の言語的特徴の活用の相違が,個性主義/選択主義の分断に関して,規範に起因しているかどうかを考察する。
我々は、音韻学、形態学、構文に基づく幅広いn-gram特徴を実験することにより、カルチャー/言語対応分類器を作成する。
我々は6カ国(米国、ベルギー、インド、ロシア、メキシコ、ルーマニア)の5言語(英語、オランダ、ロシア、スペイン、ルーマニア)から11のデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-05-26T13:09:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。