論文の概要: Modeling the Sacred: Considerations when Using Religious Texts in Natural Language Processing
- arxiv url: http://arxiv.org/abs/2404.14740v2
- Date: Tue, 25 Jun 2024 01:02:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 19:59:30.891745
- Title: Modeling the Sacred: Considerations when Using Religious Texts in Natural Language Processing
- Title(参考訳): 聖典のモデリング--自然言語処理における宗教的テキストの利用に関する考察
- Authors: Ben Hutchinson,
- Abstract要約: 宗教的な文章は文化的に重要な価値の表現である。
機械学習モデルは、トレーニングデータにエンコードされた文化的価値を再現する確率を持っている。
本稿は,NLPによるこのようなテキストの使用が,モデルバイアスを超えた考察を提起するものであることを論じる。
- 参考スコア(独自算出の注目度): 1.7794383050238662
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This position paper concerns the use of religious texts in Natural Language Processing (NLP), which is of special interest to the Ethics of NLP. Religious texts are expressions of culturally important values, and machine learned models have a propensity to reproduce cultural values encoded in their training data. Furthermore, translations of religious texts are frequently used by NLP researchers when language data is scarce. This repurposes the translations from their original uses and motivations, which often involve attracting new followers. This paper argues that NLP's use of such texts raises considerations that go beyond model biases, including data provenance, cultural contexts, and their use in proselytism. We argue for more consideration of researcher positionality, and of the perspectives of marginalized linguistic and religious communities.
- Abstract(参考訳): 本論文は,NLPの倫理に特に関心を持つ自然言語処理(NLP)における宗教テキストの使用について述べる。
宗教テキストは文化的に重要な価値の表現であり、機械学習モデルは、彼らのトレーニングデータにエンコードされた文化的価値を再現する確率を持っている。
さらに、宗教テキストの翻訳は、言語データが不足している場合、NLP研究者によって頻繁に使用される。
これは、しばしば新しいフォロワーを惹きつけることを伴う、彼らの本来の使用と動機から翻訳を再利用する。
本稿は、NLPがそのようなテキストを使うことは、データ証明、文化的文脈、およびそれらの散文論における使用など、モデル偏見を超えた考察を提起するものである、と論じる。
我々は、研究者の立場や、疎外された言語的・宗教的なコミュニティの視点について、さらなる考察を議論する。
関連論文リスト
- Inclusivity in Large Language Models: Personality Traits and Gender Bias in Scientific Abstracts [49.97673761305336]
我々は,3つの大きな言語モデル (LLM) を,人間の物語スタイルと潜在的な性別バイアスに適合させることで評価した。
以上の結果から,これらのモデルは一般的にヒトの投稿内容によく似たテキストを生成するが,スタイル的特徴の変化は有意な性差を示すことが示唆された。
論文 参考訳(メタデータ) (2024-06-27T19:26:11Z) - CIVICS: Building a Dataset for Examining Culturally-Informed Values in Large Language Models [59.22460740026037]
大規模言語モデル(LLM)の社会的・文化的変動を評価するためのデータセット「CIVICS:文化インフォームド・バリュース・インクルーシブ・コーパス・フォー・ソシエティ・インパクト」
我々は、LGBTQIの権利、社会福祉、移民、障害権利、代理など、特定の社会的に敏感なトピックに対処する、手作りの多言語プロンプトのデータセットを作成します。
論文 参考訳(メタデータ) (2024-05-22T20:19:10Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Natural Language Decompositions of Implicit Content Enable Better Text
Representations [56.85319224208865]
本稿では,暗黙的に伝達されたコンテンツを明示的に考慮したテキスト分析手法を提案する。
我々は大きな言語モデルを用いて、観察されたテキストと推論的に関係する命題の集合を生成する。
本研究は,NLPにおいて,文字のみではなく,観察された言語の背景にある意味をモデル化することが重要であることを示唆する。
論文 参考訳(メタデータ) (2023-05-23T23:45:20Z) - An Inclusive Notion of Text [69.36678873492373]
テキストの概念の明確さは再現可能で一般化可能なNLPにとって不可欠である,と我々は主張する。
言語的および非言語的要素の2層分類を導入し,NLPモデリングに使用することができる。
論文 参考訳(メタデータ) (2022-11-10T14:26:43Z) - EnCBP: A New Benchmark Dataset for Finer-Grained Cultural Background
Prediction in English [25.38572483508948]
文化的背景を持つ自然言語処理モデルを拡張した。
英語を話す5カ国と米国の4州で、言語表現に顕著な違いがあることが示されている。
本研究は,多種多様なNLPタスクに対する文化的背景モデリングの重要性を裏付け,文化関連研究におけるEnCBPの適用性を示すものである。
論文 参考訳(メタデータ) (2022-03-28T04:57:17Z) - Towards Responsible Natural Language Annotation for the Varieties of
Arabic [12.526184907781731]
我々は多言語・多言語言語のための責任あるデータセット作成のためのプレイブックを提示する。
この研究は、ソーシャルメディアコンテンツに関するアラビア語の注釈の研究によって知らされる。
論文 参考訳(メタデータ) (2022-03-17T20:23:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。