論文の概要: Towards Responsible Natural Language Annotation for the Varieties of
Arabic
- arxiv url: http://arxiv.org/abs/2203.09597v1
- Date: Thu, 17 Mar 2022 20:23:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-21 15:02:02.665954
- Title: Towards Responsible Natural Language Annotation for the Varieties of
Arabic
- Title(参考訳): アラビア語の変種に対する責任ある自然言語アノテーションを目指して
- Authors: A. Stevie Bergman, Mona T. Diab
- Abstract要約: 我々は多言語・多言語言語のための責任あるデータセット作成のためのプレイブックを提示する。
この研究は、ソーシャルメディアコンテンツに関するアラビア語の注釈の研究によって知らされる。
- 参考スコア(独自算出の注目度): 12.526184907781731
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: When building NLP models, there is a tendency to aim for broader coverage,
often overlooking cultural and (socio)linguistic nuance. In this position
paper, we make the case for care and attention to such nuances, particularly in
dataset annotation, as well as the inclusion of cultural and linguistic
expertise in the process. We present a playbook for responsible dataset
creation for polyglossic, multidialectal languages. This work is informed by a
study on Arabic annotation of social media content.
- Abstract(参考訳): NLPモデルを構築する際には、文化的な(社会的な)言語的なニュアンスを見越して、より広範なカバレッジを目指す傾向があります。
本稿では,このようなニュアンス,特にデータセットアノテーションに注意と注意を払うとともに,そのプロセスに文化的・言語的専門知識を含める。
本稿では,多言語多方言言語のための責任データセット作成のためのプレイブックを提案する。
この研究は、ソーシャルメディアコンテンツに関するアラビア語の注釈の研究によって知らされる。
関連論文リスト
- Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking [48.21982147529661]
本稿では,多文化知識獲得のための新しいアプローチを提案する。
本手法は,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。
私たちの仕事は、AIにおける文化的格差のギャップを深く理解し、橋渡しするための重要なステップです。
論文 参考訳(メタデータ) (2024-02-14T18:16:54Z) - SemRel2024: A Collection of Semantic Textual Relatedness Datasets for 14
Languages [44.44716534457111]
SemRelは14言語にわたるネイティブスピーカーによって注釈付けされた新しいセマンティック関連データセットである。
これらの言語は5つの異なる言語族の出身であり、主にアフリカとアジアで話されている。
SemRelデータセットの各インスタンスは、2つの文間の意味的テキスト関連性の度合いを表すスコアに関連付けられた文対である。
論文 参考訳(メタデータ) (2024-02-13T18:04:53Z) - Natural Language Processing for Dialects of a Language: A Survey [59.78833854847185]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - AceGPT, Localizing Large Language Models in Arabic [74.47331062873107]
本稿では,アラビア語を対象とする局所的大規模言語モデル(LLM)の開発に着目する。
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答などを含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Improving Natural Language Inference in Arabic using Transformer Models
and Linguistically Informed Pre-Training [0.34998703934432673]
本稿では,自然言語処理分野におけるアラビア語テキストデータの分類について述べる。
この制限を克服するため、公開リソースから専用のデータセットを作成します。
言語固有モデル (AraBERT) が最先端の多言語アプローチと競合することがわかった。
論文 参考訳(メタデータ) (2023-07-27T07:40:11Z) - Enriching the NArabizi Treebank: A Multifaceted Approach to Supporting
an Under-Resourced Language [0.0]
ナラビジ (Narabizi) は、主にソーシャルメディアで使用される北アフリカのアラビア語のローマ字形である。
NArabizi Treebankの豊富なバージョンを紹介します。
論文 参考訳(メタデータ) (2023-06-26T17:27:31Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - Zero-shot Cross-Linguistic Learning of Event Semantics [27.997873309702225]
アラビア語、中国語、ファルシ語、ドイツ語、ロシア語、トルコ語にまたがる画像のキャプションを見る。
我々は,この言語について注釈付きデータを全く見ていないにもかかわらず,ある言語に対して語彙的側面が予測可能であることを示す。
論文 参考訳(メタデータ) (2022-07-05T23:18:36Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Linguistic Profiling of a Neural Language Model [1.0552465253379135]
本研究では,ニューラルネットワークモデル(NLM)が微調整前後に学習した言語知識について検討する。
BERTは、幅広い言語特性を符号化できるが、特定の下流タスクで訓練すると、その情報を失う傾向にある。
論文 参考訳(メタデータ) (2020-10-05T09:09:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。