Fugu-MT 論文翻訳(概要): Towards Responsible Natural Language Annotation for the Varieties of Arabic

論文の概要: Towards Responsible Natural Language Annotation for the Varieties of Arabic

arxiv url: http://arxiv.org/abs/2203.09597v1
Date: Thu, 17 Mar 2022 20:23:27 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-21 15:02:02.665954
Title: Towards Responsible Natural Language Annotation for the Varieties of Arabic
Title（参考訳）: アラビア語の変種に対する責任ある自然言語アノテーションを目指して
Authors: A. Stevie Bergman, Mona T. Diab
Abstract要約: 我々は多言語・多言語言語のための責任あるデータセット作成のためのプレイブックを提示する。この研究は、ソーシャルメディアコンテンツに関するアラビア語の注釈の研究によって知らされる。
参考スコア（独自算出の注目度）: 12.526184907781731
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: When building NLP models, there is a tendency to aim for broader coverage, often overlooking cultural and (socio)linguistic nuance. In this position paper, we make the case for care and attention to such nuances, particularly in dataset annotation, as well as the inclusion of cultural and linguistic expertise in the process. We present a playbook for responsible dataset creation for polyglossic, multidialectal languages. This work is informed by a study on Arabic annotation of social media content.
Abstract（参考訳）: NLPモデルを構築する際には、文化的な(社会的な)言語的なニュアンスを見越して、より広範なカバレッジを目指す傾向があります。本稿では,このようなニュアンス,特にデータセットアノテーションに注意と注意を払うとともに,そのプロセスに文化的・言語的専門知識を含める。本稿では,多言語多方言言語のための責任データセット作成のためのプレイブックを提案する。この研究は、ソーシャルメディアコンテンツに関するアラビア語の注釈の研究によって知らされる。

関連論文リスト

AraDiCE: Benchmarks for Dialectal and Cultural Capabilities in LLMs [22.121471902726892]
本稿ではアラビア方言と文化評価のベンチマークであるAraDiCEを紹介する。湾岸地域、エジプト地域、レバント地域の文化意識を評価するために設計された最初のきめ細かいベンチマーク。本研究で検証した方言翻訳モデルとベンチマークをリリースする。
論文参考訳（メタデータ） (2024-09-17T17:59:25Z)
Arabic Diacritics in the Wild: Exploiting Opportunities for Improved Diacritization [9.191117990275385]
アラビア語テキストにおけるダイアクリティカルマークの欠如は、アラビア語自然言語処理(NLP)に重大な課題をもたらす本稿では,自然発生型ダイアクリティカルティクスを「野生におけるダイアクリティカルティクス」と呼ぶ事例について検討する。そこで本研究では,実世界の部分的辞書化単語を文脈における最大完全辞書化にマッピングする注釈付きデータセットを提案する。
論文参考訳（メタデータ） (2024-06-09T12:29:55Z)
CIVICS: Building a Dataset for Examining Culturally-Informed Values in Large Language Models [59.22460740026037]
大規模言語モデル(LLM)の社会的・文化的変動を評価するためのデータセット「CIVICS:文化インフォームド・バリュース・インクルーシブ・コーパス・フォー・ソシエティ・インパクト」我々は、LGBTQIの権利、社会福祉、移民、障害権利、代理など、特定の社会的に敏感なトピックに対処する、手作りの多言語プロンプトのデータセットを作成します。
論文参考訳（メタデータ） (2024-05-22T20:19:10Z)
Constructing and Expanding Low-Resource and Underrepresented Parallel Datasets for Indonesian Local Languages [0.0]
インドネシアの5つの言語を特徴とする多言語並列コーパスであるBhinneka Korpusを紹介する。我々のゴールは、これらの資源へのアクセスと利用を強化し、国内へのリーチを広げることです。
論文参考訳（メタデータ） (2024-04-01T09:24:06Z)
Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking [48.21982147529661]
本稿では,多文化知識獲得のための新しいアプローチを提案する。本手法は,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。私たちの仕事は、AIにおける文化的格差のギャップを深く理解し、橋渡しするための重要なステップです。
論文参考訳（メタデータ） (2024-02-14T18:16:54Z)
Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文参考訳（メタデータ） (2024-01-11T03:04:38Z)
AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文参考訳（メタデータ） (2023-09-21T13:20:13Z)
NusaWrites: Constructing High-Quality Corpora for Underrepresented and Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文参考訳（メタデータ） (2023-09-19T14:42:33Z)
Enriching the NArabizi Treebank: A Multifaceted Approach to Supporting an Under-Resourced Language [0.0]
ナラビジ (Narabizi) は、主にソーシャルメディアで使用される北アフリカのアラビア語のローマ字形である。 NArabizi Treebankの豊富なバージョンを紹介します。
論文参考訳（メタデータ） (2023-06-26T17:27:31Z)
Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。 Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文参考訳（メタデータ） (2023-05-25T15:30:31Z)
Zero-shot Cross-Linguistic Learning of Event Semantics [27.997873309702225]
アラビア語、中国語、ファルシ語、ドイツ語、ロシア語、トルコ語にまたがる画像のキャプションを見る。我々は,この言語について注釈付きデータを全く見ていないにもかかわらず,ある言語に対して語彙的側面が予測可能であることを示す。
論文参考訳（メタデータ） (2022-07-05T23:18:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。