論文の概要: Contextualising Levels of Language Resourcedness affecting Digital
Processing of Text
- arxiv url: http://arxiv.org/abs/2309.17035v1
- Date: Fri, 29 Sep 2023 07:48:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-02 15:06:16.935613
- Title: Contextualising Levels of Language Resourcedness affecting Digital
Processing of Text
- Title(参考訳): テキストのデジタル処理に影響を及ぼす言語資源の文脈化
- Authors: C. Maria Keet and Langa Khumalo
- Abstract要約: 我々は,全言語における直交型論 LRL と HRL が問題であると主張している。
特徴付けは、ツールを数えるのではなく、各カテゴリの文脈的特徴の類型化に基づいている。
- 参考スコア(独自算出の注目度): 0.5620321106679633
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Application domains such as digital humanities and tool like chatbots involve
some form of processing natural language, from digitising hardcopies to speech
generation. The language of the content is typically characterised as either a
low resource language (LRL) or high resource language (HRL), also known as
resource-scarce and well-resourced languages, respectively. African languages
have been characterized as resource-scarce languages (Bosch et al. 2007;
Pretorius & Bosch 2003; Keet & Khumalo 2014) and English is by far the most
well-resourced language. Varied language resources are used to develop software
systems for these languages to accomplish a wide range of tasks. In this paper
we argue that the dichotomous typology LRL and HRL for all languages is
problematic. Through a clear understanding of language resources situated in a
society, a matrix is developed that characterizes languages as Very LRL, LRL,
RL, HRL and Very HRL. The characterization is based on the typology of
contextual features for each category, rather than counting tools, and
motivation is provided for each feature and each characterization. The
contextualisation of resourcedness, with a focus on African languages in this
paper, and an increased understanding of where on the scale the language used
in a project is, may assist in, among others, better planning of research and
implementation projects. We thus argue in this paper that the characterization
of language resources within a given scale in a project is an indispensable
component particularly in the context of low-resourced languages.
- Abstract(参考訳): デジタルヒューマニティやチャットボットのようなアプリケーションドメインは、ハードコピーのデジタル化から音声生成まで、何らかの形で自然言語を処理する。
コンテンツ言語は典型的には、低リソース言語(LRL)または高リソース言語(HRL)として特徴づけられる。
アフリカの言語は資源に乏しい言語(Bosch et al. 2007; Pretorius & Bosch 2003; Keet & Khumalo 2014)として特徴付けられており、英語は最も豊富な資源を持つ言語である。
空き言語資源は、これらの言語のためのソフトウェアシステムの開発に使われ、幅広いタスクをこなす。
本稿では,全言語に対する直交型論 LRL と HRL が問題となることを論じる。
社会における言語資源の明確な理解を通じて、言語をVery LRL, LRL, RL, HRL, Very HRLとして特徴付けるマトリックスを開発する。
キャラクタリゼーションは、ツールをカウントするのではなく、各カテゴリのコンテキスト特徴のタイプロジに基づいており、各特徴と各特徴に対するモチベーションが提供される。
この論文では、アフリカの言語に焦点をあてた資源化の文脈化と、プロジェクトで使われている言語がどこにあるのかについての理解を深めることで、研究や実装プロジェクトの計画の改善を支援することができる。
そこで,本稿では,特定の規模内における言語資源のキャラクタリゼーションは,特に低リソース言語の文脈において欠かせない要素であると主張する。
関連論文リスト
- DriveThru: a Document Extraction Platform and Benchmark Datasets for Indonesian Local Language Archives [6.599829213637133]
インドネシアは言語的にも最も多様な国の一つである。
この言語的多様性にもかかわらず、インドネシア語は、自然言語処理の研究と技術において不足している。
インドネシアではこれまでデジタル言語リソースの構築に使われていなかった文書をデジタル化してデータセットを作成する方法を提案する。
論文 参考訳(メタデータ) (2024-11-14T10:00:33Z) - LLMs Are Few-Shot In-Context Low-Resource Language Learners [59.74451570590808]
In-context Learning (ICL) は、大規模言語モデル(LLM)に、表現不足の言語で多様なタスクを実行する権限を与える。
ICLとその言語間変動(X-ICL)を25の低リソース言語と7の比較的高リソース言語で検討した。
本研究は,LLMの低リソース理解品質向上における文脈内情報の重要性を論じる。
論文 参考訳(メタデータ) (2024-03-25T07:55:29Z) - Enhancing Multilingual Capabilities of Large Language Models through
Self-Distillation from Resource-Rich Languages [60.162717568496355]
大規模言語モデル(LLM)は多言語コーパスで事前訓練されている。
彼らのパフォーマンスは、いくつかのリソース豊富な言語と比較して、ほとんどの言語でまだ遅れています。
論文 参考訳(メタデータ) (2024-02-19T15:07:32Z) - Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - Multilingual Word Embeddings for Low-Resource Languages using Anchors
and a Chain of Related Languages [54.832599498774464]
我々は,言語連鎖に基づく新しいアプローチにより,多言語単語埋め込み(MWE)を構築することを提案する。
リソースの豊富なソースから始めて、ターゲットに到達するまで各言語をチェーンに順次追加することで、MWEを一度に1つの言語で構築します。
本手法は,4つの低リソース(5Mトークン)と4つの中程度の低リソース(50M)ターゲット言語を含む4つの言語ファミリーを対象としたバイリンガルレキシコン誘導法について検討した。
論文 参考訳(メタデータ) (2023-11-21T09:59:29Z) - Learning Transfers over Several Programming Languages [5.350495525141013]
言語間転送は、ソース言語からのデータを使用して、ターゲット言語でのモデルパフォーマンスを改善する。
本稿では,変圧器を用いた大規模言語モデルと11から41のプログラミング言語を用いた4つのタスクに関する広範な実験を報告する。
学習は、複数のプログラミング言語間でうまく伝達される。
論文 参考訳(メタデータ) (2023-10-25T19:04:33Z) - Lip Reading for Low-resource Languages by Learning and Combining General
Speech Knowledge and Language-specific Knowledge [57.38948190611797]
本稿では,特に低リソース言語を対象とした新しい唇読解フレームワークを提案する。
低リソース言語は、そのモデルを訓練するのに十分なビデオテキストペアデータを持っていないため、低リソース言語のための唇読解モデルを開発するのは難しいと考えられている。
論文 参考訳(メタデータ) (2023-08-18T05:19:03Z) - Transfer to a Low-Resource Language via Close Relatives: The Case Study
on Faroese [54.00582760714034]
言語間のNLP転送は、高ソース言語のデータとモデルを活用することで改善できる。
我々は、名前付きエンティティ認識(NER)、セマンティックテキスト類似性(STS)、スカンジナビア全言語で訓練された新しい言語モデルのためのFaroeseデータセットとFaroeseデータセットの新しいWebコーパスをリリースする。
論文 参考訳(メタデータ) (2023-04-18T08:42:38Z) - Progressive Sentiment Analysis for Code-Switched Text Data [26.71396390928905]
私たちは、ラベル付きリソース豊富な言語データセットと、ラベルなしのコード変更データを持つコード変更感情分析に重点を置いています。
資源豊富な言語と低リソース言語を区別する枠組みを提案する。
論文 参考訳(メタデータ) (2022-10-25T23:13:53Z) - Toward More Meaningful Resources for Lower-resourced Languages [2.3513645401551333]
Wikidataに格納されているいくつかの低リソース言語の名前の内容について検討する。
WikiAnnにある品質問題について議論し、手書きのアノテートデータに有用なサプリメントであるかどうかを評価する。
資源開発に関する推奨ガイドラインをまとめる。
論文 参考訳(メタデータ) (2022-02-24T18:39:57Z) - When Word Embeddings Become Endangered [0.685316573653194]
本稿では,異なる資源豊富な言語の単語埋め込みとリソース不足言語の翻訳辞書を用いて,絶滅危惧言語の単語埋め込みを構築する手法を提案する。
言語間の単語埋め込みと感情分析モデルはすべて、簡単に使えるPythonライブラリを通じて公開されています。
論文 参考訳(メタデータ) (2021-03-24T15:42:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。