論文の概要: Open Korean Corpora: A Practical Report
- arxiv url: http://arxiv.org/abs/2012.15621v1
- Date: Thu, 31 Dec 2020 14:23:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-17 23:47:08.216642
- Title: Open Korean Corpora: A Practical Report
- Title(参考訳): open korea corpora: a practical report
- Authors: Won Ik Cho, Sangwhan Moon, Youngsook Song
- Abstract要約: 韓国語は、しばしば研究コミュニティで低リソース言語と呼ばれます。
この主張は部分的に真実ですが、リソースの可用性が不十分に宣伝され、キュレーションされているためです。
この研究は韓国のコーパスのリストをキュレートしレビューし、まずは機関レベルのリソース開発について記述し、その後、さまざまなタスクに対する現在のオープンデータセットのリストを反復する。
- 参考スコア(独自算出の注目度): 1.7080853582489068
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Korean is often referred to as a low-resource language in the research
community. While this claim is partially true, it is also because the
availability of resources is inadequately advertised and curated. This work
curates and reviews a list of Korean corpora, first describing
institution-level resource development, then further iterate through a list of
current open datasets for different types of tasks. We then propose a direction
on how open-source dataset construction and releases should be done for
less-resourced languages to promote research.
- Abstract(参考訳): 韓国語はしばしば研究コミュニティで低リソース言語と呼ばれる。
この主張は部分的には正しいが、リソースの入手が不十分で、キュレートされているためでもある。
この研究は韓国のコーパスのリストをキュレートしレビューし、まずは機関レベルのリソース開発について記述し、その後、さまざまなタスクに対する現在のオープンデータセットのリストを反復する。
次に、研究を促進するために、少ないリソース言語でどのようにオープンソースのデータセットの構築とリリースを行うべきかという方向性を提案する。
関連論文リスト
- Table Question Answering for Low-resourced Indic Languages [71.57359949962678]
TableQAは構造化された情報のテーブル上で質問に答え、個々のセルやテーブルを出力として返すタスクである。
予算が限られている低リソース言語を対象とした,完全自動大規模テーブルQAデータ生成プロセスを提案する。
表QAデータセットやモデルを持たない2つのIndic言語であるBengaliとHindiにデータ生成手法を組み込む。
論文 参考訳(メタデータ) (2024-10-04T16:26:12Z) - Multilingual Large Language Model: A Survey of Resources, Taxonomy and Frontiers [81.47046536073682]
本稿では,MLLM(Multilingual Large Language Model)文学における最近の進歩と新たなトレンドを要約する一貫した視点を提示する。
私たちの研究がコミュニティに迅速なアクセスを提供し、MLLMにおける画期的な研究を促進することを願っています。
論文 参考訳(メタデータ) (2024-04-07T11:52:44Z) - LLMs Are Few-Shot In-Context Low-Resource Language Learners [59.74451570590808]
In-context Learning (ICL) は、大規模言語モデル(LLM)に、表現不足の言語で多様なタスクを実行する権限を与える。
ICLとその言語間変動(X-ICL)を25の低リソース言語と7の比較的高リソース言語で検討した。
本研究は,LLMの低リソース理解品質向上における文脈内情報の重要性を論じる。
論文 参考訳(メタデータ) (2024-03-25T07:55:29Z) - On the Safety of Open-Sourced Large Language Models: Does Alignment
Really Prevent Them From Being Misused? [49.99955642001019]
オープンソースでアライメントされた大きな言語モデルは、望ましくないコンテンツを生成するために簡単に誤解される可能性があることを示す。
我々のキーとなる考え方は、オープンソースLLMの生成プロセスを直接操作して、望ましくないコンテンツを生成するのを誤解することです。
論文 参考訳(メタデータ) (2023-10-02T19:22:01Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - A Survey of Corpora for Germanic Low-Resource Languages and Dialects [18.210880703295253]
この研究は低リソース言語、特に非標準の低リソース言語に焦点を当てている。
研究を促進するために,80以上のコーパスの概要を公開している。
論文 参考訳(メタデータ) (2023-04-19T16:45:16Z) - Resources for Turkish Natural Language Processing: A critical survey [0.0]
我々は、公開されているリソースを中心に、幅広いリソースをレビューする。
本稿では,トルコ語と自然言語処理における研究・構築のために利用可能なデータのギャップを,一連のレコメンデーションと識別する。
論文 参考訳(メタデータ) (2022-04-11T12:23:07Z) - Toward More Meaningful Resources for Lower-resourced Languages [2.3513645401551333]
Wikidataに格納されているいくつかの低リソース言語の名前の内容について検討する。
WikiAnnにある品質問題について議論し、手書きのアノテートデータに有用なサプリメントであるかどうかを評価する。
資源開発に関する推奨ガイドラインをまとめる。
論文 参考訳(メタデータ) (2022-02-24T18:39:57Z) - Low resource language dataset creation, curation and classification:
Setswana and Sepedi -- Extended Abstract [2.3801001093799115]
SetswanaとSepediのニュースの見出しに焦点を当てたデータセットを作成します。
分類のためのベースラインを提案し,低リソース言語に適したデータ拡張手法について検討する。
論文 参考訳(メタデータ) (2020-03-30T18:03:15Z) - Improving Candidate Generation for Low-resource Cross-lingual Entity
Linking [81.41804263432684]
XEL(クロスランガル・エンティティ・リンク)は、ソース言語テキストから抽出された参照をターゲット言語知識ベース(KB)で検索するタスクである。
本稿では,(1)エンティティ参照とKBエントリの切断を減らすこと,(2)低リソースシナリオへのモデルの堅牢性を改善すること,の3つの改良を提案する。
論文 参考訳(メタデータ) (2020-03-03T05:32:09Z) - Investigating an approach for low resource language dataset creation,
curation and classification: Setswana and Sepedi [2.3801001093799115]
SetswanaとSepediのニュースの見出しに焦点を当てたデータセットを作成します。
ニューストピックの分類タスクも作成します。
本稿では,低リソース言語に適したデータ拡張手法について検討する。
論文 参考訳(メタデータ) (2020-02-18T13:58:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。