論文の概要: Resources for Turkish Natural Language Processing: A critical survey
- arxiv url: http://arxiv.org/abs/2204.05042v1
- Date: Mon, 11 Apr 2022 12:23:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-13 00:12:02.916086
- Title: Resources for Turkish Natural Language Processing: A critical survey
- Title(参考訳): トルコの自然言語処理のための資源 : 批判的調査
- Authors: \c{C}a\u{g}r{\i} \c{C}\"oltekin, A. Seza Do\u{g}ru\"oz, \"Ozlem
\c{C}etino\u{g}lu
- Abstract要約: 我々は、公開されているリソースを中心に、幅広いリソースをレビューする。
本稿では,トルコ語と自然言語処理における研究・構築のために利用可能なデータのギャップを,一連のレコメンデーションと識別する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a comprehensive survey of corpora and lexical resources
available for Turkish. We review a broad range of resources, focusing on the
ones that are publicly available. In addition to providing information about
the available linguistic resources, we present a set of recommendations, and
identify gaps in the data available for conducting research and building
applications in Turkish Linguistics and Natural Language Processing.
- Abstract(参考訳): 本稿では,トルコのコーパスと語彙資源に関する包括的調査を行う。
我々は、広く利用可能なリソースに注目して、幅広いリソースをレビューする。
本稿では,利用可能な言語資源に関する情報の提供に加えて,トルコ語言語学や自然言語処理における研究と応用を行う上で利用可能なデータのギャップを明らかにする。
関連論文リスト
- Recent Advancements and Challenges of Turkic Central Asian Language Processing [4.189204855014775]
中央アジアのトルコ語に対するNLPの研究は、典型的に低リソースの言語課題に直面している。
最近の進歩には、言語固有のデータセットの収集や、下流タスクのためのモデルの開発が含まれる。
論文 参考訳(メタデータ) (2024-07-06T08:58:26Z) - Multilingual Large Language Model: A Survey of Resources, Taxonomy and Frontiers [81.47046536073682]
本稿では,MLLM(Multilingual Large Language Model)文学における最近の進歩と新たなトレンドを要約する一貫した視点を提示する。
私たちの研究がコミュニティに迅速なアクセスを提供し、MLLMにおける画期的な研究を促進することを願っています。
論文 参考訳(メタデータ) (2024-04-07T11:52:44Z) - LLMs Are Few-Shot In-Context Low-Resource Language Learners [59.74451570590808]
In-context Learning (ICL) は、大規模言語モデル(LLM)に、表現不足の言語で多様なタスクを実行する権限を与える。
ICLとその言語間変動(X-ICL)を25の低リソース言語と7の比較的高リソース言語で検討した。
本研究は,LLMの低リソース理解品質向上における文脈内情報の重要性を論じる。
論文 参考訳(メタデータ) (2024-03-25T07:55:29Z) - Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - Identifying Informational Sources in News Articles [109.70475599552523]
我々は、ニュース執筆に使用される情報ソースの、最大かつ最も広範囲にアノテートされたデータセットを構築した。
本稿では,ニュース記事中のソースの構成性を研究するための新しいタスクであるソース予測を導入する。
論文 参考訳(メタデータ) (2023-05-24T08:56:35Z) - Reasoning with Language Model Prompting: A Survey [86.96133788869092]
推論は複雑な問題解決に不可欠な能力であり、様々な現実世界のアプリケーションに対するバックエンドサポートを提供することができる。
本稿では,言語モデルによる推論に関する最先端の研究を包括的に調査する。
論文 参考訳(メタデータ) (2022-12-19T16:32:42Z) - Beyond Counting Datasets: A Survey of Multilingual Dataset Construction
and Necessary Resources [38.814057529254846]
公開されている156個のNLPデータセットの特徴について検討する。
言語に習熟したNLP研究者と集団労働者を対象に調査を行った。
メカニカルトルコプラットフォーム上で高品質な多言語データを収集するための戦略を同定する。
論文 参考訳(メタデータ) (2022-11-28T18:54:33Z) - Toward More Meaningful Resources for Lower-resourced Languages [2.3513645401551333]
Wikidataに格納されているいくつかの低リソース言語の名前の内容について検討する。
WikiAnnにある品質問題について議論し、手書きのアノテートデータに有用なサプリメントであるかどうかを評価する。
資源開発に関する推奨ガイドラインをまとめる。
論文 参考訳(メタデータ) (2022-02-24T18:39:57Z) - Google Crowdsourced Speech Corpora and Related Open-Source Resources for
Low-Resource Languages and Dialects: An Overview [43.92114369646489]
テキスト音声と自動音声認識アプリケーションを構築するために38のデータセットをリリースした。
本稿では,このようなコーパスの開発に使用される方法論について述べるとともに,表現不足の言語コミュニティに恩恵をもたらす可能性のある知見をいくつか提示する。
論文 参考訳(メタデータ) (2020-10-14T02:24:04Z) - Investigating an approach for low resource language dataset creation,
curation and classification: Setswana and Sepedi [2.3801001093799115]
SetswanaとSepediのニュースの見出しに焦点を当てたデータセットを作成します。
ニューストピックの分類タスクも作成します。
本稿では,低リソース言語に適したデータ拡張手法について検討する。
論文 参考訳(メタデータ) (2020-02-18T13:58:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。