論文の概要: Building Tamil Treebanks
- arxiv url: http://arxiv.org/abs/2409.14657v1
- Date: Mon, 23 Sep 2024 01:58:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 21:34:58.292379
- Title: Building Tamil Treebanks
- Title(参考訳): タミルツリーバンクの構築
- Authors: Kengatharaiyer Sarveswaran,
- Abstract要約: ツリーバンクは重要な言語資源であり、豊富な言語アノテーションで構造化され注釈付けされたコーパスである。
本稿では,手動アノテーション,計算文法,機械学習の3つのアプローチを用いて,タミル木バンクの作成について論じる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Treebanks are important linguistic resources, which are structured and annotated corpora with rich linguistic annotations. These resources are used in Natural Language Processing (NLP) applications, supporting linguistic analyses, and are essential for training and evaluating various computational models. This paper discusses the creation of Tamil treebanks using three distinct approaches: manual annotation, computational grammars, and machine learning techniques. Manual annotation, though time-consuming and requiring linguistic expertise, ensures high-quality and rich syntactic and semantic information. Computational deep grammars, such as Lexical Functional Grammar (LFG), offer deep linguistic analyses but necessitate significant knowledge of the formalism. Machine learning approaches, utilising off-the-shelf frameworks and tools like Stanza, UDpipe, and UUParser, facilitate the automated annotation of large datasets but depend on the availability of quality annotated data, cross-linguistic training resources, and computational power. The paper discusses the challenges encountered in building Tamil treebanks, including issues with Internet data, the need for comprehensive linguistic analysis, and the difficulty of finding skilled annotators. Despite these challenges, the development of Tamil treebanks is essential for advancing linguistic research and improving NLP tools for Tamil.
- Abstract(参考訳): ツリーバンクは重要な言語資源であり、豊富な言語アノテーションで構造化され注釈付けされたコーパスである。
これらのリソースは自然言語処理(NLP)アプリケーションで使われ、言語解析をサポートし、様々な計算モデルの訓練と評価に不可欠である。
本稿では,手動アノテーション,計算文法,機械学習の3つのアプローチを用いて,タミル木バンクの作成について論じる。
手作業のアノテーションは、時間を要する言語的な専門知識を必要とするが、高品質でリッチな構文情報と意味情報を保証する。
Lexical Functional Grammar (LFG)のような計算の深い文法は、深い言語分析を提供するが、形式主義に関する重要な知識を必要とする。
Stanza、UDpipe、UUParserといった既製のフレームワークやツールを活用する機械学習アプローチは、大規模なデータセットの自動アノテーションを促進するが、品質アノテートされたデータ、言語横断的なトレーニングリソース、計算能力に依存している。
本稿は,インターネットデータに関する問題,包括的言語分析の必要性,熟練したアノテータを見つけることの難しさなど,タミルのツリーバンク構築における課題について論じる。
これらの課題にもかかわらず、タミル・ツリーバンクの開発は言語研究の進展とタミルのNLPツールの改善に不可欠である。
関連論文リスト
- Deep Learning and Machine Learning -- Natural Language Processing: From Theory to Application [17.367710635990083]
自然言語処理(NLP)と大規模言語モデル(LLM)の役割に焦点を当てる。
本稿では,データ前処理技術とHugging Faceのようなフレームワークを用いたトランスフォーマーモデルの実装について論じる。
マルチリンガルデータの扱い、バイアスの低減、モデルの堅牢性確保といった課題を強調している。
論文 参考訳(メタデータ) (2024-10-30T09:35:35Z) - Tamil Language Computing: the Present and the Future [0.0]
言語コンピューティングは言語学、コンピュータ科学、認知心理学を統合し、有意義な人間とコンピュータの相互作用を作り出す。
近年のディープラーニングの進歩により、コンピュータはよりアクセスしやすくなり、独立した学習と適応が可能になった。
この論文は、日常的なコミュニケーションニーズに対応するために、Tamilのような言語のための実用的なアプリケーションを構築することの重要性を強調している。
論文 参考訳(メタデータ) (2024-07-11T15:56:02Z) - Enhancing Language Learning through Technology: Introducing a New English-Azerbaijani (Arabic Script) Parallel Corpus [0.9051256541674136]
本稿では,英語・アゼルバイジャン語の並列コーパスについて紹介する。
これは、低リソース言語のための言語学習と機械翻訳の技術的ギャップを埋めるように設計されている。
論文 参考訳(メタデータ) (2024-07-06T21:23:20Z) - Sanskrit Knowledge-based Systems: Annotation and Computational Tools [0.12086712057375555]
我々はサンスクリットの知識システム開発における課題と機会に対処する。
本研究はサンスクリット語文に具現化された豊かな言語情報の保存,理解,活用に寄与する。
論文 参考訳(メタデータ) (2024-06-26T12:00:10Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Teacher Perception of Automatically Extracted Grammar Concepts for L2
Language Learning [66.79173000135717]
本研究は、カンナダ語とマラティ語という2つのインドの言語教育に適用する。
我々は、形態素構文(単語順、一致、ケースマーキング、または単語形成の学習)と意味論(語彙の学習)に関する疑問に答える自然なテキストコーパスから記述を抽出する。
我々は,北米の学校から言語教育者の助けを借りて手作業による評価を行い,教材が授業の準備や学習者評価に利用できる可能性を見出した。
論文 参考訳(メタデータ) (2023-10-27T18:17:29Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - CLSE: Corpus of Linguistically Significant Entities [58.29901964387952]
専門家が注釈を付けた言語学的に重要なエンティティ(CLSE)のコーパスをリリースする。
CLSEは74種類のセマンティックタイプをカバーし、航空券売機からビデオゲームまで様々なアプリケーションをサポートする。
言語的に代表されるNLG評価ベンチマークを,フランス語,マラティー語,ロシア語の3言語で作成する。
論文 参考訳(メタデータ) (2022-11-04T12:56:12Z) - Teacher Perception of Automatically Extracted Grammar Concepts for L2
Language Learning [91.49622922938681]
本稿では,文法の異なる側面の記述を自動的に発見・可視化する自動フレームワークを提案する。
具体的には、形態素構文と意味論に関する疑問に答える自然なテキストコーパスから記述を抽出する。
この手法をインド語、カンナダ語、マラタイ語に応用するが、これは英語とは異なり、十分に発達した教育資源を持たない。
論文 参考訳(メタデータ) (2022-06-10T14:52:22Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - Natural Language Processing Advancements By Deep Learning: A Survey [0.755972004983746]
この調査は、ディープラーニングの恩恵を受けたNLPのさまざまな側面と応用を分類し、対処する。
コアNLPタスクとアプリケーションをカバーするもので、深層学習手法とモデルがどのようにこれらの領域を前進させるかを記述している。
論文 参考訳(メタデータ) (2020-03-02T21:32:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。