論文の概要: IruMozhi: Automatically classifying diglossia in Tamil
- arxiv url: http://arxiv.org/abs/2311.07804v1
- Date: Mon, 13 Nov 2023 23:36:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 16:10:04.380865
- Title: IruMozhi: Automatically classifying diglossia in Tamil
- Title(参考訳): irumozhi: タミル語のdigolossiaの自動分類
- Authors: Kabilan Prasanna and Aryaman Arora
- Abstract要約: Spoken Tamilは、現代のNLPシステムではサポートされていない。
IruMozhiは、LiteraryとSpken Tamilのパラレルテキストの人間による注釈付きデータセットである。
- 参考スコア(独自算出の注目度): 4.329125081222602
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tamil, a Dravidian language of South Asia, is a highly diglossic language
with two very different registers in everyday use: Literary Tamil (preferred in
writing and formal communication) and Spoken Tamil (confined to speech and
informal media). Spoken Tamil is under-supported in modern NLP systems. In this
paper, we release IruMozhi, a human-annotated dataset of parallel text in
Literary and Spoken Tamil. We train classifiers on the task of identifying
which variety a text belongs to. We use these models to gauge the availability
of pretraining data in Spoken Tamil, to audit the composition of existing
labelled datasets for Tamil, and to encourage future work on the variety.
- Abstract(参考訳): タミル語(タミルご、英語: tamil)は、南アジアのドラヴィダ語族の言語で、文学的タミル語(文学的タミル語、文学的・形式的コミュニケーション的)と話し言葉的タミル語(言語的・非公式的メディア的)の2つの非常に異なる日常的用法を持つ。
Spoken Tamilは、現代のNLPシステムではサポートされていない。
本稿では,Literary と Spoken Tamil の並列テキストの人間による注釈付きデータセット IruMozhi をリリースする。
テキストが属する種類を特定するタスクにおいて、分類器を訓練する。
これらのモデルを用いて、Spken Tamilにおける事前学習データの可用性を評価し、既存のラベル付きデータセットの構成を監査し、多様性に関する今後の研究を促進する。
関連論文リスト
- CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。
本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。
COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文 参考訳(メタデータ) (2024-06-16T16:10:51Z) - cantnlp@LT-EDI-2024: Automatic Detection of Anti-LGBTQ+ Hate Speech in
Under-resourced Languages [0.0]
本稿では,LT-EDI-2024における共有タスクの一環として開発されたソーシャルメディアコメント検出システムにおけるホモフォビア/トランスフォビアについて述べる。
10の言語条件に対するマルチクラス分類モデルを開発するために,トランスフォーマーに基づくアプローチを採用した。
我々は,ソーシャルメディア言語の言語的現実を反映させるために,ドメイン適応中にスクリプト変更言語データの合成および有機的インスタンスを導入した。
論文 参考訳(メタデータ) (2024-01-28T21:58:04Z) - Morphology and Syntax of the Tamil Language [0.0]
この論文は、形態学的および構文学的特徴の観点から、タミルの複雑さと豊かさを強調している。
規則に基づく形態素解析の累積生成器として証明され,すでにタミルの計算文法が開発されている。
論文 参考訳(メタデータ) (2024-01-16T13:52:25Z) - Tamil-Llama: A New Tamil Language Model Based on Llama 2 [6.449795539095749]
本稿では,タミル語における優れたテキスト生成と理解の実現を目的として,16,000個のタミルトークンを付加したオープンソースのLLaMAモデルを改良する。
我々は,総合的なタミルコーパス上での効率的なモデルトレーニングのためのLoRA手法を戦略的に活用し,計算可能性とモデル堅牢性を確保する。
以上の結果から,タミル語テキスト生成の性能は大幅に向上し,インド語における大規模言語モデルの視野が拡大する可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-10T03:02:39Z) - Data and knowledge-driven approaches for multilingual training to
improve the performance of speech recognition systems of Indian languages [0.0]
対象言語を対象とした自動音声認識システムの多言語学習のためのデータと知識駆動型アプローチを提案する。
電話/セノンマッピングでは、ディープニューラルネットワーク(DNN)がセノンや電話をある言語から他の言語にマッピングすることを学ぶ。
他の手法では、全ての言語に対して同時に音響情報をモデル化する。
論文 参考訳(メタデータ) (2022-01-24T07:17:17Z) - "A Passage to India": Pre-trained Word Embeddings for Indian Languages [30.607474624873014]
既存のアプローチを使って、14のインドの言語に複数の単語を埋め込みます。
これらすべての言語への組み込みを単一のリポジトリに配置します。
8つの異なるアプローチを使って、合計436のモデルをリリースします。
論文 参考訳(メタデータ) (2021-12-27T17:31:04Z) - Challenge Dataset of Cognates and False Friend Pairs from Indian
Languages [54.6340870873525]
コニャートは異なる言語で同じテキストの複数の変種に存在する。
本稿では,12言語を対象とした2つのコグネートデータセットの作成について述べる。
論文 参考訳(メタデータ) (2021-12-17T14:23:43Z) - Harnessing Cross-lingual Features to Improve Cognate Detection for
Low-resource Languages [50.82410844837726]
言語間単語埋め込みを用いた14言語間のコニャートの検出を実証する。
インドの12言語からなる挑戦的データセットを用いて,コニャート検出手法の評価を行った。
我々は,コグネート検出のためのFスコアで最大18%の改善点を観察した。
論文 参考訳(メタデータ) (2021-12-16T11:17:58Z) - Phoneme Recognition through Fine Tuning of Phonetic Representations: a
Case Study on Luhya Language Varieties [77.2347265289855]
音韻アノテーションに基づく多言語認識手法であるAllosaurus を用いた音素認識に焦点を当てた。
挑戦的な実世界シナリオで評価するために,我々は,ケニア西部とウガンダ東部のluhya言語クラスタの2つの種類であるbukusuとsaamiaの音声認識データセットをキュレートした。
私たちは、アロサウルスの微調整がわずか100発話であっても、電話のエラー率を大幅に改善することが分かりました。
論文 参考訳(メタデータ) (2021-04-04T15:07:55Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Facebook AI's WMT20 News Translation Task Submission [69.92594751788403]
本稿では、Facebook AIによるWMT20共有ニュース翻訳タスクの提出について述べる。
資源設定の低さに着目し,タミル語-英語とイヌクティトゥット語-英語の2つの言語ペアに参加する。
我々は、利用可能なデータをすべて活用し、ターゲットのニュースドメインにシステムを適用するという、2つの主要な戦略を用いて、低リソース問題にアプローチする。
論文 参考訳(メタデータ) (2020-11-16T21:49:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。