論文の概要: IndiText Boost: Text Augmentation for Low Resource India Languages
- arxiv url: http://arxiv.org/abs/2401.13085v1
- Date: Tue, 23 Jan 2024 20:54:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-25 16:04:42.497611
- Title: IndiText Boost: Text Augmentation for Low Resource India Languages
- Title(参考訳): IndiText Boost: 低リソースインド言語のためのテキスト拡張
- Authors: Onkar Litake, Niraj Yagnik and Shreyas Labhsetwar
- Abstract要約: 我々は,LLMを用いたテキスト生成や,異なる言語でのテキスト分類のためのLLMを用いたテキスト拡張といった手法の実装に重点を置いている。
私たちの知識によれば、インドの言語に関するテキスト増補のための研究は存在しない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text Augmentation is an important task for low-resource languages. It helps
deal with the problem of data scarcity. A data augmentation strategy is used to
deal with the problem of data scarcity. Through the years, much work has been
done on data augmentation for the English language. In contrast, very less work
has been done on Indian languages. This is contrary to the fact that data
augmentation is used to deal with data scarcity. In this work, we focus on
implementing techniques like Easy Data Augmentation, Back Translation,
Paraphrasing, Text Generation using LLMs, and Text Expansion using LLMs for
text classification on different languages. We focus on 6 Indian languages
namely: Sindhi, Marathi, Hindi, Gujarati, Telugu, and Sanskrit. According to
our knowledge, no such work exists for text augmentation on Indian languages.
We carry out binary as well as multi-class text classification to make our
results more comparable. We get surprising results as basic data augmentation
techniques surpass LLMs.
- Abstract(参考訳): テキスト拡張は低リソース言語にとって重要なタスクである。
データ不足の問題に対処するのに役立ちます。
データ不足の問題に対処するために、データ拡張戦略が使用される。
長年にわたり、英語のデータ拡張に関する多くの研究がなされてきた。
対照的に、インドの言語に関する研究はほとんど行われていない。
これは、データの不足に対処するためにデータ拡張が使用されるという事実とは逆である。
本研究では,データ拡張の容易化,逆翻訳,パラフラージング,llmを用いたテキスト生成,異なる言語でのテキスト分類のためのllmsを用いたテキスト拡張といった手法の実装に焦点を当てた。
インドの言語は、シンディー語、マラティー語、ヒンディー語、グジャラーティ語、テルグ語、サンスクリット語である。
私たちの知識によれば、インドの言語に関するテキスト増補のための研究は存在しない。
結果がより同等になるように、バイナリとマルチクラステキストの分類を実行します。
基本データ拡張技術がLLMを超えると驚くべき結果が得られます。
関連論文リスト
- Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。
低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。
本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文 参考訳(メタデータ) (2025-01-31T12:23:28Z) - CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。
本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。
COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文 参考訳(メタデータ) (2024-06-16T16:10:51Z) - IndicLLMSuite: A Blueprint for Creating Pre-training and Fine-Tuning Datasets for Indian Languages [36.80949728259958]
本研究は、Indic LLMの開発に特化して設計された、拡張性のあるリソーススイートを紹介する。
このアプローチでは、高度にキュレートされた手作業による検証データ、検証されていないが価値のあるデータ、合成データを組み合わせています。
命令ファインチューニングでは、既存のIndicデータセットをアマルガメートし、英語データセットをインド語に翻訳・翻訳し、LLaMa2とMixtralモデルを利用する。
論文 参考訳(メタデータ) (2024-03-11T00:46:56Z) - UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised
Fine-tuning Dataset [69.33424532827608]
オープンソースの大規模言語モデル(LLM)は、様々な分野において大きな強みを持っている。
本研究では,オープンソースの多言語教師付き微調整データセットを構築する。
結果として得られたUltraLinkデータセットは、5つの言語にわたる約100万のサンプルで構成されている。
論文 参考訳(メタデータ) (2024-02-07T05:05:53Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Breaking Language Barriers: A Question Answering Dataset for Hindi and
Marathi [1.03590082373586]
本稿では,ヒンディー語とマラティー語という2つの言語を対象とした質問回答データセットの開発に焦点をあてる。
ヒンディー語は世界第3位の言語であり、マラシ語は世界第11位の言語であるにもかかわらず、両方の言語は効率的な質問回答システムを構築するための限られた資源に直面している。
これらの言語で利用可能な最大の質問回答データセットをリリースし、各データセットには28,000のサンプルが含まれています。
論文 参考訳(メタデータ) (2023-08-19T00:39:21Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - Transfer Learning for Scene Text Recognition in Indian Languages [27.609596088151644]
本研究では、英語から2つの共通言語へのディープシーンテキスト認識ネットワークのすべての層に対するトランスファー学習の能力について検討する。
インド語の単純な合成データセットへの英語モデルの移行は現実的ではないことを示す。
我々は,IIIT-ILSTおよびBanglaデータセットからHindi,Telugu,Marayalamデータセットのシーンテキスト認識のための新しいベンチマークを,MLT-17から設定した。
論文 参考訳(メタデータ) (2022-01-10T06:14:49Z) - Hate and Offensive Speech Detection in Hindi and Marathi [0.0]
それでもヘイトと攻撃的な音声検出は、データの入手が不十分なため、課題に直面している。
本研究では,ヒンディー語文とマラタイ語文のヘイトと攻撃的な音声検出について考察する。
CNNやLSTM,多言語BERT,IndicBERT,モノリンガルRoBERTaといったBERTのバリエーションなど,さまざまなディープラーニングアーキテクチャについて検討する。
我々は,変換器をベースとしたモデルが,FastText埋め込みとともに基本モデルでも最高の性能を発揮することを示す。
論文 参考訳(メタデータ) (2021-10-23T11:57:36Z) - Cross-lingual Offensive Language Identification for Low Resource
Languages: The Case of Marathi [2.4737119633827174]
MOLDはMarathiのためにコンパイルされた最初のデータセットであり、低リソースのインド・アーリア語の研究のための新しいドメインを開設した。
このデータセットに関するいくつかの機械学習実験の結果は、ゼロショートや最先端の言語間変換器に関する他のトランスファーラーニング実験を含む。
論文 参考訳(メタデータ) (2021-09-08T11:29:44Z) - Facebook AI's WMT20 News Translation Task Submission [69.92594751788403]
本稿では、Facebook AIによるWMT20共有ニュース翻訳タスクの提出について述べる。
資源設定の低さに着目し,タミル語-英語とイヌクティトゥット語-英語の2つの言語ペアに参加する。
我々は、利用可能なデータをすべて活用し、ターゲットのニュースドメインにシステムを適用するという、2つの主要な戦略を用いて、低リソース問題にアプローチする。
論文 参考訳(メタデータ) (2020-11-16T21:49:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。