論文の概要: Chain-of-Translation Prompting (CoTR): A Novel Prompting Technique for Low Resource Languages
- arxiv url: http://arxiv.org/abs/2409.04512v1
- Date: Fri, 6 Sep 2024 17:15:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 22:31:08.685203
- Title: Chain-of-Translation Prompting (CoTR): A Novel Prompting Technique for Low Resource Languages
- Title(参考訳): 翻訳プロンプト(CoTR: Chain-of-Translation Prompting):低リソース言語のための新しいプロンプト手法
- Authors: Tejas Deshpande, Nidhi Kowtal, Raviraj Joshi,
- Abstract要約: Chain of Translation Prompting (CoTR)は、低リソース言語における言語モデルの性能を高めるために設計された新しい戦略である。
CoTR再構成は、まず入力コンテキストを低リソース言語から高リソース言語に翻訳する。
本稿では,この手法の有効性を低リソースのインディア言語であるMarathiのケーススタディを通じて実証する。
- 参考スコア(独自算出の注目度): 0.4499833362998489
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces Chain of Translation Prompting (CoTR), a novel strategy designed to enhance the performance of language models in low-resource languages. CoTR restructures prompts to first translate the input context from a low-resource language into a higher-resource language, such as English. The specified task like generation, classification, or any other NLP function is then performed on the translated text, with the option to translate the output back to the original language if needed. All these steps are specified in a single prompt. We demonstrate the effectiveness of this method through a case study on the low-resource Indic language Marathi. The CoTR strategy is applied to various tasks, including sentiment analysis, hate speech classification, subject classification and text generation, and its efficacy is showcased by comparing it with regular prompting methods. Our results underscore the potential of translation-based prompting strategies to significantly improve multilingual LLM performance in low-resource languages, offering valuable insights for future research and applications. We specifically see the highest accuracy improvements with the hate speech detection task. The technique also has the potential to enhance the quality of synthetic data generation for underrepresented languages using LLMs.
- Abstract(参考訳): 本稿では,低リソース言語における言語モデルの性能向上を目的とした新しい手法であるChain of Translation Prompting(CoTR)を紹介する。
CoTR再構成は、まず入力コンテキストを低リソース言語から高リソース言語に翻訳する。
生成、分類、その他のNLP関数のような指定されたタスクは、変換されたテキスト上で実行され、必要に応じて出力を元の言語に変換するオプションがある。
これらのステップはすべて、1つのプロンプトで指定されます。
本稿では,この手法の有効性を低リソースのインディア言語であるMarathiのケーススタディを通じて実証する。
感情分析、ヘイトスピーチ分類、主題分類、テキスト生成など、様々なタスクにCoTR戦略を適用し、通常のプロンプト手法と比較することにより、その効果を示す。
この結果から,低リソース言語における多言語LLM性能を大幅に向上させる翻訳支援戦略の可能性を明らかにし,今後の研究や応用に有用な知見を提供する。
ヘイトスピーチ検出タスクでは,特に高い精度向上が期待できる。
この技術は、LLMを用いた表現不足言語における合成データ生成の品質を向上させる可能性も持っている。
関連論文リスト
- Shortcomings of LLMs for Low-Resource Translation: Retrieval and Understanding are Both the Problem [4.830018386227]
本研究では,機械翻訳パイプラインの自動化の一環として,事前学習された大言語モデル(LLM)が低リソース言語から高リソース言語への翻訳を指示する際の文脈内学習能力について検討する。
我々は南ケチュアをスペイン語に翻訳する一連の実験を行い、デジタル教育教材(辞書と文法の授業)と平行コーパスの制約付きデータベースから取得した各種情報の情報量について検討する。
論文 参考訳(メタデータ) (2024-06-21T20:02:22Z) - From Classification to Generation: Insights into Crosslingual Retrieval
Augmented ICL [8.065775937617417]
クロスランガル検索強化インコンテキスト学習(CREA-ICL)を利用した新しい手法を提案する。
高ソース言語から意味論的に類似したプロンプトを抽出することにより、多言語事前学習言語モデル(MPLM)のゼロショット性能の向上を目指す。
我々の手法は分類タスクを着実に改善するが、生成タスクでは課題に直面している。
論文 参考訳(メタデータ) (2023-11-11T15:40:21Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - Understanding Translationese in Cross-Lingual Summarization [106.69566000567598]
言語間要約(MS)は、異なる対象言語で簡潔な要約を生成することを目的としている。
大規模なCLSデータを集めるために、既存のデータセットは通常、それらの生成に翻訳を伴います。
本稿では、まず、CLSデータセット構築の異なるアプローチが、異なるレベルの翻訳に結びつくことを確認する。
論文 参考訳(メタデータ) (2022-12-14T13:41:49Z) - To Augment or Not to Augment? A Comparative Study on Text Augmentation
Techniques for Low-Resource NLP [0.0]
本稿では,構文の変更を行うテキスト拡張手法の3つのカテゴリについて検討する。
音声のタグ付けや依存性解析,セマンティックロールのラベル付けなどにおいて,多種多様な言語ファミリに対して比較を行った。
以上の結果から,mBERTに基づくベースラインの強化により,より高機能化が可能であることが示唆された。
論文 参考訳(メタデータ) (2021-11-18T10:52:48Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。