論文の概要: On the Economics of Multilingual Few-shot Learning: Modeling the
Cost-Performance Trade-offs of Machine Translated and Manual Data
- arxiv url: http://arxiv.org/abs/2205.06350v1
- Date: Thu, 12 May 2022 20:27:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-17 00:49:22.703699
- Title: On the Economics of Multilingual Few-shot Learning: Modeling the
Cost-Performance Trade-offs of Machine Translated and Manual Data
- Title(参考訳): 多言語ファウショット学習の経済性について:機械翻訳とマニュアルデータのコストパフォーマンストレードオフをモデル化する
- Authors: Kabir Ahuja, Monojit Choudhury, Sandipan Dandapat
- Abstract要約: 本稿では,機械翻訳データと手作業で作成したラベル付きデータのパフォーマンスとコストのトレードオフを評価するためのフレームワークを提案する。
本稿では,TyDIQA-GoldPデータセットのケーススタディによるフレームワークの有効性について述べる。
- 参考スコア(独自算出の注目度): 12.638781962950805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Borrowing ideas from {\em Production functions} in micro-economics, in this
paper we introduce a framework to systematically evaluate the performance and
cost trade-offs between machine-translated and manually-created labelled data
for task-specific fine-tuning of massively multilingual language models. We
illustrate the effectiveness of our framework through a case-study on the
TyDIQA-GoldP dataset. One of the interesting conclusions of the study is that
if the cost of machine translation is greater than zero, the optimal
performance at least cost is always achieved with at least some or only
manually-created data. To our knowledge, this is the first attempt towards
extending the concept of production functions to study data collection
strategies for training multilingual models, and can serve as a valuable tool
for other similar cost vs data trade-offs in NLP.
- Abstract(参考訳): 本稿では,多言語多言語モデルのタスク固有の微調整のための,機械翻訳と手作業によるラベル付きデータ間の性能とコストのトレードオフを体系的に評価する枠組みを提案する。
本稿では,TyDIQA-GoldPデータセットのケーススタディによるフレームワークの有効性について述べる。
この研究の興味深い結論の1つは、機械翻訳のコストが0より大きい場合、最適性能は少なくとも手動で作成したデータで常に達成されるということである。
我々の知る限り、これは多言語モデルのトレーニングのためのデータ収集戦略を研究するために生産関数の概念を拡張しようとする最初の試みであり、NLPにおける他の同様のコスト対データトレードオフのための貴重なツールとして役立ちます。
関連論文リスト
- P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
大きな言語モデル(LLM)は、翻訳、コード生成、推論といったタスクにまたがる様々な多言語機能を示す。
以前の評価では、その範囲を基本自然言語処理(NLP)や、独立した機能固有のタスクに制限することが多かった。
我々は、これらのベンチマークの有用性に関する以前の研究の監視に対処するため、大規模ベンチマークから利用可能な、合理的なベンチマークを選択するパイプラインを提案する。
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Data-Driven Approach for Formality-Sensitive Machine Translation:
Language-Specific Handling and Synthetic Data Generation [5.536220901048185]
本稿では,4つの言語に固有の言語特性を取り入れた,形式感性機械翻訳(FSMT)のためのデータ駆動型手法を提案する。
提案手法は,1)言語固有のデータハンドリング,2)大規模言語モデルと経験的プロンプトエンジニアリングを用いた合成データ生成という,2つの中核戦略に重点を置いている。
論文 参考訳(メタデータ) (2023-06-26T08:45:47Z) - MiniSUPERB: Lightweight Benchmark for Self-supervised Speech Models [90.99663022952498]
SuperBは自己教師付き学習(SSL)音声モデルの様々なタスクにおける一般化性を評価するために提案された。
SuperBは大規模なデータセットと多様なタスクのために高い計算コストを発生させる。
我々は,SUPERBに匹敵する結果のSSL音声モデルを効率よく評価する軽量ベンチマークであるMiniSUPERBを紹介する。
論文 参考訳(メタデータ) (2023-05-30T13:07:33Z) - Leveraging Synthetic Targets for Machine Translation [5.302421715411791]
本研究では,合成目標のトレーニングモデルが実際の地上構造データよりも優れていることを示す。
我々は、この性能向上が最適化の容易性や予測のより決定論的性質に結びついているかどうかを予備分析する。
論文 参考訳(メタデータ) (2023-05-07T07:42:22Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - A Comparative Study between Full-Parameter and LoRA-based Fine-Tuning on
Chinese Instruction Data for Instruction Following Large Language Model [8.21938165599387]
基礎モデルの選択、トレーニングデータセットのスケール、学習可能なパラメータ量、モデルのトレーニングコストは、すべて重要な要素である。
論文の結果の再現を容易にするため、データセット、モデル、コードを公開します。
論文 参考訳(メタデータ) (2023-04-17T09:36:36Z) - Super-Prompting: Utilizing Model-Independent Contextual Data to Reduce
Data Annotation Required in Visual Commonsense Tasks [3.42658286826597]
我々は,言語モデルとマルチモーダル因果変換器モデルの両方における結果を改善するために,異なるプロンプトベースの微調整手法を解析する。
以上の結果から,モデルに依存しないインシデントベースの微調整により,微調整データセットの35%~40%のみを用いて,同等の精度で達成できることが示唆された。
論文 参考訳(メタデータ) (2022-04-25T18:56:55Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。