論文の概要: A Multi-dimensional Evaluation of Tokenizer-free Multilingual Pretrained
Models
- arxiv url: http://arxiv.org/abs/2210.07111v1
- Date: Thu, 13 Oct 2022 15:47:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 14:12:32.088900
- Title: A Multi-dimensional Evaluation of Tokenizer-free Multilingual Pretrained
Models
- Title(参考訳): トークン化なし多言語事前学習モデルの多次元評価
- Authors: Jimin Sun, Patrick Fernandes, Xinyi Wang, Graham Neubig
- Abstract要約: サブワードベースのモデルは、多くの設定において依然として最も実用的な選択肢であることを示している。
我々は,新しいモデルを設計し,評価する際のこれらの要因を検討するために,トークンフリーな手法の今後の取り組みを奨励する。
- 参考スコア(独自算出の注目度): 87.7086269902562
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work on tokenizer-free multilingual pretrained models show promising
results in improving cross-lingual transfer and reducing engineering overhead
(Clark et al., 2022; Xue et al., 2022). However, these works mainly focus on
reporting accuracy on a limited set of tasks and data settings, placing less
emphasis on other important factors when tuning and deploying the models in
practice, such as memory usage, inference speed, and fine-tuning data
robustness. We attempt to fill this gap by performing a comprehensive empirical
comparison of multilingual tokenizer-free and subword-based models considering
these various dimensions. Surprisingly, we find that subword-based models might
still be the most practical choice in many settings, achieving better
performance for lower inference latency and memory usage. Based on these
results, we encourage future work in tokenizer-free methods to consider these
factors when designing and evaluating new models.
- Abstract(参考訳): トークン化のない多言語事前訓練モデルに関する最近の研究は、クロスリンガル転送の改善と工学的オーバーヘッドの低減(Clark et al., 2022; Xue et al., 2022)の有望な結果を示している。
しかしながら、これらは主にタスクやデータ設定の限られたセットに関する正確さの報告に重点を置いており、メモリ使用率、推論速度、微調整データの堅牢性など、実際にモデルをチューニングおよびデプロイする際の他の重要な要素に重点を置いている。
様々な次元を考慮した多言語トークン化とサブワードベースモデルの包括的比較を行い,このギャップを埋めようとしている。
驚いたことに、サブワードベースのモデルは、多くの設定において依然として最も実用的な選択肢であり、推論遅延とメモリ使用量を減らすためのパフォーマンス向上を実現している。
これらの結果に基づき,新しいモデルの設計および評価において,トークンフリー手法の今後の開発を推奨する。
関連論文リスト
- Ensembling Finetuned Language Models for Text Classification [55.15643209328513]
ファインタニング(英: Finetuning)は、特定のタスクに事前訓練されたモデルを適用するために、様々なコミュニティで一般的なプラクティスである。
ニューラルネットワークのアンサンブルは、通常、パフォーマンスを高め、信頼性の高い不確実性推定を提供するために使用される。
6つのデータセット上の5つの大きめのモデルから予測されたメタデータセットを提示し、異なるアンサンブル戦略の結果を報告する。
論文 参考訳(メタデータ) (2024-10-25T09:15:54Z) - EmbedLLM: Learning Compact Representations of Large Language Models [28.49433308281983]
大規模言語モデルのコンパクトなベクトル表現を学習するためのフレームワークである EmbedLLM を提案する。
このような埋め込みを学習するためのエンコーダ-デコーダアプローチと,その有効性を評価するための体系的なフレームワークを導入する。
EmbedLLMはモデルルーティングにおいて,精度とレイテンシの両方において,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-10-03T05:43:24Z) - Collaborative decoding of critical tokens for boosting factuality of
large language models [57.504894664689]
微調整および整列モデルでは、命令追従と安全な生成の能力が改善されている。
世代ごとのサンプリングの一般的な実践は、幻覚の確率を増大させる。
我々は、クリティカルトークンの概念を通じて、事前訓練されたモデル内の高い事実性を活用するための協調的復号化フレームワークを導入する。
論文 参考訳(メタデータ) (2024-02-28T01:53:37Z) - On the Analysis of Cross-Lingual Prompt Tuning for Decoder-based
Multilingual Model [49.81429697921861]
多言語自己回帰モデルにおけるパラメータ効率細調整(PEFT)と言語間タスクの相互作用について検討する。
高速チューニングは、微調整よりも低リソース言語の性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-14T00:43:33Z) - Unleashing the Multilingual Encoder Potential: Boosting Zero-Shot
Performance via Probability Calibration [12.424785560515094]
事前訓練された多言語エンコーダモデルは、入力例をクローゼスタイルのプロンプトに変換することで、ゼロショット多言語タスクや言語探索を直接実行することができる。
この方法は,事前学習中に頻繁に発生するラベル単語の予測に対するモデルのバイアスによって制限される。
モデルによって予測されるラベル語の確率を変化させるキャリブレーション手法と組み合わせる。
論文 参考訳(メタデータ) (2023-10-08T08:31:05Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Leveraging Synthetic Targets for Machine Translation [5.302421715411791]
本研究では,合成目標のトレーニングモデルが実際の地上構造データよりも優れていることを示す。
我々は、この性能向上が最適化の容易性や予測のより決定論的性質に結びついているかどうかを予備分析する。
論文 参考訳(メタデータ) (2023-05-07T07:42:22Z) - Multi Task Learning For Zero Shot Performance Prediction of Multilingual
Models [12.759281077118567]
多言語トランスフォーマーに基づく言語モデルは、言語間のゼロショット転送において驚くほど効果的であることが観察されている。
我々は,タスク上のゼロショット性能をマルチタスク学習問題としてモデル化することにより,タスク上のゼロショット性能を予測するための既存の手法を構築した。
論文 参考訳(メタデータ) (2022-05-12T14:47:03Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。