論文の概要: What is the best recipe for character-level encoder-only modelling?
- arxiv url: http://arxiv.org/abs/2305.05461v1
- Date: Tue, 9 May 2023 14:00:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-10 12:41:06.866504
- Title: What is the best recipe for character-level encoder-only modelling?
- Title(参考訳): 文字レベルエンコーダのみのモデリングに最適なレシピは何ですか?
- Authors: Kris Cao
- Abstract要約: 本稿では,文字レベルで文脈化された表現を出力する言語理解モデルの最近の進歩をベンチマークすることを目的とする。
我々は,同一データ上で同じ設定でトレーニングされたトークンベースのモデルの性能より,最も優れたキャラクタレベルのモデルの方が優れていることを発見した。
本稿は,多言語表現のための文字レベルモデルの即興性を実証し,NLP実践者がトークンベースモデルのドロップイン代替として試すことを推奨するものである。
- 参考スコア(独自算出の注目度): 2.792030485253753
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper aims to benchmark recent progress in language understanding models
that output contextualised representations at the character level. Many such
modelling architectures and methods to train those architectures have been
proposed, but it is currently unclear what the relative contributions of the
architecture vs. the pretraining objective are to final model performance. We
explore the design space of such models, comparing architectural innovations
and a variety of different pretraining objectives on a suite of evaluation
tasks with a fixed training procedure in order to find the currently optimal
way to build and train character-level BERT-like models. We find that our best
performing character-level model exceeds the performance of a token-based model
trained with the same settings on the same data, suggesting that
character-level models are ready for more widespread adoption. Unfortunately,
the best method to train character-level models still relies on a subword-level
tokeniser during pretraining, and final model performance is highly dependent
on tokeniser quality. We believe our results demonstrate the readiness of
character-level models for multilingual language representation, and encourage
NLP practitioners to try them as drop-in replacements for token-based models.
- Abstract(参考訳): 本稿では,文脈表現を文字レベルで出力する言語理解モデルの最近の進歩をベンチマークすることを目的とする。
これらのアーキテクチャをトレーニングする多くのモデリングアーキテクチャやメソッドが提案されているが、アーキテクチャの相対的な貢献と事前学習の目的がモデルパフォーマンスの完成であるかどうかは、現時点では不明である。
このようなモデルの設計空間を探索し、設計上の革新と様々な事前学習目標を一連の評価タスクと固定的な訓練手順で比較し、現在最適なキャラクターレベルのbertライクなモデルの構築と訓練方法を見出す。
我々は,同一データ上で同じ設定でトレーニングされたトークンベースのモデルよりも高い性能を示し,キャラクタレベルのモデルがより広く採用される準備が整っていることを示唆した。
残念なことに、キャラクタレベルのモデルをトレーニングする最良の方法は、まだ事前トレーニング中のサブワードレベルのトークンに依存しており、最終的なモデルパフォーマンスはトークンの品質に大きく依存している。
我々は,多言語言語表現のための文字レベルモデルの即応性を実証し,nlp実践者にトークンベースモデルのドロップイン代替として試すように促した。
関連論文リスト
- Collaborative decoding of critical tokens for boosting factuality of
large language models [57.504894664689]
微調整および整列モデルでは、命令追従と安全な生成の能力が改善されている。
世代ごとのサンプリングの一般的な実践は、幻覚の確率を増大させる。
我々は、クリティカルトークンの概念を通じて、事前訓練されたモデル内の高い事実性を活用するための協調的復号化フレームワークを導入する。
論文 参考訳(メタデータ) (2024-02-28T01:53:37Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Contrastive Alignment of Vision to Language Through Parameter-Efficient
Transfer Learning [60.26952378997713]
コントラスト的視覚言語モデル(例えばCLIP)は、コントラスト的トレーニングを通じて視覚モデルと言語モデルの全てのパラメータを更新することによって作成される。
パラメータ更新の最小セット($7%)が、フルモデルトレーニングと同じパフォーマンスを実現可能であることを示す。
既存の知識がパラメータ効率のトレーニングにおいてより強く保存されていることを示す。
論文 参考訳(メタデータ) (2023-03-21T14:12:08Z) - Artificial Interrogation for Attributing Language Models [0.0]
この課題は、人気言語モデルの12のオープンソースベースバージョンと、テキスト生成のための12の微調整言語モデルを提供する。
コンテストの目標は、どのモデルがどのベースモデルに由来するかを特定することである。
両集合のモデルから生成された応答の類似性を測定するために4つの異なるアプローチを採用した。
論文 参考訳(メタデータ) (2022-11-20T05:46:29Z) - Accidental Learners: Spoken Language Identification in Multilingual
Self-Supervised Models [11.439430077017635]
事前学習された音声モデルは,下位層における言語識別情報を最適に符号化する。
これらの層から得られる埋め込みは、目に見えない言語を分類するのに非常に堅牢であることを示す。
NVIDIA NeMoツールキットを通じてモデルをオープンソースにしています。
論文 参考訳(メタデータ) (2022-11-09T18:53:59Z) - DIRECTOR: Generator-Classifiers For Supervised Language Modeling [27.86870968048833]
現在の言語モデルは難易度は低いが、結果として生じる世代は依然として有毒な反応、反復性、矛盾に悩まされている。
我々は,各出力トークンに対して,言語モデリングと分類ヘッドを併用した統一型ジェネレータからなる新しいアーキテクチャであるc Directorを導入する。
論文 参考訳(メタデータ) (2022-06-15T17:44:08Z) - What Language Model Architecture and Pretraining Objective Work Best for
Zero-Shot Generalization? [50.84738303888189]
本稿では,モデル選択の大規模評価とそのゼロショット一般化への影響について述べる。
私たちは、70億以上のトークンに対して、50億以上のパラメータを持つモデルをトレーニングします。
事前学習した因果デコーダモデルを非因果デコーダモデルに効率的に適用できることが判明した。
論文 参考訳(メタデータ) (2022-04-12T14:19:49Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。