論文の概要: Small Character Models Match Large Word Models for Autocomplete Under
Memory Constraints
- arxiv url: http://arxiv.org/abs/2210.03251v2
- Date: Wed, 7 Jun 2023 23:15:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 20:29:59.677267
- Title: Small Character Models Match Large Word Models for Autocomplete Under
Memory Constraints
- Title(参考訳): メモリ制約下でのオートコンプリートのための小文字モデル
- Authors: Ganesh Jawahar, Subhabrata Mukherjee, Debadeepta Dey, Muhammad
Abdul-Mageed, Laks V.S. Lakshmanan, Caio Cesar Teodoro Mendes, Gustavo
Henrique de Rosa, Shital Shah
- Abstract要約: 低周波ユーザプロンプトパターンからなるより困難なオープンドメイン設定について検討する。
文字ベースの表現は、全体のモデルサイズを減らすのに効果的である。
本研究では,20Mパラメータのキャラクタモデルが,バニラ設定における80Mパラメータのワードモデルと類似して動作することを示す。
- 参考スコア(独自算出の注目度): 32.79377465262468
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autocomplete is a task where the user inputs a piece of text, termed prompt,
which is conditioned by the model to generate semantically coherent
continuation. Existing works for this task have primarily focused on datasets
(e.g., email, chat) with high frequency user prompt patterns (or focused
prompts) where word-based language models have been quite effective. In this
work, we study the more challenging open-domain setting consisting of low
frequency user prompt patterns (or broad prompts, e.g., prompt about 93rd
academy awards) and demonstrate the effectiveness of character-based language
models. We study this problem under memory-constrained settings (e.g., edge
devices and smartphones), where character-based representation is effective in
reducing the overall model size (in terms of parameters). We use WikiText-103
benchmark to simulate broad prompts and demonstrate that character models rival
word models in exact match accuracy for the autocomplete task, when controlled
for the model size. For instance, we show that a 20M parameter character model
performs similar to an 80M parameter word model in the vanilla setting. We
further propose novel methods to improve character models by incorporating
inductive bias in the form of compositional information and representation
transfer from large word models. Datasets and code used in this work are
available at https://github.com/UBC-NLP/char_autocomplete.
- Abstract(参考訳): オートコンプリート(autocomplete)は、ユーザがプロンプトと呼ばれるテキストを入力して、モデルによってセマンティクス的にコヒーレントな継続を生成するタスクである。
このタスクの既存の作業は主に、単語ベースの言語モデルが非常に効果的である高周波ユーザプロンプトパターン(または集中プロンプト)を持つデータセット(eメール、チャットなど)に焦点を当てている。
本研究では,低頻度ユーザのプロンプトパターン(例えば,第93回アカデミー賞のプロンプトなど)からなる,より困難なオープンドメイン設定について検討し,文字ベースの言語モデルの有効性を実証する。
メモリ制限された設定(エッジデバイスやスマートフォンなど)下では,文字ベースの表現が全体のモデルサイズ(パラメーター)を低減するのに有効である。
我々は、WikiText-103ベンチマークを用いて、モデルサイズを制御した場合、文字モデルがオートコンプリートタスクの正確な一致精度で単語モデルに匹敵することを示す。
例えば、20Mパラメータのキャラクタモデルがバニラ設定における80Mパラメータのワードモデルと類似して動作することを示す。
さらに,合成情報形式における帰納的バイアスと大単語モデルからの表現伝達を取り入れ,文字モデルを改善する新しい手法を提案する。
この作業で使用されるデータセットとコードはhttps://github.com/UBC-NLP/char_autocomplete.comで公開されている。
関連論文リスト
- Explaining Datasets in Words: Statistical Models with Natural Language Parameters [66.69456696878842]
本稿では, クラスタリング, 時系列, 分類モデルなど, 自然言語の述語によってパラメータ化される統計モデル群を紹介する。
当社のフレームワークは、ユーザチャット対話の分類、時間の経過とともにどのように進化するかの特徴付け、一方の言語モデルが他方よりも優れているカテゴリを見つけることなど、幅広い問題に適用しています。
論文 参考訳(メタデータ) (2024-09-13T01:40:20Z) - Learning Mutually Informed Representations for Characters and Subwords [26.189422354038978]
本稿では,文字とサブワードの言語モデルを組み合わせることを目的とした絡み合いモデルを提案する。
視覚言語モデルにインスパイアされた我々のモデルは、文字とサブワードを別のモダリティとして扱う。
テキスト分類、名前付きエンティティ認識、POSタグ付け、文字レベルのシーケンスラベリングについて評価を行った。
論文 参考訳(メタデータ) (2023-11-14T02:09:10Z) - Small Language Models for Tabular Data [0.0]
分類と回帰の問題に対処する深層表現学習の能力を示す。
小型モデルは様々な関数の近似に十分なキャパシティを持ち、記録分類ベンチマークの精度を実現する。
論文 参考訳(メタデータ) (2022-11-05T16:57:55Z) - Don't Prompt, Search! Mining-based Zero-Shot Learning with Language
Models [37.8952605358518]
BERTのようなマスキング言語モデルはゼロショット方式でテキスト分類を行うことができる。
ゼロショット学習のための代替的なマイニング手法を提案する。
論文 参考訳(メタデータ) (2022-10-26T15:52:30Z) - An Information-theoretic Approach to Prompt Engineering Without Ground
Truth Labels [55.06990011183662]
我々は、ラベル付き例やtextitwithout のモデルへの直接アクセスなしに、プロンプトテンプレートを選択する新しい方法を提案する。
7つの異なるNLPタスクを表す8つのデータセットにまたがって、テンプレートが高い相互情報を持つ場合、そのタスクに対して高い精度を持つことを示す。
論文 参考訳(メタデータ) (2022-03-21T21:51:43Z) - Eliciting Knowledge from Pretrained Language Models for Prototypical
Prompt Verbalizer [12.596033546002321]
本稿では,事前学習された言語モデルから知識を抽出することに集中し,プロンプト学習のためのプロトタイプなプロンプト動詞化手法を提案する。
ゼロショット設定では、知識は事前訓練された言語モデルから手動で設計され、初期プロトタイプの埋め込みを形成する。
数ショット設定では、モデルは有意義で解釈可能なプロトタイプの埋め込みを学ぶように調整される。
論文 参考訳(メタデータ) (2022-01-14T12:04:37Z) - Charformer: Fast Character Transformers via Gradient-based Subword
Tokenization [50.16128796194463]
モデルの一部としてサブワードトークン化をエンドツーエンドに学習する新しいモデル帰納バイアスを提案する。
文字から潜在単語表現を自動的に学習する,ソフトグラデーションベースのサブワードトークンモジュール(GBST)を導入する。
また、GBSTを統合し、バイトレベルで動作する深層トランスフォーマーモデルであるCharformerを紹介する。
論文 参考訳(メタデータ) (2021-06-23T22:24:14Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Interpretable Entity Representations through Large-Scale Typing [61.4277527871572]
本稿では,人間の読みやすいエンティティ表現を作成し,箱から高パフォーマンスを実現する手法を提案する。
我々の表現は、微粒な実体型に対する後続確率に対応するベクトルである。
特定のドメインに対して,学習に基づく方法で,型セットのサイズを縮小できることを示す。
論文 参考訳(メタデータ) (2020-04-30T23:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。