論文の概要: Lexinvariant Language Models
- arxiv url: http://arxiv.org/abs/2305.16349v1
- Date: Wed, 24 May 2023 19:10:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 19:04:22.440183
- Title: Lexinvariant Language Models
- Title(参考訳): lexinvariant language モデル
- Authors: Qian Huang, Eric Zelikman, Sarah Li Chen, Yuhuai Wu, Gregory Valiant,
Percy Liang
- Abstract要約: 離散語彙記号から連続ベクトルへの写像であるトークン埋め込みは、任意の言語モデル(LM)の中心にある
我々は、語彙記号に不変であり、したがって実際に固定トークン埋め込みを必要としないテクスチトレキシン変種モデルについて研究する。
十分長い文脈を条件として,レキシン変項LMは標準言語モデルに匹敵する難易度が得られることを示す。
- 参考スコア(独自算出の注目度): 84.2829117441298
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Token embeddings, a mapping from discrete lexical symbols to continuous
vectors, are at the heart of any language model (LM). However, lexical symbol
meanings can also be determined and even redefined by their structural role in
a long context. In this paper, we ask: is it possible for a language model to
be performant without \emph{any} fixed token embeddings? Such a language model
would have to rely entirely on the co-occurence and repetition of tokens in the
context rather than the \textit{a priori} identity of any token. To answer
this, we study \textit{lexinvariant}language models that are invariant to
lexical symbols and therefore do not need fixed token embeddings in practice.
First, we prove that we can construct a lexinvariant LM to converge to the true
language model at a uniform rate that is polynomial in terms of the context
length, with a constant factor that is sublinear in the vocabulary size.
Second, to build a lexinvariant LM, we simply encode tokens using random
Gaussian vectors, such that each token maps to the same representation within
each sequence but different representations across sequences. Empirically, we
demonstrate that it can indeed attain perplexity comparable to that of a
standard language model, given a sufficiently long context. We further explore
two properties of the lexinvariant language models: First, given text generated
from a substitution cipher of English, it implicitly implements Bayesian
in-context deciphering and infers the mapping to the underlying real tokens
with high accuracy. Second, it has on average 4X better accuracy over synthetic
in-context reasoning tasks. Finally, we discuss regularizing standard language
models towards lexinvariance and potential practical applications.
- Abstract(参考訳): トークン埋め込みは、離散的な語彙記号から連続ベクトルへのマッピングであり、任意の言語モデル(lm)の中心にある。
しかし、語彙記号の意味も決定され、長い文脈でそれらの構造的役割によって再定義される。
本稿では,<emph{any}固定トークン埋め込みを使わずに,言語モデルの実行が可能か?
このような言語モデルは、任意のトークンの \textit{a priori} アイデンティティではなく、コンテキストにおけるトークンの共起と反復に完全に依存する必要がある。
これに対応するために,辞書記号に不変であり,したがって実際には固定トークン埋め込みを必要としない \textit{lexinvariant} 言語モデルの研究を行った。
まず、文脈長の項で多項式である一様率で、語彙サイズで部分線型な定数係数で、真の言語モデルに収束するために、レキシン変項LMを構築することができることを証明する。
第二に、Lexinvariant LMを構築するには、ランダムなガウスベクトルを用いてトークンをエンコードするだけで、各トークンは各シーケンス内で同じ表現にマップされるが、シーケンス間で異なる表現となる。
経験的に、十分に長いコンテキストを条件として、標準言語モデルに匹敵する難易度が得られることを実証する。
第一に、英語の置換暗号から生成されたテキストに対して、暗黙的にベイズ的インコンテキスト解読を実装し、基礎となる実トークンへのマッピングを高精度に推論する。
第二に、合成インコンテキスト推論タスクよりも平均4倍精度が高い。
最後に,標準言語モデルのレキシネーション化と実用的応用について検討する。
関連論文リスト
- Hyperpolyglot LLMs: Cross-Lingual Interpretability in Token Embeddings [4.2243058640527575]
言語間移動学習は多言語大言語モデル(LLM)の重要な特性である
1)事前学習とモデルアーキテクチャが言語表現に与える影響,2)言語モデルに埋め込まれた言語間表現の応用について検討する。
論文 参考訳(メタデータ) (2023-11-29T19:20:14Z) - Learn Your Tokens: Word-Pooled Tokenization for Language Modeling [11.40976202290724]
言語モデルは典型的には、トークンを長い文字列に組み合わせた決定論的手作業で、テキストをサブワードにトークン化する。
最近のコンテクスト長の圧縮と制限の試みは,単語境界を完全に無視するが有用である。
本稿では,単語境界を利用して単語表現にバイト/文字をプールする「学習する」方式について考察する。
論文 参考訳(メタデータ) (2023-10-17T23:34:39Z) - Learning an Artificial Language for Knowledge-Sharing in Multilingual
Translation [15.32063273544696]
コードブック内のエントリにエンコーダ状態を割り当てることで,多言語モデルの潜伏空間を識別する。
我々は,現実的なデータ量と領域を用いた大規模実験へのアプローチを検証する。
また、学習した人工言語を用いてモデル行動を分析し、類似のブリッジ言語を使用することで、残りの言語間での知識共有が向上することを発見した。
論文 参考訳(メタデータ) (2022-11-02T17:14:42Z) - Quark: Controllable Text Generation with Reinforced Unlearning [68.07749519374089]
大規模言語モデルは、しばしばユーザの期待に合わない振る舞いを学ぶ。
本稿では,(不必要な)特性を定量化する報酬関数を最適化するアルゴリズムQuarkを紹介する。
未学習の毒性、ネガティブな感情、反復について、我々の実験はQuarkが強いベースラインと最先端の強化学習法の両方より優れていることを示している。
論文 参考訳(メタデータ) (2022-05-26T21:11:51Z) - On The Ingredients of an Effective Zero-shot Semantic Parser [95.01623036661468]
我々は、標準発話とプログラムの訓練例を文法から言い換えて、ゼロショット学習を分析する。
改良された文法,より強力なパラフレーズ,効率的な学習手法を用いて,これらのギャップを埋めることを提案する。
我々のモデルはラベル付きデータゼロの2つの意味解析ベンチマーク(Scholar, Geo)で高い性能を達成する。
論文 参考訳(メタデータ) (2021-10-15T21:41:16Z) - Improving Pretrained Cross-Lingual Language Models via Self-Labeled Word
Alignment [49.45399359826453]
言語間の言語モデルは通常、多言語テキストやパラレル文の言語モデリングで事前訓練される。
本稿では,新たな言語間事前学習課題として認知単語アライメントを導入する。
実験結果から,本手法は各種データセットの言語間移動性を向上することが示された。
論文 参考訳(メタデータ) (2021-06-11T13:36:01Z) - Revisiting Language Encoding in Learning Multilingual Representations [70.01772581545103]
言語埋め込みを置き換えるクロスリンガル言語投影(Cross-lingual Language Projection, XLP)と呼ばれる新しいアプローチを提案する。
XLPは単語埋め込みを言語固有の意味空間に投影し、投影された埋め込みはTransformerモデルに供給される。
実験により、xlpは広範囲の多言語ベンチマークデータセットのモデル性能を自由かつ著しく向上できることが示された。
論文 参考訳(メタデータ) (2021-02-16T18:47:10Z) - Unnatural Language Inference [48.45003475966808]
我々は、RoBERTaやBARTのような最先端のNLIモデルは、ランダムに並べ替えられた単語の例に不変であり、時にはよりよく機能することさえあります。
我々の発見は、自然言語理解モデルと、その進捗を測定するために使われるタスクが、本当に人間のような構文理解を必要とするという考えに疑問を投げかけている。
論文 参考訳(メタデータ) (2020-12-30T20:40:48Z) - Neural Polysynthetic Language Modelling [15.257624461339867]
高リソース言語では、一般的なアプローチは、共通の根の形態的固有の変種を、完全に独立した単語タイプとして扱うことである。
これは、根あたりの屈折が限られており、大多数が十分な大きさのコーパスに現れると仮定する。
4つの多義語に対する言語モデリング,機械翻訳,テキスト予測の現状について検討する。
論文 参考訳(メタデータ) (2020-05-11T22:57:04Z) - Limits of Detecting Text Generated by Large-Scale Language Models [65.46403462928319]
誤情報キャンペーンで使用される可能性があるため、長く一貫性のあるテキストを生成できる大規模な言語モデルが危険であると考える者もいる。
ここでは、仮説テスト問題として大規模言語モデル出力検出を定式化し、テキストを真あるいは生成されたものと分類する。
論文 参考訳(メタデータ) (2020-02-09T19:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。