論文の概要: Lexinvariant Language Models
- arxiv url: http://arxiv.org/abs/2305.16349v1
- Date: Wed, 24 May 2023 19:10:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 19:04:22.440183
- Title: Lexinvariant Language Models
- Title(参考訳): lexinvariant language モデル
- Authors: Qian Huang, Eric Zelikman, Sarah Li Chen, Yuhuai Wu, Gregory Valiant,
Percy Liang
- Abstract要約: 離散語彙記号から連続ベクトルへの写像であるトークン埋め込みは、任意の言語モデル(LM)の中心にある
我々は、語彙記号に不変であり、したがって実際に固定トークン埋め込みを必要としないテクスチトレキシン変種モデルについて研究する。
十分長い文脈を条件として,レキシン変項LMは標準言語モデルに匹敵する難易度が得られることを示す。
- 参考スコア(独自算出の注目度): 84.2829117441298
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Token embeddings, a mapping from discrete lexical symbols to continuous
vectors, are at the heart of any language model (LM). However, lexical symbol
meanings can also be determined and even redefined by their structural role in
a long context. In this paper, we ask: is it possible for a language model to
be performant without \emph{any} fixed token embeddings? Such a language model
would have to rely entirely on the co-occurence and repetition of tokens in the
context rather than the \textit{a priori} identity of any token. To answer
this, we study \textit{lexinvariant}language models that are invariant to
lexical symbols and therefore do not need fixed token embeddings in practice.
First, we prove that we can construct a lexinvariant LM to converge to the true
language model at a uniform rate that is polynomial in terms of the context
length, with a constant factor that is sublinear in the vocabulary size.
Second, to build a lexinvariant LM, we simply encode tokens using random
Gaussian vectors, such that each token maps to the same representation within
each sequence but different representations across sequences. Empirically, we
demonstrate that it can indeed attain perplexity comparable to that of a
standard language model, given a sufficiently long context. We further explore
two properties of the lexinvariant language models: First, given text generated
from a substitution cipher of English, it implicitly implements Bayesian
in-context deciphering and infers the mapping to the underlying real tokens
with high accuracy. Second, it has on average 4X better accuracy over synthetic
in-context reasoning tasks. Finally, we discuss regularizing standard language
models towards lexinvariance and potential practical applications.
- Abstract(参考訳): トークン埋め込みは、離散的な語彙記号から連続ベクトルへのマッピングであり、任意の言語モデル(lm)の中心にある。
しかし、語彙記号の意味も決定され、長い文脈でそれらの構造的役割によって再定義される。
本稿では,<emph{any}固定トークン埋め込みを使わずに,言語モデルの実行が可能か?
このような言語モデルは、任意のトークンの \textit{a priori} アイデンティティではなく、コンテキストにおけるトークンの共起と反復に完全に依存する必要がある。
これに対応するために,辞書記号に不変であり,したがって実際には固定トークン埋め込みを必要としない \textit{lexinvariant} 言語モデルの研究を行った。
まず、文脈長の項で多項式である一様率で、語彙サイズで部分線型な定数係数で、真の言語モデルに収束するために、レキシン変項LMを構築することができることを証明する。
第二に、Lexinvariant LMを構築するには、ランダムなガウスベクトルを用いてトークンをエンコードするだけで、各トークンは各シーケンス内で同じ表現にマップされるが、シーケンス間で異なる表現となる。
経験的に、十分に長いコンテキストを条件として、標準言語モデルに匹敵する難易度が得られることを実証する。
第一に、英語の置換暗号から生成されたテキストに対して、暗黙的にベイズ的インコンテキスト解読を実装し、基礎となる実トークンへのマッピングを高精度に推論する。
第二に、合成インコンテキスト推論タスクよりも平均4倍精度が高い。
最後に,標準言語モデルのレキシネーション化と実用的応用について検討する。
関連論文リスト
- Interchangeable Token Embeddings for Extendable Vocabulary and Alpha-Equivalence [6.991281327290525]
言語モデルにおける交換可能なトークンを学習するための新しいアプローチを提案する。
本手法は,構文表現における境界変数のリネームが意味論を保存する原理であるα等価性に対処するように設計されている。
論文 参考訳(メタデータ) (2024-10-22T16:34:36Z) - Tokenization as Finite-State Transduction [24.19959327497118]
正規言語の全てのトークン化を効率的にエンコードできる有限状態フレームワークを導入する。
そのByte-Pairを示します。
Match(BPE)とMaxPiece(WordPiece)がこのフレームワークに適合する。
これの応用は、あるパターンにマッチするように言語モデルの出力を制約するガイド付き生成である。
論文 参考訳(メタデータ) (2024-10-21T07:10:07Z) - Unified Lexical Representation for Interpretable Visual-Language Alignment [52.059812317944434]
より解釈可能なVLAフレームワークであるLexVLAを紹介する。
これら2つの事前学習されたユニモーダルモデルが、控えめなマルチモーダルデータセットを微調整することで、適切に整列できることを実証する。
論文 参考訳(メタデータ) (2024-07-25T07:35:27Z) - Understanding and Mitigating Tokenization Bias in Language Models [6.418593476658017]
State-of-the-art言語モデルは自己回帰型であり、トークンとして知られるサブワード単位で動作する。
一般的な符号化方式は、より多くのトレーニングやデータで緩和できないサンプリングバイアスを引き起こすことを示す。
トークン化データに基づいて訓練された任意の言語モデルからバイアスのない推定値を得るための新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-24T17:38:02Z) - Hyperpolyglot LLMs: Cross-Lingual Interpretability in Token Embeddings [4.2243058640527575]
言語間移動学習は多言語大言語モデル(LLM)の重要な特性である
1)事前学習とモデルアーキテクチャが言語表現に与える影響,2)言語モデルに埋め込まれた言語間表現の応用について検討する。
論文 参考訳(メタデータ) (2023-11-29T19:20:14Z) - Quark: Controllable Text Generation with Reinforced Unlearning [68.07749519374089]
大規模言語モデルは、しばしばユーザの期待に合わない振る舞いを学ぶ。
本稿では,(不必要な)特性を定量化する報酬関数を最適化するアルゴリズムQuarkを紹介する。
未学習の毒性、ネガティブな感情、反復について、我々の実験はQuarkが強いベースラインと最先端の強化学習法の両方より優れていることを示している。
論文 参考訳(メタデータ) (2022-05-26T21:11:51Z) - On The Ingredients of an Effective Zero-shot Semantic Parser [95.01623036661468]
我々は、標準発話とプログラムの訓練例を文法から言い換えて、ゼロショット学習を分析する。
改良された文法,より強力なパラフレーズ,効率的な学習手法を用いて,これらのギャップを埋めることを提案する。
我々のモデルはラベル付きデータゼロの2つの意味解析ベンチマーク(Scholar, Geo)で高い性能を達成する。
論文 参考訳(メタデータ) (2021-10-15T21:41:16Z) - Improving Pretrained Cross-Lingual Language Models via Self-Labeled Word
Alignment [49.45399359826453]
言語間の言語モデルは通常、多言語テキストやパラレル文の言語モデリングで事前訓練される。
本稿では,新たな言語間事前学習課題として認知単語アライメントを導入する。
実験結果から,本手法は各種データセットの言語間移動性を向上することが示された。
論文 参考訳(メタデータ) (2021-06-11T13:36:01Z) - Revisiting Language Encoding in Learning Multilingual Representations [70.01772581545103]
言語埋め込みを置き換えるクロスリンガル言語投影(Cross-lingual Language Projection, XLP)と呼ばれる新しいアプローチを提案する。
XLPは単語埋め込みを言語固有の意味空間に投影し、投影された埋め込みはTransformerモデルに供給される。
実験により、xlpは広範囲の多言語ベンチマークデータセットのモデル性能を自由かつ著しく向上できることが示された。
論文 参考訳(メタデータ) (2021-02-16T18:47:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。