Fugu-MT 論文翻訳(概要): Lexinvariant Language Models

論文の概要: Lexinvariant Language Models

arxiv url: http://arxiv.org/abs/2305.16349v1
Date: Wed, 24 May 2023 19:10:46 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-29 19:04:22.440183
Title: Lexinvariant Language Models
Title（参考訳）: lexinvariant language モデル
Authors: Qian Huang, Eric Zelikman, Sarah Li Chen, Yuhuai Wu, Gregory Valiant, Percy Liang
Abstract要約: 離散語彙記号から連続ベクトルへの写像であるトークン埋め込みは、任意の言語モデル(LM)の中心にある我々は、語彙記号に不変であり、したがって実際に固定トークン埋め込みを必要としないテクスチトレキシン変種モデルについて研究する。十分長い文脈を条件として,レキシン変項LMは標準言語モデルに匹敵する難易度が得られることを示す。
参考スコア（独自算出の注目度）: 84.2829117441298
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Token embeddings, a mapping from discrete lexical symbols to continuous vectors, are at the heart of any language model (LM). However, lexical symbol meanings can also be determined and even redefined by their structural role in a long context. In this paper, we ask: is it possible for a language model to be performant without \emph{any} fixed token embeddings? Such a language model would have to rely entirely on the co-occurence and repetition of tokens in the context rather than the \textit{a priori} identity of any token. To answer this, we study \textit{lexinvariant}language models that are invariant to lexical symbols and therefore do not need fixed token embeddings in practice. First, we prove that we can construct a lexinvariant LM to converge to the true language model at a uniform rate that is polynomial in terms of the context length, with a constant factor that is sublinear in the vocabulary size. Second, to build a lexinvariant LM, we simply encode tokens using random Gaussian vectors, such that each token maps to the same representation within each sequence but different representations across sequences. Empirically, we demonstrate that it can indeed attain perplexity comparable to that of a standard language model, given a sufficiently long context. We further explore two properties of the lexinvariant language models: First, given text generated from a substitution cipher of English, it implicitly implements Bayesian in-context deciphering and infers the mapping to the underlying real tokens with high accuracy. Second, it has on average 4X better accuracy over synthetic in-context reasoning tasks. Finally, we discuss regularizing standard language models towards lexinvariance and potential practical applications.
Abstract（参考訳）: トークン埋め込みは、離散的な語彙記号から連続ベクトルへのマッピングであり、任意の言語モデル(lm)の中心にある。しかし、語彙記号の意味も決定され、長い文脈でそれらの構造的役割によって再定義される。本稿では,<emph{any}固定トークン埋め込みを使わずに,言語モデルの実行が可能か? このような言語モデルは、任意のトークンの \textit{a priori} アイデンティティではなく、コンテキストにおけるトークンの共起と反復に完全に依存する必要がある。これに対応するために,辞書記号に不変であり,したがって実際には固定トークン埋め込みを必要としない \textit{lexinvariant} 言語モデルの研究を行った。まず、文脈長の項で多項式である一様率で、語彙サイズで部分線型な定数係数で、真の言語モデルに収束するために、レキシン変項LMを構築することができることを証明する。第二に、Lexinvariant LMを構築するには、ランダムなガウスベクトルを用いてトークンをエンコードするだけで、各トークンは各シーケンス内で同じ表現にマップされるが、シーケンス間で異なる表現となる。経験的に、十分に長いコンテキストを条件として、標準言語モデルに匹敵する難易度が得られることを実証する。第一に、英語の置換暗号から生成されたテキストに対して、暗黙的にベイズ的インコンテキスト解読を実装し、基礎となる実トークンへのマッピングを高精度に推論する。第二に、合成インコンテキスト推論タスクよりも平均4倍精度が高い。最後に,標準言語モデルのレキシネーション化と実用的応用について検討する。

関連論文リスト

Sampling from Your Language Model One Byte at a Time [82.71473348639489]
トークン化は、PBP(Prompt Boundary Problem)として知られるモデル世代に歪みをもたらす可能性がある。 BPEトークン化器を用いて任意のオートレ LM を文字レベルまたはバイトレベル LM に変換する推論時間法を提案する。提案手法は, PBPを効率的に解き, 異なるトークン化器で言語モデルの語彙を統一することができる。
論文参考訳（メタデータ） (2025-06-17T02:37:04Z)
Language Models over Canonical Byte-Pair Encodings [56.09166157337198]
トークンレベルの言語モデルにおいて、正準性を強制する手法を提案する。正則性ミスの修正は,いくつかのモデルやコーパスの保持データの可能性を向上させることを示す。
論文参考訳（メタデータ） (2025-06-09T17:26:14Z)
From Language Models over Tokens to Language Models over Characters [54.123846188068384]
現代の言語モデルは、内部的、数学的には、エンファラクタ文字列ではなくトークン文字列上の分布である。本稿では,トークンレベル言語モデルから文字レベル言語への変換アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-12-04T21:19:20Z)
Interchangeable Token Embeddings for Extendable Vocabulary and Alpha-Equivalence [6.991281327290525]
言語モデルにおける交換可能なトークンを学習するための新しいアプローチを提案する。本手法は,構文表現における境界変数のリネームが意味論を保存する原理であるα等価性に対処するように設計されている。
論文参考訳（メタデータ） (2024-10-22T16:34:36Z)
Tokenization as Finite-State Transduction [24.19959327497118]
正規言語の全てのトークン化を効率的にエンコードできる有限状態フレームワークを導入する。そのByte-Pairを示します。 Match(BPE)とMaxPiece(WordPiece)がこのフレームワークに適合する。これの応用は、あるパターンにマッチするように言語モデルの出力を制約するガイド付き生成である。
論文参考訳（メタデータ） (2024-10-21T07:10:07Z)
Unified Lexical Representation for Interpretable Visual-Language Alignment [52.059812317944434]
複雑な設計をせずに両方のモダリティを統一した語彙表現を学習するためのフレームワークであるLexVLAを紹介する。我々はDINOv2をローカル言語の特徴の視覚モデルとして使用し、生成言語モデルであるLlamaをテキスト内語彙予測能力の活用に利用した。これら2つの事前学習されたユニモーダルモデルが、控えめなマルチモーダルデータセットを微調整することで、適切に整列できることを実証する。
論文参考訳（メタデータ） (2024-07-25T07:35:27Z)
Understanding and Mitigating Tokenization Bias in Language Models [6.418593476658017]
State-of-the-art言語モデルは自己回帰型であり、トークンとして知られるサブワード単位で動作する。一般的な符号化方式は、より多くのトレーニングやデータで緩和できないサンプリングバイアスを引き起こすことを示す。トークン化データに基づいて訓練された任意の言語モデルからバイアスのない推定値を得るための新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-06-24T17:38:02Z)
Hyperpolyglot LLMs: Cross-Lingual Interpretability in Token Embeddings [4.2243058640527575]
言語間移動学習は多言語大言語モデル(LLM)の重要な特性である 1)事前学習とモデルアーキテクチャが言語表現に与える影響,2)言語モデルに埋め込まれた言語間表現の応用について検討する。
論文参考訳（メタデータ） (2023-11-29T19:20:14Z)
Quark: Controllable Text Generation with Reinforced Unlearning [68.07749519374089]
大規模言語モデルは、しばしばユーザの期待に合わない振る舞いを学ぶ。本稿では,(不必要な)特性を定量化する報酬関数を最適化するアルゴリズムQuarkを紹介する。未学習の毒性、ネガティブな感情、反復について、我々の実験はQuarkが強いベースラインと最先端の強化学習法の両方より優れていることを示している。
論文参考訳（メタデータ） (2022-05-26T21:11:51Z)
On The Ingredients of an Effective Zero-shot Semantic Parser [95.01623036661468]
我々は、標準発話とプログラムの訓練例を文法から言い換えて、ゼロショット学習を分析する。改良された文法,より強力なパラフレーズ,効率的な学習手法を用いて,これらのギャップを埋めることを提案する。我々のモデルはラベル付きデータゼロの2つの意味解析ベンチマーク(Scholar, Geo)で高い性能を達成する。
論文参考訳（メタデータ） (2021-10-15T21:41:16Z)
Improving Pretrained Cross-Lingual Language Models via Self-Labeled Word Alignment [49.45399359826453]
言語間の言語モデルは通常、多言語テキストやパラレル文の言語モデリングで事前訓練される。本稿では,新たな言語間事前学習課題として認知単語アライメントを導入する。実験結果から,本手法は各種データセットの言語間移動性を向上することが示された。
論文参考訳（メタデータ） (2021-06-11T13:36:01Z)
Revisiting Language Encoding in Learning Multilingual Representations [70.01772581545103]
言語埋め込みを置き換えるクロスリンガル言語投影(Cross-lingual Language Projection, XLP)と呼ばれる新しいアプローチを提案する。 XLPは単語埋め込みを言語固有の意味空間に投影し、投影された埋め込みはTransformerモデルに供給される。実験により、xlpは広範囲の多言語ベンチマークデータセットのモデル性能を自由かつ著しく向上できることが示された。
論文参考訳（メタデータ） (2021-02-16T18:47:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。