論文の概要: Character-level Chinese Backpack Language Models
- arxiv url: http://arxiv.org/abs/2310.12751v1
- Date: Thu, 19 Oct 2023 13:54:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 15:05:27.645994
- Title: Character-level Chinese Backpack Language Models
- Title(参考訳): 文字レベルの中国語バックパック言語モデル
- Authors: Hao Sun, John Hewitt
- Abstract要約: 文字入力中国語でBackpack言語モデルを訓練し、評価し、解釈し、制御する。
134Mパラメータの中国語 Backpack言語モデルが,104Mパラメータの変換器に対して可逆的に動作していることが判明した。
複雑なマルチ文字の意味はしばしば、コンテキスト全体にわたって同じ文字単位の重みを用いて形成される。
- 参考スコア(独自算出の注目度): 19.329707412615047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Backpack is a Transformer alternative shown to improve interpretability
in English language modeling by decomposing predictions into a weighted sum of
token sense components. However, Backpacks' reliance on token-defined meaning
raises questions as to their potential for languages other than English, a
language for which subword tokenization provides a reasonable approximation for
lexical items. In this work, we train, evaluate, interpret, and control
Backpack language models in character-tokenized Chinese, in which words are
often composed of many characters. We find that our (134M parameter) Chinese
Backpack language model performs comparably to a (104M parameter) Transformer,
and learns rich character-level meanings that log-additively compose to form
word meanings. In SimLex-style lexical semantic evaluations, simple averages of
Backpack character senses outperform input embeddings from a Transformer. We
find that complex multi-character meanings are often formed by using the same
per-character sense weights consistently across context. Exploring
interpretability-through control, we show that we can localize a source of
gender bias in our Backpacks to specific character senses and intervene to
reduce the bias.
- Abstract(参考訳): バックパックは、予測をトークンセンス成分の重み付け和に分解することで、英語のモデリングにおける解釈性を改善するために示されるトランスフォーマーの代替品である。
しかし、Backpacksのトークン定義の意味への依存は、単語のトークン化が語彙項目に妥当な近似を与える言語である英語以外の言語に対する潜在的な可能性に疑問を投げかける。
本研究は,多くの文字から構成される文字認識中国語のBackpack言語モデルを訓練し,評価し,解釈し,制御する。
134Mパラメータ) 中国語の Backpack 言語モデルは (104Mパラメータ) トランスフォーマーと互換性があり, 単語の意味を対数的に合成するリッチな文字レベルの意味を学習する。
simlexスタイルの語彙意味評価では、バックパック文字の単純な平均はトランスフォーマーからの入力埋め込みよりも大きい。
複雑なマルチキャラクタの意味は、文脈をまたがって同じキャラクタ単位の重みを用いてしばしば形成される。
解釈可能性制御をめざして,バックパック内のジェンダーバイアスの源を特定の文字感覚にローカライズし,バイアスを減らすために介入できることを示した。
関連論文リスト
- Backpack Language Models [108.65930795825416]
Backpacksは、強力なモデリング性能と、解釈可能性と制御のためのインターフェースを組み合わせた、新しいニューラルアーキテクチャである。
学習のあと、感覚ベクトルが特殊化され、それぞれが単語の異なる側面を符号化することがわかった。
本稿では,感覚ベクトルに介入し,制御可能なテキスト生成とデバイアスを行うシンプルなアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-26T09:26:23Z) - Lexinvariant Language Models [84.2829117441298]
離散語彙記号から連続ベクトルへの写像であるトークン埋め込みは、任意の言語モデル(LM)の中心にある
我々は、語彙記号に不変であり、したがって実際に固定トークン埋め込みを必要としないテクスチトレキシン変種モデルについて研究する。
十分長い文脈を条件として,レキシン変項LMは標準言語モデルに匹敵する難易度が得られることを示す。
論文 参考訳(メタデータ) (2023-05-24T19:10:46Z) - Exploiting Word Semantics to Enrich Character Representations of Chinese
Pre-trained Models [12.0190584907439]
本稿では,単語構造を利用して語彙意味を事前学習したモデルの文字表現に統合する手法を提案する。
提案手法は,中国の異なるNLPタスクにおけるBERT,BERT-wwm,ERNIEよりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2022-07-13T02:28:08Z) - What do tokens know about their characters and how do they know it? [3.8254443661593633]
サブワードトークン化スキームを用いた事前学習型言語モデルは,文字レベルの情報を必要とする様々な言語タスクで成功することを示す。
これらのモデルが文字レベル情報を強固にエンコードし、一般に、より大きなモデルがそのタスクにおいてより優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2022-06-06T13:27:26Z) - SHUOWEN-JIEZI: Linguistically Informed Tokenizers For Chinese Language
Model Pretraining [48.880840711568425]
事前学習された言語モデルの中国語トークン化に対する3つの要因の影響について検討する。
本稿では,発音に基づくトークン化システムであるSHUOWEN (Talk Word) と,グリフに基づくトークン化システムであるJIEZI (Solve Character) の3種類のトークン化手法を提案する。
SHUOWENとJIEZIは、一般的に従来のシングル文字トークンよりも優れた性能を持つ。
論文 参考訳(メタデータ) (2021-06-01T11:20:02Z) - Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese
Pre-trained Language Models [62.41139712595334]
中国語のための新しい事前学習パラダイムであるLattice-BERTを提案する。
文中の文字や単語から格子グラフを構築し、これらすべてのテキスト単位をトランスフォーマーに供給します。
本モデルが12層設定で平均1.5%の増加をもたらすことを示した。
論文 参考訳(メタデータ) (2021-04-15T02:36:49Z) - LET: Linguistic Knowledge Enhanced Graph Transformer for Chinese Short
Text Matching [29.318730227080675]
外部知識基盤としてHowNetを導入し,単語のあいまいさに対処する言語知識拡張グラフ変換器(LET)を提案する。
2つの中国語データセットによる実験結果から、我々のモデルは様々な典型的なテキストマッチング手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-02-25T04:01:51Z) - 2kenize: Tying Subword Sequences for Chinese Script Conversion [54.33749520569979]
本稿では,2つのスクリプト間のマッピングと変換をあいまいにできるモデルを提案する。
提案手法は,従来の漢字変換手法よりも精度が6ポイント向上した。
論文 参考訳(メタデータ) (2020-05-07T10:53:05Z) - Self-Attention with Cross-Lingual Position Representation [112.05807284056337]
位置符号化(PE)は、自然言語処理タスクの単語順序情報を保存し、入力シーケンスの固定位置インデックスを生成する。
語順が異なるため、言語間の位置関係をモデル化することは、SANがこの問題に取り組むのに役立つ。
我々は、入力文のバイリンガル認識潜在構造をモデル化するために、言語間位置表現によるSANを拡大する。
論文 参考訳(メタデータ) (2020-04-28T05:23:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。