論文の概要: Elementwise Language Representation
- arxiv url: http://arxiv.org/abs/2302.13475v1
- Date: Mon, 27 Feb 2023 02:15:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 17:00:04.223096
- Title: Elementwise Language Representation
- Title(参考訳): elementwise言語表現
- Authors: Dunam Kim, Jeeeun Kim
- Abstract要約: 本稿では,要素埋め込みと呼ばれる計算言語表現のための新しい手法を提案する。
要素埋め込みは変換器モデルの$w$次元埋め込みテーブルを256$c$次元要素に置き換えることを示す。
BERTは要素埋め込みで訓練され、多ラベル特許文書分類においてそのサブワード等価性を上回っている。
- 参考スコア(独自算出の注目度): 6.233117407988574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a new technique for computational language representation called
elementwise embedding, in which a material (semantic unit) is abstracted into a
horizontal concatenation of lower-dimensional element (character) embeddings.
While elements are always characters, materials are arbitrary levels of
semantic units so it generalizes to any type of tokenization. To focus only on
the important letters, the $n^{th}$ spellings of each semantic unit are aligned
in $n^{th}$ attention heads, then concatenated back into original forms
creating unique embedding representations; they are jointly projected thereby
determining own contextual importance. Technically, this framework is achieved
by passing a sequence of materials, each consists of $v$ elements, to a
transformer having $h=v$ attention heads. As a pure embedding technique,
elementwise embedding replaces the $w$-dimensional embedding table of a
transformer model with $256$ $c$-dimensional elements (each corresponding to
one of UTF-8 bytes) where $c=w/v$. Using this novel approach, we show that the
standard transformer architecture can be reused for all levels of language
representations and be able to process much longer sequences at the same
time-complexity without "any" architectural modification and additional
overhead. BERT trained with elementwise embedding outperforms its subword
equivalence (original implementation) in multilabel patent document
classification exhibiting superior robustness to domain-specificity and data
imbalance, despite using $0.005\%$ of embedding parameters. Experiments
demonstrate the generalizability of the proposed method by successfully
transferring these enhancements to differently architected transformers CANINE
and ALBERT.
- Abstract(参考訳): 本稿では, 材料(意味単位)を低次元要素(文字)埋め込みの水平結合に抽象化する, 要素ワイド埋め込みと呼ばれる新しい計算言語表現手法を提案する。
要素は常に文字であるが、材料は任意の意味単位のレベルであり、任意の種類のトークン化に一般化する。
重要な文字だけに焦点を当てるために、各意味単位の$n^{th}$の綴りは$n^{th}$の注意ヘッドに並べられ、元の形式に結合され、ユニークな埋め込み表現が作られる。
技術的には、この枠組みは、それぞれが$v$要素からなる一連の材料を$h=v$注意ヘッドを持つトランスフォーマーに渡すことによって達成される。
純粋な埋め込み技術として、elementwise embeddedはトランスフォーマーモデルの$w$-dimensional組み込みテーブルを$c$-dimensional要素(それぞれutf-8バイトの1つに対応する)で$c=w/v$で置き換える。
この斬新なアプローチを用いることで、標準のトランスフォーマーアーキテクチャをあらゆるレベルの言語表現に再利用し、"任意の"アーキテクチャの変更と追加のオーバーヘッドを伴わずに、より長いシーケンスを同時に処理できることを示した。
BERTは、埋め込みパラメータが0.005$%であるにもかかわらず、ドメイン固有性とデータ不均衡に優れた堅牢性を示すマルチラベル特許文書分類において、そのサブワード等価性(元の実装)を上回ります。
これらの拡張をCANINEとALBERTに変換することで,提案手法の一般化性を示す実験を行った。
関連論文リスト
- Interchangeable Token Embeddings for Extendable Vocabulary and Alpha-Equivalence [6.991281327290525]
言語モデルにおける交換可能なトークンを学習するための新しいアプローチを提案する。
本手法は,構文表現における境界変数のリネームが意味論を保存する原理であるα等価性に対処するように設計されている。
論文 参考訳(メタデータ) (2024-10-22T16:34:36Z) - Uncovering Prototypical Knowledge for Weakly Open-Vocabulary Semantic
Segmentation [59.37587762543934]
本稿では,弱開語彙セマンティックセマンティックセグメンテーション(WOVSS)の問題点について検討する。
既存の方法は、グループトークンの使用に関する粒度の矛盾に悩まされる。
マルチモーダル正規化を組み込んだプロトタイプ誘導ネットワーク(PGSeg)を提案する。
論文 参考訳(メタデータ) (2023-10-29T13:18:00Z) - Contrastive Representation Learning for Cross-Document Coreference
Resolution of Events and Entities [0.0]
コントラスト表現学習を利用したエンティティとイベントのコア参照解決手法を提案する。
本手法は,ECB+コーパスにおける多くの重要な指標について,最先端の結果を得る。
論文 参考訳(メタデータ) (2022-05-23T16:30:20Z) - Generalized Funnelling: Ensemble Learning and Heterogeneous Document
Embeddings for Cross-Lingual Text Classification [78.83284164605473]
emphFunnelling (Fun)は、最近提案された言語間テキスト分類手法である。
Emph Generalized Funnelling (gFun) はFunの一般化である。
gFunは、Funや最先端のベースラインよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2021-09-17T23:33:04Z) - Learning to Look Inside: Augmenting Token-Based Encoders with
Character-Level Information [29.633735942273997]
XRayEmbは、既存のトークンベースのモデルに文字レベルの情報を適合させる手法である。
我々は,XRayEmbの学習ベクトルを事前学習されたトークン埋め込みのシーケンスに組み込むことで,自己回帰型およびマスク付き事前学習されたトランスフォーマーアーキテクチャの性能を向上させることを示す。
論文 参考訳(メタデータ) (2021-08-01T08:09:26Z) - Charformer: Fast Character Transformers via Gradient-based Subword
Tokenization [50.16128796194463]
モデルの一部としてサブワードトークン化をエンドツーエンドに学習する新しいモデル帰納バイアスを提案する。
文字から潜在単語表現を自動的に学習する,ソフトグラデーションベースのサブワードトークンモジュール(GBST)を導入する。
また、GBSTを統合し、バイトレベルで動作する深層トランスフォーマーモデルであるCharformerを紹介する。
論文 参考訳(メタデータ) (2021-06-23T22:24:14Z) - CharacterBERT: Reconciling ELMo and BERT for Word-Level Open-Vocabulary
Representations From Characters [14.956626084281638]
本稿では,ワードピースシステムを完全に廃止し,代わりに文字を照会して全単語を表現するために,文字CNNモジュールを使用するBERTの新たな変種を提案する。
この新モデルにより,様々な医療領域タスクにおけるBERTの性能が向上すると同時に,頑健で単語レベルのオープン語彙表現が実現できることが示唆された。
論文 参考訳(メタデータ) (2020-10-20T15:58:53Z) - Unsupervised Distillation of Syntactic Information from Contextualized
Word Representations [62.230491683411536]
我々は,ニューラルネットワーク表現における意味論と構造学の非教師なしの絡み合いの課題に取り組む。
この目的のために、構造的に類似しているが意味的に異なる文群を自動的に生成する。
我々は、我々の変換クラスタベクトルが、語彙的意味論ではなく構造的特性によって空間に現れることを実証する。
論文 参考訳(メタデータ) (2020-10-11T15:13:18Z) - Anchor & Transform: Learning Sparse Embeddings for Large Vocabularies [60.285091454321055]
我々は,アンカー埋め込みとスパース変換行列の小さな組を学習する,単純で効率的な埋め込みアルゴリズムを設計する。
テキスト分類、言語モデリング、映画レコメンデーションのベンチマークでは、ANTは大きな語彙サイズに特に適していることが示されている。
論文 参考訳(メタデータ) (2020-03-18T13:07:51Z) - Supervised Quantile Normalization for Low-rank Matrix Approximation [50.445371939523305]
我々は、$X$ の値と $UV$ の値を行ワイズで操作できる量子正規化演算子のパラメータを学習し、$X$ の低ランク表現の質を改善する。
本稿では,これらの手法が合成およびゲノムデータセットに適用可能であることを実証する。
論文 参考訳(メタデータ) (2020-02-08T21:06:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。