論文の概要: Bit Cipher -- A Simple yet Powerful Word Representation System that
Integrates Efficiently with Language Models
- arxiv url: http://arxiv.org/abs/2311.11012v1
- Date: Sat, 18 Nov 2023 08:47:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 12:54:48.905372
- Title: Bit Cipher -- A Simple yet Powerful Word Representation System that
Integrates Efficiently with Language Models
- Title(参考訳): Bit Cipher -- 言語モデルと効率的に統合するシンプルで強力な単語表現システム
- Authors: Haoran Zhao and Jake Ryland Williams
- Abstract要約: Bit-cipherは、バックプロパゲーションや超高効率次元減少技術の必要性を排除したワード表現システムである。
我々は、古典的な埋め込みによるビット暗号の競合性を評価するために、POSタグと名前付きエンティティ認識(NER)の探索実験を行った。
埋め込み層を暗号埋め込みに置き換えることで、トレーニングプロセスの高速化と最適な最適化を実現する上での暗号の顕著な効率を実証した。
- 参考スコア(独自算出の注目度): 4.807347156077897
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Large Language Models (LLMs) become ever more dominant, classic
pre-trained word embeddings sustain their relevance through computational
efficiency and nuanced linguistic interpretation. Drawing from recent studies
demonstrating that the convergence of GloVe and word2vec optimizations all tend
towards log-co-occurrence matrix variants, we construct a novel word
representation system called Bit-cipher that eliminates the need of
backpropagation while leveraging contextual information and hyper-efficient
dimensionality reduction techniques based on unigram frequency, providing
strong interpretability, alongside efficiency. We use the bit-cipher algorithm
to train word vectors via a two-step process that critically relies on a
hyperparameter -- bits -- that controls the vector dimension. While the first
step trains the bit-cipher, the second utilizes it under two different
aggregation modes -- summation or concatenation -- to produce contextually rich
representations from word co-occurrences. We extend our investigation into
bit-cipher's efficacy, performing probing experiments on part-of-speech (POS)
tagging and named entity recognition (NER) to assess its competitiveness with
classic embeddings like word2vec and GloVe. Additionally, we explore its
applicability in LM training and fine-tuning. By replacing embedding layers
with cipher embeddings, our experiments illustrate the notable efficiency of
cipher in accelerating the training process and attaining better optima
compared to conventional training paradigms. Experiments on the integration of
bit-cipher embedding layers with Roberta, T5, and OPT, prior to or as a
substitute for fine-tuning, showcase a promising enhancement to transfer
learning, allowing rapid model convergence while preserving competitive
performance.
- Abstract(参考訳): 大規模言語モデル(LLM)はより支配的になる一方、古典的な事前訓練された単語埋め込みは計算効率とニュアンス付き言語解釈を通じてそれらの関連性を維持する。
グローブおよびword2vec最適化の収束がすべてログ共起行列の変種に向けられていることを示す最近の研究から、文脈情報とユニグラム周波数に基づく高効率な次元化技術を利用して、効率とともに強力な解釈可能性を提供するとともに、バックプロパゲーションの必要性をなくす、bit-cipherと呼ばれる新しいワード表現システムを構築した。
ビット暗号アルゴリズムを使用して、ベクトル次元を制御するハイパーパラメーター -- ビット -- にクリティカルに依存する2段階のプロセスを通じて単語ベクトルを訓練します。
第1のステップではビット暗号をトレーニングする一方で、第2のステップでは、2つの異なるアグリゲーションモード(和や結合)の下で、単語の共起からコンテキスト的にリッチな表現を生成する。
我々は,word2vec や glove のような従来の組込みシステムとの競合性を評価するために,pos (part-of-speech) タグとner (named entity recognition) を用いた探索実験を行い,bit-cipher の有効性を調査した。
さらに、LMトレーニングおよび微調整への適用性についても検討する。
実験では,組込み層を暗号組込みに置き換えることで,従来の学習パラダイムと比較して,学習プロセスの加速と視能向上における暗号の顕著な効率を示す。
ビット暗号埋め込み層をroberta, t5, optと統合する実験では、微調整の前または代替として、転送学習への有望な拡張を示し、競争性能を維持しながら迅速なモデル収束を可能にする。
関連論文リスト
- Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - An Analysis of BPE Vocabulary Trimming in Neural Machine Translation [56.383793805299234]
語彙トリミング(vocabulary trimming)は、まれなサブワードをコンポーネントサブワードに置き換える後処理のステップである。
ボキャブラリトリミングは性能向上に失敗し,さらに大きな劣化を招きやすいことを示す。
論文 参考訳(メタデータ) (2024-03-30T15:29:49Z) - Sequence Shortening for Context-Aware Machine Translation [5.803309695504831]
マルチエンコーダアーキテクチャの特殊な場合において,コントラストデータセットの精度が向上することを示す。
遅延グループと遅延選択という2つの新しい手法を導入し、ネットワークはトークンをグループ化するか、コンテキストとしてキャッシュされるトークンを選択する。
論文 参考訳(メタデータ) (2024-02-02T13:55:37Z) - Sentiment analysis in Tourism: Fine-tuning BERT or sentence embeddings
concatenation? [0.0]
変換器からの双方向表現を微調整する手法と2つの埋め込みを結合して、積層した2方向長短期記憶-二方向Gated Recurrent Unitsモデルの性能を向上させる方法の比較研究を行う。
2つの手法のレベルで最高の学習率の探索を行い、各文の埋め込み組み合わせに対して最適な埋め込みの比較を行った。
論文 参考訳(メタデータ) (2023-12-12T23:23:23Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - Word Sense Induction with Hierarchical Clustering and Mutual Information
Maximization [14.997937028599255]
単語知覚誘導は自然言語処理において難しい問題である。
階層的クラスタリングと不変情報クラスタリングに基づく新しい教師なし手法を提案する。
我々は、ある場合において、我々のアプローチが先行したWSIの最先端手法よりも優れていることを実証的に実証した。
論文 参考訳(メタデータ) (2022-10-11T13:04:06Z) - Better Language Model with Hypernym Class Prediction [101.8517004687825]
クラスベース言語モデル (LM) は、コンテキストの疎結合に$n$-gramのLMで対処するために長年開発されてきた。
本研究では,このアプローチをニューラルLMの文脈で再考する。
論文 参考訳(メタデータ) (2022-03-21T01:16:44Z) - Orthros: Non-autoregressive End-to-end Speech Translation with
Dual-decoder [64.55176104620848]
NARと自己回帰(AR)デコーダの両方を共有音声エンコーダで共同で訓練する新しいNAR E2E-STフレームワークOrthrosを提案する。
後者は、前者から生成される様々な長の候補間のより良い翻訳を選択するために使用され、これは、無視できるオーバーヘッドを持つ大きな長のビームの有効性を劇的に向上させる。
4つのベンチマーク実験により、競合翻訳品質を維持しつつ、推論速度を向上させる手法の有効性が示された。
論文 参考訳(メタデータ) (2020-10-25T06:35:30Z) - Keyphrase Extraction with Dynamic Graph Convolutional Networks and
Diversified Inference [50.768682650658384]
キーワード抽出(KE)は、ある文書でカバーされている概念やトピックを正確に表現するフレーズの集合を要約することを目的としている。
最近のシークエンス・ツー・シークエンス(Seq2Seq)ベースの生成フレームワークはKEタスクで広く使われ、様々なベンチマークで競合性能を得た。
本稿では,この2つの問題を同時に解くために,動的グラフ畳み込みネットワーク(DGCN)を採用することを提案する。
論文 参考訳(メタデータ) (2020-10-24T08:11:23Z) - Computationally Efficient NER Taggers with Combined Embeddings and
Constrained Decoding [10.643105866460978]
名前付きエンティティ認識(NER)における現在の最先端モデルは、最終ネットワーク層として条件ランダムフィールド(CRF)を備えたニューラルモデルであり、事前訓練された「コンテキスト埋め込み」である。
本研究では,NERの性能を大幅に向上させる2つの簡単な手法について検討する。
2003年のCoNLLでタグをトレーニングしている間、強いパフォーマンスを犠牲にすることなく、コンテキスト埋め込みベースのタグよりも786$%のスピードアップが得られました。
論文 参考訳(メタデータ) (2020-01-05T04:50:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。