論文の概要: Leader: Prefixing a Length for Faster Word Vector Serialization
- arxiv url: http://arxiv.org/abs/2009.13699v2
- Date: Fri, 9 Oct 2020 04:49:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 06:10:46.094450
- Title: Leader: Prefixing a Length for Faster Word Vector Serialization
- Title(参考訳): リーダ:より高速なワードベクターシリアライゼーションのための長さのプリフィックス
- Authors: Brian Lester
- Abstract要約: 事前訓練された単語の埋め込みを配布するために2つのファイル形式が使用される。
GloVeフォーマットはテキストベースのフォーマットで、ファイルサイズが大きく、読み込みが遅い。
word2vecフォーマットは、単語のテキスト表現とベクトル自体のバイナリ表現を混ぜた、より小さなバイナリフォーマットである。
- 参考スコア(独自算出の注目度): 11.112281331309939
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Two competing file formats have become the de facto standards for
distributing pre-trained word embeddings. Both are named after the most popular
pre-trained embeddings that are distributed in that format. The GloVe format is
an entirely text based format that suffers from huge file sizes and slow reads,
and the word2vec format is a smaller binary format that mixes a textual
representation of words with a binary representation of the vectors themselves.
Both formats have problems that we solve with a new format we call the Leader
format. We include a word length prefix for faster reads while maintaining the
smaller file size a binary format offers. We also created a minimalist library
to facilitate the reading and writing of various word vector formats, as well
as tools for converting pre-trained embeddings to our new Leader format.
- Abstract(参考訳): 競合する2つのファイルフォーマットは、事前訓練された単語埋め込みを配布するデファクトスタンダードとなっている。
どちらも、そのフォーマットで配布される最も人気のある事前学習された埋め込みから名付けられた。
GloVeフォーマットは、巨大なファイルサイズと遅い読み込みに悩まされる、完全にテキストベースのフォーマットであり、 word2vecフォーマットは、単語のテキスト表現とベクトル自体のバイナリ表現を混ぜた、より小さなバイナリフォーマットである。
両方のフォーマットには、私たちがリーダーフォーマットと呼ぶ新しいフォーマットで解決する問題があります。
バイナリフォーマットが提供するファイルサイズを小さく保ちながら、より高速な読み込みのためのワード長プレフィックスを含めます。
また、さまざまな単語ベクトルフォーマットの読み書きを容易にするミニマリストライブラリや、トレーニング済みの埋め込みを新しいリーダフォーマットに変換するツールも作成しました。
関連論文リスト
- Transformers Can Achieve Length Generalization But Not Robustly [76.06308648699357]
長さ一般化の成功は,データ形式や位置エンコーディングのタイプと密接に関連していることを示す。
標準変換器が入力長の2.5倍のシーケンス長に外挿できることを初めて示す。
論文 参考訳(メタデータ) (2024-02-14T18:18:29Z) - SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code
Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。
長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文 参考訳(メタデータ) (2024-01-26T09:23:27Z) - LRANet: Towards Accurate and Efficient Scene Text Detection with
Low-Rank Approximation Network [63.554061288184165]
低ランク近似に基づく新しいパラメータ化テキスト形状法を提案する。
異なるテキストの輪郭間の形状相関を探索することにより, 形状表現における一貫性, コンパクト性, 単純性, 頑健性を実現する。
我々はLRANetという名前の正確で効率的な任意の形状のテキスト検出器を実装した。
論文 参考訳(メタデータ) (2023-06-27T02:03:46Z) - Backpack Language Models [108.65930795825416]
Backpacksは、強力なモデリング性能と、解釈可能性と制御のためのインターフェースを組み合わせた、新しいニューラルアーキテクチャである。
学習のあと、感覚ベクトルが特殊化され、それぞれが単語の異なる側面を符号化することがわかった。
本稿では,感覚ベクトルに介入し,制御可能なテキスト生成とデバイアスを行うシンプルなアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-26T09:26:23Z) - Transforming Sequence Tagging Into A Seq2Seq Task [10.130389627403433]
入力テキストをSeq2Seqモデルの入力とターゲットにキャストするために使用できる様々なフォーマットについて検討する。
新しいフォーマットを導入し、よりシンプルであるだけでなく、より効果的であることを示します。
この新しいフォーマットはより堅牢で、幻覚がほとんどない。
論文 参考訳(メタデータ) (2022-03-16T03:48:14Z) - Sparse Coding with Multi-Layer Decoders using Variance Regularization [19.8572592390623]
本稿では,デコーダの正規化を必要とせずに,符号の崩壊を防止する新しいスパース符号化プロトコルを提案する。
本手法は,各潜時符号成分が一定の閾値を超える分散を有するように,直接正規化する。
分散正規化法を用いて訓練した多層デコーダを用いたスパースオートエンコーダは、スペーサー表現を用いた高品質な再構成を実現する。
論文 参考訳(メタデータ) (2021-12-16T21:46:23Z) - FormatFuzzer: Effective Fuzzing of Binary File Formats [11.201540907330436]
FormatFuzzerはフォーマット固有のファズーのジェネレータである。
フォーマット固有のファジターは、ブラックボックス設定でスタンドアロンのプロデューサまたはミューテータとして使用することができる。
論文 参考訳(メタデータ) (2021-09-23T10:28:35Z) - byteSteady: Fast Classification Using Byte-Level n-Gram Embeddings [77.6701264226519]
byteSteadyは,バイトレベルのn-gram埋め込みを用いた高速な分類モデルである。
byteSteadyの簡単な応用はテキスト分類である。
byteSteadyは1種類の非言語データ -- DNA配列を遺伝子分類に適用する。
論文 参考訳(メタデータ) (2021-06-24T20:14:48Z) - Sent2Matrix: Folding Character Sequences in Serpentine Manifolds for
Two-Dimensional Sentence [54.6266741821988]
テキストを2次元表現に変換し、Sent2Matrix法を開発する。
この手法は単語形態と境界の両方を明示的に組み込むことができる。
特に,本手法は,テキストを2次元フォーマットで表現する最初の試みである。
論文 参考訳(メタデータ) (2021-03-15T13:52:47Z) - All Word Embeddings from One Embedding [23.643059189673473]
自然言語処理のためのニューラルネットワークベースのモデルでは、パラメータの最大の部分は単語の埋め込みで構成されていることが多い。
本研究では,パラメータの総数を削減するために,すべての単語に対する埋め込みを共有埋め込みを変換することによって表現する。
提案手法であるALONEは,単語固有のが学習不能なフィルタベクトルを用いて,単語の埋め込みを改良し,単語の埋め込みを構築する。
論文 参考訳(メタデータ) (2020-04-25T07:38:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。