論文の概要: Leader: Prefixing a Length for Faster Word Vector Serialization
- arxiv url: http://arxiv.org/abs/2009.13699v2
- Date: Fri, 9 Oct 2020 04:49:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 06:10:46.094450
- Title: Leader: Prefixing a Length for Faster Word Vector Serialization
- Title(参考訳): リーダ:より高速なワードベクターシリアライゼーションのための長さのプリフィックス
- Authors: Brian Lester
- Abstract要約: 事前訓練された単語の埋め込みを配布するために2つのファイル形式が使用される。
GloVeフォーマットはテキストベースのフォーマットで、ファイルサイズが大きく、読み込みが遅い。
word2vecフォーマットは、単語のテキスト表現とベクトル自体のバイナリ表現を混ぜた、より小さなバイナリフォーマットである。
- 参考スコア(独自算出の注目度): 11.112281331309939
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Two competing file formats have become the de facto standards for
distributing pre-trained word embeddings. Both are named after the most popular
pre-trained embeddings that are distributed in that format. The GloVe format is
an entirely text based format that suffers from huge file sizes and slow reads,
and the word2vec format is a smaller binary format that mixes a textual
representation of words with a binary representation of the vectors themselves.
Both formats have problems that we solve with a new format we call the Leader
format. We include a word length prefix for faster reads while maintaining the
smaller file size a binary format offers. We also created a minimalist library
to facilitate the reading and writing of various word vector formats, as well
as tools for converting pre-trained embeddings to our new Leader format.
- Abstract(参考訳): 競合する2つのファイルフォーマットは、事前訓練された単語埋め込みを配布するデファクトスタンダードとなっている。
どちらも、そのフォーマットで配布される最も人気のある事前学習された埋め込みから名付けられた。
GloVeフォーマットは、巨大なファイルサイズと遅い読み込みに悩まされる、完全にテキストベースのフォーマットであり、 word2vecフォーマットは、単語のテキスト表現とベクトル自体のバイナリ表現を混ぜた、より小さなバイナリフォーマットである。
両方のフォーマットには、私たちがリーダーフォーマットと呼ぶ新しいフォーマットで解決する問題があります。
バイナリフォーマットが提供するファイルサイズを小さく保ちながら、より高速な読み込みのためのワード長プレフィックスを含めます。
また、さまざまな単語ベクトルフォーマットの読み書きを容易にするミニマリストライブラリや、トレーニング済みの埋め込みを新しいリーダフォーマットに変換するツールも作成しました。
関連論文リスト
- Late Chunking: Contextual Chunk Embeddings Using Long-Context Embedding Models [5.330795983408874]
遅延チャンキングと呼ばれる新しい手法を導入し、長いコンテキストの埋め込みモデルを利用して、まず長いテキストのトークンを埋め込む。
結果として得られたチャンク埋め込みは、コンテキスト情報を完全にキャプチャし、様々な検索タスクにおいて優れた結果をもたらす。
論文 参考訳(メタデータ) (2024-09-07T03:54:46Z) - InstructCMP: Length Control in Sentence Compression through Instruction-based Large Language Models [27.26285945442178]
InstructCMPは文圧縮タスクへのアプローチであり、命令によって長さ制約を考慮できる。
長さプライミングを適用することで、ゼロショット設定と微調整設定の両方において、インストラクトCMPの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-16T23:00:47Z) - Training LLMs over Neurally Compressed Text [55.11828645767342]
本稿では,高度に圧縮されたテキスト上での大規模言語モデル(LLM)の訓練について検討する。
テキストをブロックに分割し,それぞれが同じビット長に圧縮する新しい圧縮手法であるEqual-Info Windowsを提案する。
提案手法は, 大規模化により向上し, パープレキシティと推論速度のベンチマークにおいて, バイトレベルのベースラインをはるかに上回る, ニューラルネットワークによる効果的な学習を実演する。
論文 参考訳(メタデータ) (2024-04-04T17:48:28Z) - Transformers Can Achieve Length Generalization But Not Robustly [76.06308648699357]
長さ一般化の成功は,データ形式や位置エンコーディングのタイプと密接に関連していることを示す。
標準変換器が入力長の2.5倍のシーケンス長に外挿できることを初めて示す。
論文 参考訳(メタデータ) (2024-02-14T18:18:29Z) - SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code
Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。
長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文 参考訳(メタデータ) (2024-01-26T09:23:27Z) - LRANet: Towards Accurate and Efficient Scene Text Detection with
Low-Rank Approximation Network [63.554061288184165]
低ランク近似に基づく新しいパラメータ化テキスト形状法を提案する。
異なるテキストの輪郭間の形状相関を探索することにより, 形状表現における一貫性, コンパクト性, 単純性, 頑健性を実現する。
我々はLRANetという名前の正確で効率的な任意の形状のテキスト検出器を実装した。
論文 参考訳(メタデータ) (2023-06-27T02:03:46Z) - Transforming Sequence Tagging Into A Seq2Seq Task [10.130389627403433]
入力テキストをSeq2Seqモデルの入力とターゲットにキャストするために使用できる様々なフォーマットについて検討する。
新しいフォーマットを導入し、よりシンプルであるだけでなく、より効果的であることを示します。
この新しいフォーマットはより堅牢で、幻覚がほとんどない。
論文 参考訳(メタデータ) (2022-03-16T03:48:14Z) - FormatFuzzer: Effective Fuzzing of Binary File Formats [11.201540907330436]
FormatFuzzerはフォーマット固有のファズーのジェネレータである。
フォーマット固有のファジターは、ブラックボックス設定でスタンドアロンのプロデューサまたはミューテータとして使用することができる。
論文 参考訳(メタデータ) (2021-09-23T10:28:35Z) - byteSteady: Fast Classification Using Byte-Level n-Gram Embeddings [77.6701264226519]
byteSteadyは,バイトレベルのn-gram埋め込みを用いた高速な分類モデルである。
byteSteadyの簡単な応用はテキスト分類である。
byteSteadyは1種類の非言語データ -- DNA配列を遺伝子分類に適用する。
論文 参考訳(メタデータ) (2021-06-24T20:14:48Z) - Sent2Matrix: Folding Character Sequences in Serpentine Manifolds for
Two-Dimensional Sentence [54.6266741821988]
テキストを2次元表現に変換し、Sent2Matrix法を開発する。
この手法は単語形態と境界の両方を明示的に組み込むことができる。
特に,本手法は,テキストを2次元フォーマットで表現する最初の試みである。
論文 参考訳(メタデータ) (2021-03-15T13:52:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。