論文の概要: byteSteady: Fast Classification Using Byte-Level n-Gram Embeddings
- arxiv url: http://arxiv.org/abs/2106.13302v1
- Date: Thu, 24 Jun 2021 20:14:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-28 13:19:26.097328
- Title: byteSteady: Fast Classification Using Byte-Level n-Gram Embeddings
- Title(参考訳): byteSteady: Byte-Level n-Gram 埋め込みを使った高速な分類
- Authors: Xiang Zhang, Alexandre Drouin, Raymond Li
- Abstract要約: byteSteadyは,バイトレベルのn-gram埋め込みを用いた高速な分類モデルである。
byteSteadyの簡単な応用はテキスト分類である。
byteSteadyは1種類の非言語データ -- DNA配列を遺伝子分類に適用する。
- 参考スコア(独自算出の注目度): 77.6701264226519
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This article introduces byteSteady -- a fast model for classification using
byte-level n-gram embeddings. byteSteady assumes that each input comes as a
sequence of bytes. A representation vector is produced using the averaged
embedding vectors of byte-level n-grams, with a pre-defined set of n. The
hashing trick is used to reduce the number of embedding vectors. This input
representation vector is then fed into a linear classifier. A straightforward
application of byteSteady is text classification. We also apply byteSteady to
one type of non-language data -- DNA sequences for gene classification. For
both problems we achieved competitive classification results against strong
baselines, suggesting that byteSteady can be applied to both language and
non-language data. Furthermore, we find that simple compression using Huffman
coding does not significantly impact the results, which offers an
accuracy-speed trade-off previously unexplored in machine learning.
- Abstract(参考訳): この記事では、バイトレベルのn-gram埋め込みを使用した分類の高速モデルである byteSteadyを紹介します。
byteSteadyは、各入力がバイトのシーケンスとして来ると仮定する。
表現ベクトルは、事前に定義された n の集合を持つバイトレベルのn-グラムの平均埋め込みベクトルを用いて生成される。
この入力表現ベクトルは線形分類器に供給される。
byteSteadyの簡単な応用はテキスト分類である。
byteSteadyは1種類の非言語データ -- DNA配列を遺伝子分類に適用する。
どちらの問題においても、強いベースラインに対して競合的な分類結果を達成し、言語データと非言語データの両方にバイトステッドを適用することができることを示唆した。
さらに,Huffman符号化を用いた単純な圧縮は結果に大きな影響を与えないことがわかった。
関連論文リスト
- Classification Done Right for Vision-Language Pre-Training [66.90286715149786]
画像テキストデータに基づく視覚言語事前学習のための超単純な分類法であるSuperClassを紹介する。
SuperClassは、トークン化された生テキストを、追加のテキストフィルタリングや選択を必要とせずに、教師付き分類ラベルとして直接利用する。
SuperClassは、古典的なコンピュータビジョンベンチマークやビジョン言語ダウンストリームタスクなど、さまざまなダウンストリームタスクで優れたパフォーマンスを示した。
論文 参考訳(メタデータ) (2024-11-05T18:58:15Z) - Ordered and Binary Speaker Embedding [12.22202088781098]
本稿では,ネストしたドロップアウトにより埋め込みベクトルの次元をソートし,バーヌーイサンプリングによりソートされたベクトルをバイナリコードに変換する順序付きバイナリ埋め込み手法を提案する。
結果として順序付けられたバイナリコードには、階層的クラスタリング、メモリ使用量の削減、高速検索など、いくつかの重要なメリットがある。
論文 参考訳(メタデータ) (2023-05-25T13:21:00Z) - A Byte Sequence is Worth an Image: CNN for File Fragment Classification
Using Bit Shift and n-Gram Embeddings [21.14735408046021]
メモリの小さなチャンク上のファイル断片分類(FFC)は、メモリ科学とインターネットセキュリティにおいて不可欠である。
既存の方法はファイルフラグメントを1dバイトの信号として扱い、キャプチャされたバイト間の特徴を分類に利用している。
ファイルフラグメントに無視されたバイト内情報を導入し、2次元グレースケールの画像として再処理するための新しいデータ拡張手法Byte2Imageを提案する。
論文 参考訳(メタデータ) (2023-04-14T08:06:52Z) - Optimizing Bi-Encoder for Named Entity Recognition via Contrastive
Learning [80.36076044023581]
名前付きエンティティ認識(NER)のための効率的なバイエンコーダフレームワークを提案する。
我々はNERを、エンティティ参照のベクトル表現とその型との類似性を最大化する計量学習問題とみなす。
NERのこのバイエンコーダの定式化における大きな課題は、エンティティの言及から非エンゲージスを分離することにある。
論文 参考訳(メタデータ) (2022-08-30T23:19:04Z) - Local Byte Fusion for Neural Machine Translation [19.16966721276286]
サブワードトークン化スキームは、現在のNLPモデルで使用される主要なテクニックである。
バイトベースのメソッド、すなわちバイトシーケンスへのトークン化は代替手段である。
多言語翻訳、ゼロショット交叉変換、ドメイン適応の実験は、従来のモデルよりも一貫した改善を示している。
論文 参考訳(メタデータ) (2022-05-23T17:49:02Z) - Language-driven Semantic Segmentation [88.21498323896475]
本稿では,言語駆動型セマンティックイメージセグメンテーションの新しいモデルLSegを提案する。
テキストエンコーダを用いて記述型入力ラベルの埋め込みを計算する。
エンコーダは、画素埋め込みを対応するセマンティッククラスのテキスト埋め込みに合わせるために、対照的な目的で訓練される。
論文 参考訳(メタデータ) (2022-01-10T18:59:10Z) - Charformer: Fast Character Transformers via Gradient-based Subword
Tokenization [50.16128796194463]
モデルの一部としてサブワードトークン化をエンドツーエンドに学習する新しいモデル帰納バイアスを提案する。
文字から潜在単語表現を自動的に学習する,ソフトグラデーションベースのサブワードトークンモジュール(GBST)を導入する。
また、GBSTを統合し、バイトレベルで動作する深層トランスフォーマーモデルであるCharformerを紹介する。
論文 参考訳(メタデータ) (2021-06-23T22:24:14Z) - Neural Machine Translation without Embeddings [44.129310924201604]
多くのNLPモデルは、手作りのトークン化規則とサブワード誘導アルゴリズムによって生成されるサブワードトークンのシーケンス上で動作する。
単純な普遍的な代替手段は、すべてのコンピュータ化されたテキストを8バイトのバイト列として表現することである。
英語から10の異なる言語へのバイトバイト機械翻訳の実験では、BLEUの一貫性が向上し、文字レベルや標準のサブワードレベルモデルに匹敵する結果となった。
論文 参考訳(メタデータ) (2020-08-21T09:54:11Z) - Learning Directly from Grammar Compressed Text [17.91878224879985]
本稿では, 圧縮を伴わない文法圧縮アルゴリズムを用いて圧縮したテキストデータに対して, ニューラルシーケンスモデルを適用する手法を提案する。
圧縮規則に現れるユニークなシンボルを符号化するために,記号をベクトル表現にインクリメンタルにエンコードする合成モジュールを導入する。
論文 参考訳(メタデータ) (2020-02-28T06:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。