論文の概要: Duncode Characters Shorter
- arxiv url: http://arxiv.org/abs/2307.05414v1
- Date: Tue, 11 Jul 2023 16:30:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-12 14:07:11.741310
- Title: Duncode Characters Shorter
- Title(参考訳): Duncodeキャラクタの短縮
- Authors: Changshang Xue
- Abstract要約: Duncodeは、Unicode文字集合全体を高空間効率でエンコードすることを目的とした革新的な符号化手法として紹介されている。
文字列の複数の文字を少ないバイトでダンコード単位に圧縮することができる。
我々は様々な言語で文字エンコーダを評価するためのベンチマークを開発した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates the employment of various encoders in text
transformation, converting characters into bytes. It discusses local encoders
such as ASCII and GB-2312, which encode specific characters into shorter bytes,
and universal encoders like UTF-8 and UTF-16, which can encode the complete
Unicode set with greater space requirements and are gaining widespread
acceptance. Other encoders, including SCSU, BOCU-1, and binary encoders,
however, lack self-synchronizing capabilities. Duncode is introduced as an
innovative encoding method that aims to encode the entire Unicode character set
with high space efficiency, akin to local encoders. It has the potential to
compress multiple characters of a string into a Duncode unit using fewer bytes.
Despite offering less self-synchronizing identification information, Duncode
surpasses UTF8 in terms of space efficiency. The application is available at
\url{https://github.com/laohur/duncode}. Additionally, we have developed a
benchmark for evaluating character encoders across different languages. It
encompasses 179 languages and can be accessed at
\url{https://github.com/laohur/wiki2txt}.
- Abstract(参考訳): 本稿では,文字をバイトに変換するテキスト変換における各種エンコーダの利用について検討する。
特定の文字を短いバイトにエンコードするASCIIやGB-2312といったローカルエンコーダや、より広いスペースでUnicodeセットをエンコードし広く受け入れられるUTF-8やUTF-16といったユニバーサルエンコーダについて議論している。
しかし、SCSU、BOCU-1、バイナリエンコーダなど他のエンコーダには自己同期機能がない。
Duncodeは、ローカルエンコーダに似た高空間効率でUnicode文字セット全体をエンコードすることを目的とした革新的なエンコーダ方式として導入された。
文字列の複数の文字を少ないバイトでダンコード単位に圧縮することができる。
識別情報の自己同期は少ないが、Duncodeは宇宙効率の点でUTF8を上回っている。
アプリケーションは \url{https://github.com/laohur/duncode} で入手できる。
さらに,様々な言語で文字エンコーダを評価するためのベンチマークも開発した。
179の言語を含み、 \url{https://github.com/laohur/wiki2txt}でアクセスできる。
関連論文リスト
- T2S-GPT: Dynamic Vector Quantization for Autoregressive Sign Language Production from Text [59.57676466961787]
本稿では,手話における情報密度に基づいて符号化長を調整できる新しい動的ベクトル量子化(DVA-VAE)モデルを提案する。
PHOENIX14Tデータセットを用いて実験を行い,提案手法の有効性を示した。
我々は,486時間の手話ビデオ,音声,文字起こしテキストを含むドイツ語手話データセットPHOENIX-Newsを提案する。
論文 参考訳(メタデータ) (2024-06-11T10:06:53Z) - Decoding at the Speed of Thought: Harnessing Parallel Decoding of Lexical Units for LLMs [57.27982780697922]
大規模言語モデルは、自然言語の理解と生成において例外的な能力を示した。
しかし、それらの生成速度は、その復号過程の本質的にシーケンシャルな性質によって制限される。
本稿では,データ駆動方式で実装された新しいデコーディング手法であるLexical Unit Decodingを紹介する。
論文 参考訳(メタデータ) (2024-05-24T04:35:13Z) - SemantiCodec: An Ultra Low Bitrate Semantic Audio Codec for General Sound [40.810505707522324]
SemantiCodecは、様々なオーディオタイプで毎秒100トークン未満にオーディオを圧縮するように設計されている。
本稿では,セマンティコーデックが再現性に関する最先端の記述を著しく上回っていることを示す。
また,SemantiCodecはすべての評価音声コーデックよりもはるかにリッチな意味情報を含んでいることも示唆した。
論文 参考訳(メタデータ) (2024-04-30T22:51:36Z) - Triple-Encoders: Representations That Fire Together, Wire Together [51.15206713482718]
コントラスト学習(Contrastive Learning)は、バイエンコーダを介して発話間の相対距離を埋め込み空間に符号化する表現学習法である。
本研究では,これら独立に符号化された発話から分散発話混合物を効率よく計算する三重エンコーダを提案する。
トリプルエンコーダはバイエンコーダよりも大幅に改善され、シングルベクトル表現モデルよりもゼロショットの一般化が向上することがわかった。
論文 参考訳(メタデータ) (2024-02-19T18:06:02Z) - Verified Reversible Programming for Verified Lossless Compression [11.020543186794459]
ロスレス圧縮の実装は通常、エンコーダとデコーダの2つのプログラムを含む。
我々は、非対称数値システム(ANS)に基づく圧縮手法のかなりのクラスが、エンコーダとデコーダの間で共有構造を持つことを観察する。
私たちはAgdaに埋め込まれた小さな可逆言語「Flipper」を実装しました。
論文 参考訳(メタデータ) (2022-11-02T16:39:41Z) - Multilingual Neural Machine Translation with Deep Encoder and Multiple
Shallow Decoders [77.2101943305862]
本稿では,複数の浅層デコーダ(DEMSD)を持つディープエンコーダを提案する。
2層デコーダを用いたDEMDモデルは、翻訳品質の低下のない標準トランスモデルと比較して平均1.8倍の高速化が得られる。
論文 参考訳(メタデータ) (2022-06-05T01:15:04Z) - Dense Coding with Locality Restriction for Decoder: Quantum Encoders vs.
Super-Quantum Encoders [67.12391801199688]
我々は、デコーダに様々な局所性制限を課すことにより、濃密な符号化について検討する。
このタスクでは、送信者アリスと受信機ボブが絡み合った状態を共有する。
論文 参考訳(メタデータ) (2021-09-26T07:29:54Z) - DeltaLM: Encoder-Decoder Pre-training for Language Generation and
Translation by Augmenting Pretrained Multilingual Encoders [92.90543340071007]
本稿では,事前訓練された多言語エンコーダデコーダモデルDeltaLMを紹介する。
具体的には,事前学習した多言語エンコーダをデコーダで拡張し,自己指導型で事前学習する。
実験により、DeltaLMは自然言語生成と翻訳の両方のタスクにおいて、様々な強力なベースラインを上回ります。
論文 参考訳(メタデータ) (2021-06-25T16:12:10Z) - Improving the List Decoding Version of the Cyclically Equivariant Neural
Decoder [33.63188063525036]
本稿では,BCH符号と句読点RM符号に対するリスト復号アルゴリズムの改良版を提案する。
我々の新しいデコーダはBERによって測定された場合、以前のリストデコーダよりも最大2ドル高くなる。
論文 参考訳(メタデータ) (2021-06-15T08:37:36Z) - CATE: Computation-aware Neural Architecture Encoding with Transformers [14.245023973332783]
ニューラルアーキテクチャサーチ(NAS)におけるアーキテクチャエンコーディングの重要性を示す最近の研究
計算アウェアは、同じ領域に類似した精度でマップアーキテクチャを符号化し、下流アーキテクチャの検索性能を向上させる。
本研究では,計算対応変換器を提案する。
CATEという変換法。
論文 参考訳(メタデータ) (2021-02-14T08:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。