Fugu-MT 論文翻訳(概要): Compressing Multisets with Large Alphabets

論文の概要: Compressing Multisets with Large Alphabets

arxiv url: http://arxiv.org/abs/2107.09202v1
Date: Thu, 15 Jul 2021 16:54:38 GMT
ステータス: 翻訳完了
システム内更新日: 2021-07-25 11:58:06.074534
Title: Compressing Multisets with Large Alphabets
Title（参考訳）: 大型Alphabetによるマルチセット圧縮
Authors: Daniel Severo, James Townsend, Ashish Khisti, Alireza Makhzani, Karen Ullrich
Abstract要約: マルチセットを最適に圧縮する現在の方法は、その計算時間はアルファベットサイズと線形にスケールするため、高次元のシンボルには適さない。そこで本研究では,シンボルがI.d.と仮定して,これらのビットを復号する手法を提案する。
参考スコア（独自算出の注目度）: 30.281628616298317
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Current methods that optimally compress multisets are not suitable for high-dimensional symbols, as their compute time scales linearly with alphabet size. Compressing a multiset as an ordered sequence with off-the-shelf codecs is computationally more efficient, but has a sub-optimal compression rate, as bits are wasted encoding the order between symbols. We present a method that can recover those bits, assuming symbols are i.i.d., at the cost of an additional $\mathcal{O}(|\mathcal{M}|\log M)$ in average time complexity, where $|\mathcal{M}|$ and $M$ are the total and unique number of symbols in the multiset. Our method is compatible with any prefix-free code. Experiments show that, when paired with efficient coders, our method can efficiently compress high-dimensional sources such as multisets of images and collections of JSON files.
Abstract（参考訳）: マルチセットを最適に圧縮する現在の方法は、計算時間はアルファベットサイズと線形にスケールするため、高次元シンボルには適していない。市販のコーデックで順序列としてマルチセットを圧縮するのは計算効率が良いが、シンボル間の順序を符号化するビットが無駄になるため、準最適圧縮速度を持つ。シンボルを i.i.d. と仮定して、平均時間複雑性で $\mathcal{o}(|\mathcal{m}|\log m)$ のコストで、$|\mathcal{m}|$ と $m$ を多重集合内の記号の総数と一意な数とする。本手法はプレフィックスフリーコードと互換性がある。実験により,効率的なコーダと組み合わせることで,画像の多重セットやJSONファイルのコレクションなどの高次元ソースを効率よく圧縮できることがわかった。

関連論文リスト

Asymptotically Smaller Encodings for Graph Problems and Scheduling [4.73194777046253]
いくつかのグラフ問題を、多くの節に対して$O(|V|2 / lg |V|)$のみを用いてCNFにエンコードできることを示す。 O(|V| lg |V|)$節のみを用いるような高密度区間グラフにおける独立集合に対する新しい符号化も示す。
論文参考訳（メタデータ） (2025-06-16T22:31:41Z)
CODA: Repurposing Continuous VAEs for Discrete Tokenization [52.58960429582813]
textbfCODA(textbfCOntinuous-to-textbfDiscrete textbfAdaptation)は、圧縮と離散化を分離するフレームワークである。提案手法は,ImageNet 256$times$256ベンチマークにおいて,$mathbf0.43$と$mathbf1.34$を8倍,$16倍の圧縮で,100%のコードブック利用と注目すべき再構成FID(rFID)を実現している。
論文参考訳（メタデータ） (2025-03-22T12:59:00Z)
Superposed Decoding: Multiple Generations from a Single Autoregressive Inference Pass [72.07642648108849]
Superposed Decodingは、1つの自己回帰推論パスのコストで$k$のドラフトを生成する新しい復号アルゴリズムである。 Superposed Decodingは、他のデコード戦略と組み合わせることで、推論時間計算のスケーリング時に普遍的なカバレッジが向上する。
論文参考訳（メタデータ） (2024-05-28T17:40:48Z)
Some Notes on the Sample Complexity of Approximate Channel Simulation [2.4554686192257424]
チャネルシミュレーションアルゴリズムは、所定のターゲット分布のランダムサンプルを$Q$で効率的にエンコードし、機械学習ベースの損失データ圧縮における応用を見つけることができる。本稿では,固定ランタイムを用いた近似スキームについて考察する。 D_KL[Q Vert P] + o(1)) Big/epsilonbigのみのサンプル複雑さで、$mathrmTV[Q Vert P] leq epsilon$を確保し、最適な符号化性能を維持するために、グローバルバウンドの深度制限A*符号化を利用する。
論文参考訳（メタデータ） (2024-05-07T14:44:41Z)
Linear-time Minimum Bayes Risk Decoding with Reference Aggregation [52.1701152610258]
最小ベイズリスク(MBR、Minimum Bayes Risk)は、機械翻訳の品質向上を図ったテキスト生成技術である。これは2次複雑性を持つ実用計量のペアワイズ計算を必要とする。本稿では,集約された参照表現に対して計算したスコアを用いて,ペアワイズメトリックスコアを近似する。
論文参考訳（メタデータ） (2024-02-06T18:59:30Z)
Matrix Compression via Randomized Low Rank and Low Precision Factorization [47.902465710511485]
現代の行列は数十億の要素を巻き込み、そのストレージと処理は計算資源とメモリ使用量の観点から非常に要求される。この構造を利用して任意の行列 $mathbfA$ as $mathbfLmathbfR$ の低階分解を求めるアルゴリズムを提案する。 LlaMa-7$bの層を圧縮し,画像圧縮におけるアルゴリズムの有効性を実証的に実証した。
論文参考訳（メタデータ） (2023-10-17T06:56:57Z)
A Formal Perspective on Byte-Pair Encoding [100.75374173565548]
Byte-Pairimation (BPE) は、当初圧縮法として考案されたものの、NLPでデータをトークン化するために使われる一般的なアルゴリズムである。我々は、ランタイムの複雑さを$mathcalOleft(N log Mright)$から$mathcalOleft(N log Mright)$に改善するBPEのより高速な実装を提供しています。
論文参考訳（メタデータ） (2023-06-29T10:29:23Z)
Quantum Resources Required to Block-Encode a Matrix of Classical Data [56.508135743727934]
回路レベルの実装とリソース推定を行い、古典データの高密度な$Ntimes N$行列をブロックエンコードして$epsilon$を精度良くすることができる。異なるアプローチ間のリソーストレードオフを調査し、量子ランダムアクセスメモリ(QRAM)の2つの異なるモデルの実装を検討する。我々の結果は、単純なクエリの複雑さを超えて、大量の古典的データが量子アルゴリズムにアクセスできると仮定された場合のリソースコストの明確な図を提供する。
論文参考訳（メタデータ） (2022-06-07T18:00:01Z)
Understanding and Compressing Music with Maximal Transformable Patterns [0.0]
点集合の最大パターンを探索するアルゴリズム、$DinmathbbRk$を提案する。また、これらの最大パターンのそれぞれに対して発生の集合を探索する第2のアルゴリズムを提案する。民謡旋律を調律語族に分類する作業において,3種類の異なる複雑性のクラスで新しい圧縮アルゴリズムを評価する。
論文参考訳（メタデータ） (2022-01-26T17:47:26Z)
Impossibility Results for Grammar-Compressed Linear Algebra [14.85374185122389]
膨大な量のデータを扱うためには、ベクトルや行列を圧縮することが自然で一般的である。本稿では, 圧縮されたデータに対して, 元のデータがそんなに小さいかのように, 効率的に計算を実行できるかどうかを問う。内積、行列ベクトル乗法、行列乗法など、最も基本的な線形代数演算を考える。
論文参考訳（メタデータ） (2020-10-27T10:33:01Z)
Faster Binary Embeddings for Preserving Euclidean Distances [9.340611077939828]
本稿では, 高速で, 距離保存可能なバイナリ埋め込みアルゴリズムを提案し, データセット $mathcalTsubseteqmathbbRn$ を立方体 $pm 1m$ のバイナリシーケンスに変換する。我々の手法は高速かつメモリ効率が良く、時間複雑性は$O(m)$、空間複雑性は$O(m)$である。
論文参考訳（メタデータ） (2020-10-01T22:41:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。