Fugu-MT 論文翻訳(概要): MDL-based Compressing Sequential Rules

論文の概要: MDL-based Compressing Sequential Rules

arxiv url: http://arxiv.org/abs/2212.10252v1
Date: Tue, 20 Dec 2022 14:00:57 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-21 16:16:00.408815
Title: MDL-based Compressing Sequential Rules
Title（参考訳）: MDLに基づく圧縮シーケンスルール
Authors: Xinhong Chen, Wensheng Gan, Shicheng Wan, and Tianlong Gu
Abstract要約: シーケンシャルルールマイニング(SRM)アルゴリズムは、シーケンシャルな特性を持つデータベースでシーケンシャルルールを見つけるために提示される。私たちの知る限りでは、シーケンシャルなルールを使ってデータベース全体をエンコードするのは初めてです。 ComSRには2つのトレードオフアルゴリズム、ComSR_nonとComSR_fulがある。
参考スコア（独自算出の注目度）: 5.0338135887409745
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Nowadays, with the rapid development of the Internet, the era of big data has come. The Internet generates huge amounts of data every day. However, extracting meaningful information from massive data is like looking for a needle in a haystack. Data mining techniques can provide various feasible methods to solve this problem. At present, many sequential rule mining (SRM) algorithms are presented to find sequential rules in databases with sequential characteristics. These rules help people extract a lot of meaningful information from massive amounts of data. How can we achieve compression of mined results and reduce data size to save storage space and transmission time? Until now, there has been little research on the compression of SRM. In this paper, combined with the Minimum Description Length (MDL) principle and under the two metrics (support and confidence), we introduce the problem of compression of SRM and also propose a solution named ComSR for MDL-based compressing of sequential rules based on the designed sequential rule coding scheme. To our knowledge, we are the first to use sequential rules to encode an entire database. A heuristic method is proposed to find a set of compact and meaningful sequential rules as much as possible. ComSR has two trade-off algorithms, ComSR_non and ComSR_ful, based on whether the database can be completely compressed. Experiments done on a real dataset with different thresholds show that a set of compact and meaningful sequential rules can be found. This shows that the proposed method works.
Abstract（参考訳）: 今日、インターネットの急速な発展とともに、ビッグデータの時代がやって来た。インターネットは毎日大量のデータを生成しています。しかし、大量のデータから意味のある情報を抽出することは、干し草の山で針を探すようなものだ。データマイニング技術は、この問題を解決するための様々な実現可能な方法を提供することができる。現在,シーケンシャルなルールマイニング(srm)アルゴリズムが多数提案されており,シーケンシャルな特性を持つデータベース内のシーケンシャルルールを見つけることができる。これらのルールは、大量のデータから多くの意味のある情報を抽出するのに役立つ。マイニングされた結果の圧縮とデータサイズの削減により、ストレージスペースと送信時間を節約できるのか? これまでSRMの圧縮についてはほとんど研究されていない。本稿では,MDL(Minimum Description Length)の原則と2つの指標(サポートと信頼性)を組み合わせて,SRMの圧縮問題を導入し,設計した逐次ルール符号化方式に基づくMDLに基づく逐次ルールの圧縮のためのComSRというソリューションを提案する。私たちの知る限りでは、シーケンシャルなルールを使ってデータベース全体をエンコードするのは初めてです。できるだけコンパクトで有意義な順序規則の集合を見つけるために、ヒューリスティックな方法が提案されている。 ComSRには2つのトレードオフアルゴリズム、ComSR_nonとComSR_fulがある。しきい値の異なる実際のデータセットで行った実験は、コンパクトで意味のある一連の逐次ルールが見つかることを示している。提案手法が有効であることを示す。

関連論文リスト

Revisiting Data Compression with Language Modeling [0.0]
データ圧縮作業における大規模言語モデル(LLM)の有用性について検討する。我々は、enwik9データセット上で、新しい最先端(SOTA)調整圧縮率約18%を達成する。テキスト優位な領域におけるデータ圧縮における LLM の優位性を示す一方で,非自然なテキスト列の圧縮能力は,適切な設定を行うと競争力を維持することを示す。
論文参考訳（メタデータ） (2026-01-06T10:03:33Z)
Is Compression Really Linear with Code Intelligence? [60.123628177110206]
textitFormat Annealingは、事前訓練されたモデルの本質的な能力を同等に評価するために設計された、軽量で透明なトレーニング手法である。我々の経験的結果は、測定されたコードインテリジェンスとビット・パー・キャラクタ(BPC)の基本的な対数関係を明らかにする。私たちの研究は、コードインテリジェンスの開発における圧縮の役割をより微妙に理解し、コードドメインにおける堅牢な評価フレームワークに貢献します。
論文参考訳（メタデータ） (2025-05-16T16:59:14Z)
BiMaCoSR: Binary One-Step Diffusion Model Leveraging Flexible Matrix Compression for Real Super-Resolution [63.777210548110425]
本稿では,バイナライゼーションと1段階蒸留を組み合わせたBiMaCoSRを提案する。 BiMaCoSRはFPに比べて23.8倍圧縮率と27.4倍スピードアップ比を達成した。
論文参考訳（メタデータ） (2025-02-01T06:34:55Z)
A framework for compressing unstructured scientific data via serialization [2.5768995309704104]
本稿では,非構造化科学データを局所接続で圧縮するための一般的な枠組みを提案する。一般的な応用は任意の有限要素メッシュ上で定義されたシミュレーションデータである。このフレームワークは、既存のデータ処理パイプラインへのシームレスな統合を可能にする、オリジナルのノードの順序変更を保存する、欲張りなトポロジを採用している。
論文参考訳（メタデータ） (2024-10-10T15:53:35Z)
Mixed-Precision Embeddings for Large-Scale Recommendation Models [19.93156309493436]
混合精密埋め込み(Mixed-Precision Embeddings、MPE)は、新しい埋め込み圧縮法である。 MPEは予測精度を含まないまま、Criteoデータセット上で約200倍の圧縮を実現している。
論文参考訳（メタデータ） (2024-09-30T14:04:27Z)
UniCompress: Enhancing Multi-Data Medical Image Compression with Knowledge Distillation [59.3877309501938]
Inlicit Neural Representation (INR) ネットワークは、その柔軟な圧縮比のため、顕著な汎用性を示している。周波数領域情報を含むコードブックをINRネットワークへの事前入力として導入する。これにより、INRの表現力が向上し、異なる画像ブロックに対して特異な条件付けが提供される。
論文参考訳（メタデータ） (2024-05-27T05:52:13Z)
Distributed bundle adjustment with block-based sparse matrix compression for super large scale datasets [0.0]
超大規模データセットに対する厳密なLevenberg-Marquardt(LM)アルゴリズムを用いた分散バンドル調整(DBA)手法を提案する。はじめに、118万画像と1000万画像の合成データセットを持つ実データセットに対して、LMアルゴリズムを用いた並列バンドル調整を行った。
論文参考訳（メタデータ） (2023-07-17T10:43:54Z)
Unrolled Compressed Blind-Deconvolution [77.88847247301682]
sparse multi channel blind deconvolution (S-MBD) はレーダー/ソナー/超音波イメージングなどの多くの工学的応用で頻繁に発生する。そこで本研究では,受信した全信号に対して,はるかに少ない測定値からブラインドリカバリを可能にする圧縮手法を提案する。
論文参考訳（メタデータ） (2022-09-28T15:16:58Z)
Totally-ordered Sequential Rules for Utility Maximization [49.57003933142011]
提案するアルゴリズムはTotalSRとTotalSR+である。 TotalSRは、先行するサポートを効率的に計算できるユーティリティテーブルと、残りのユーティリティをシーケンスのO(1)時間で計算できるユーティリティプレフィックスの和リストを作成する。実データと合成データの両方において、TotalSRはプルーニング戦略の少ないアルゴリズムよりもはるかに効率的であることを示す実験結果が多数存在する。
論文参考訳（メタデータ） (2022-09-27T16:17:58Z)
Towards Target Sequential Rules [52.4562332499155]
ターゲット・シーケンシャル・ルール・マイニング(TaSRM)と呼ばれる効率的なアルゴリズムを提案する。新たなアルゴリズムであるTaSRMとその変種は,既存のベースラインアルゴリズムと比較して実験性能がよいことを示す。
論文参考訳（メタデータ） (2022-06-09T18:59:54Z)
COIN++: Data Agnostic Neural Compression [55.27113889737545]
COIN++は、幅広いデータモダリティをシームレスに扱うニューラルネットワーク圧縮フレームワークである。様々なデータモダリティを圧縮することで,本手法の有効性を示す。
論文参考訳（メタデータ） (2022-01-30T20:12:04Z)
US-Rule: Discovering Utility-driven Sequential Rules [52.68017415747925]
我々は,高ユーティリティシーケンシャルルールを効率的にマイニングする,US-Ruleと呼ばれる高速アルゴリズムを提案する。より厳密な上界(LEEU, REEU, LERSU, RERSU)とそれに対応する刈り取り戦略を提案する。 US-Ruleは実行時間、メモリ消費、スケーラビリティの点でパフォーマンスが向上する。
論文参考訳（メタデータ） (2021-11-29T23:38:28Z)
Domain Adaptation Regularization for Spectral Pruning [44.060724281001775]
ドメイン適応(DA)は、ラベル付きソースディストリビューションで学んだ知識を、おそらくラベルなしのターゲットディストリビューションに転送することで、この問題に対処する。提案手法は,DA設定における既存の圧縮手法よりも高い圧縮率を示す。本研究は1つの特定の圧縮法に基づくものであるが、DA設定における圧縮を改善するための一般的なガイドラインについても概説する。
論文参考訳（メタデータ） (2019-12-26T12:38:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。