論文の概要: MDL-based Compressing Sequential Rules
- arxiv url: http://arxiv.org/abs/2212.10252v1
- Date: Tue, 20 Dec 2022 14:00:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 16:16:00.408815
- Title: MDL-based Compressing Sequential Rules
- Title(参考訳): MDLに基づく圧縮シーケンスルール
- Authors: Xinhong Chen, Wensheng Gan, Shicheng Wan, and Tianlong Gu
- Abstract要約: シーケンシャルルールマイニング(SRM)アルゴリズムは、シーケンシャルな特性を持つデータベースでシーケンシャルルールを見つけるために提示される。
私たちの知る限りでは、シーケンシャルなルールを使ってデータベース全体をエンコードするのは初めてです。
ComSRには2つのトレードオフアルゴリズム、ComSR_nonとComSR_fulがある。
- 参考スコア(独自算出の注目度): 5.0338135887409745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Nowadays, with the rapid development of the Internet, the era of big data has
come. The Internet generates huge amounts of data every day. However,
extracting meaningful information from massive data is like looking for a
needle in a haystack. Data mining techniques can provide various feasible
methods to solve this problem. At present, many sequential rule mining (SRM)
algorithms are presented to find sequential rules in databases with sequential
characteristics. These rules help people extract a lot of meaningful
information from massive amounts of data. How can we achieve compression of
mined results and reduce data size to save storage space and transmission time?
Until now, there has been little research on the compression of SRM. In this
paper, combined with the Minimum Description Length (MDL) principle and under
the two metrics (support and confidence), we introduce the problem of
compression of SRM and also propose a solution named ComSR for MDL-based
compressing of sequential rules based on the designed sequential rule coding
scheme. To our knowledge, we are the first to use sequential rules to encode an
entire database. A heuristic method is proposed to find a set of compact and
meaningful sequential rules as much as possible. ComSR has two trade-off
algorithms, ComSR_non and ComSR_ful, based on whether the database can be
completely compressed. Experiments done on a real dataset with different
thresholds show that a set of compact and meaningful sequential rules can be
found. This shows that the proposed method works.
- Abstract(参考訳): 今日、インターネットの急速な発展とともに、ビッグデータの時代がやって来た。
インターネットは毎日大量のデータを生成しています。
しかし、大量のデータから意味のある情報を抽出することは、干し草の山で針を探すようなものだ。
データマイニング技術は、この問題を解決するための様々な実現可能な方法を提供することができる。
現在,シーケンシャルなルールマイニング(srm)アルゴリズムが多数提案されており,シーケンシャルな特性を持つデータベース内のシーケンシャルルールを見つけることができる。
これらのルールは、大量のデータから多くの意味のある情報を抽出するのに役立つ。
マイニングされた結果の圧縮とデータサイズの削減により、ストレージスペースと送信時間を節約できるのか?
これまでSRMの圧縮についてはほとんど研究されていない。
本稿では,MDL(Minimum Description Length)の原則と2つの指標(サポートと信頼性)を組み合わせて,SRMの圧縮問題を導入し,設計した逐次ルール符号化方式に基づくMDLに基づく逐次ルールの圧縮のためのComSRというソリューションを提案する。
私たちの知る限りでは、シーケンシャルなルールを使ってデータベース全体をエンコードするのは初めてです。
できるだけコンパクトで有意義な順序規則の集合を見つけるために、ヒューリスティックな方法が提案されている。
ComSRには2つのトレードオフアルゴリズム、ComSR_nonとComSR_fulがある。
しきい値の異なる実際のデータセットで行った実験は、コンパクトで意味のある一連の逐次ルールが見つかることを示している。
提案手法が有効であることを示す。
関連論文リスト
- BiMaCoSR: Binary One-Step Diffusion Model Leveraging Flexible Matrix Compression for Real Super-Resolution [63.777210548110425]
本稿では,バイナライゼーションと1段階蒸留を組み合わせたBiMaCoSRを提案する。
BiMaCoSRはFPに比べて23.8倍圧縮率と27.4倍スピードアップ比を達成した。
論文 参考訳(メタデータ) (2025-02-01T06:34:55Z) - A framework for compressing unstructured scientific data via serialization [2.5768995309704104]
本稿では,非構造化科学データを局所接続で圧縮するための一般的な枠組みを提案する。
一般的な応用は任意の有限要素メッシュ上で定義されたシミュレーションデータである。
このフレームワークは、既存のデータ処理パイプラインへのシームレスな統合を可能にする、オリジナルのノードの順序変更を保存する、欲張りなトポロジを採用している。
論文 参考訳(メタデータ) (2024-10-10T15:53:35Z) - Mixed-Precision Embeddings for Large-Scale Recommendation Models [19.93156309493436]
混合精密埋め込み(Mixed-Precision Embeddings、MPE)は、新しい埋め込み圧縮法である。
MPEは予測精度を含まないまま、Criteoデータセット上で約200倍の圧縮を実現している。
論文 参考訳(メタデータ) (2024-09-30T14:04:27Z) - UniCompress: Enhancing Multi-Data Medical Image Compression with Knowledge Distillation [59.3877309501938]
Inlicit Neural Representation (INR) ネットワークは、その柔軟な圧縮比のため、顕著な汎用性を示している。
周波数領域情報を含むコードブックをINRネットワークへの事前入力として導入する。
これにより、INRの表現力が向上し、異なる画像ブロックに対して特異な条件付けが提供される。
論文 参考訳(メタデータ) (2024-05-27T05:52:13Z) - Distributed bundle adjustment with block-based sparse matrix compression
for super large scale datasets [0.0]
超大規模データセットに対する厳密なLevenberg-Marquardt(LM)アルゴリズムを用いた分散バンドル調整(DBA)手法を提案する。
はじめに、118万画像と1000万画像の合成データセットを持つ実データセットに対して、LMアルゴリズムを用いた並列バンドル調整を行った。
論文 参考訳(メタデータ) (2023-07-17T10:43:54Z) - Unrolled Compressed Blind-Deconvolution [77.88847247301682]
sparse multi channel blind deconvolution (S-MBD) はレーダー/ソナー/超音波イメージングなどの多くの工学的応用で頻繁に発生する。
そこで本研究では,受信した全信号に対して,はるかに少ない測定値からブラインドリカバリを可能にする圧縮手法を提案する。
論文 参考訳(メタデータ) (2022-09-28T15:16:58Z) - Towards Target Sequential Rules [52.4562332499155]
ターゲット・シーケンシャル・ルール・マイニング(TaSRM)と呼ばれる効率的なアルゴリズムを提案する。
新たなアルゴリズムであるTaSRMとその変種は,既存のベースラインアルゴリズムと比較して実験性能がよいことを示す。
論文 参考訳(メタデータ) (2022-06-09T18:59:54Z) - COIN++: Data Agnostic Neural Compression [55.27113889737545]
COIN++は、幅広いデータモダリティをシームレスに扱うニューラルネットワーク圧縮フレームワークである。
様々なデータモダリティを圧縮することで,本手法の有効性を示す。
論文 参考訳(メタデータ) (2022-01-30T20:12:04Z) - US-Rule: Discovering Utility-driven Sequential Rules [52.68017415747925]
我々は,高ユーティリティシーケンシャルルールを効率的にマイニングする,US-Ruleと呼ばれる高速アルゴリズムを提案する。
より厳密な上界(LEEU, REEU, LERSU, RERSU)とそれに対応する刈り取り戦略を提案する。
US-Ruleは実行時間、メモリ消費、スケーラビリティの点でパフォーマンスが向上する。
論文 参考訳(メタデータ) (2021-11-29T23:38:28Z) - Domain Adaptation Regularization for Spectral Pruning [44.060724281001775]
ドメイン適応(DA)は、ラベル付きソースディストリビューションで学んだ知識を、おそらくラベルなしのターゲットディストリビューションに転送することで、この問題に対処する。
提案手法は,DA設定における既存の圧縮手法よりも高い圧縮率を示す。
本研究は1つの特定の圧縮法に基づくものであるが、DA設定における圧縮を改善するための一般的なガイドラインについても概説する。
論文 参考訳(メタデータ) (2019-12-26T12:38:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。