論文の概要: MDL-based Compressing Sequential Rules
- arxiv url: http://arxiv.org/abs/2212.10252v1
- Date: Tue, 20 Dec 2022 14:00:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 16:16:00.408815
- Title: MDL-based Compressing Sequential Rules
- Title(参考訳): MDLに基づく圧縮シーケンスルール
- Authors: Xinhong Chen, Wensheng Gan, Shicheng Wan, and Tianlong Gu
- Abstract要約: シーケンシャルルールマイニング(SRM)アルゴリズムは、シーケンシャルな特性を持つデータベースでシーケンシャルルールを見つけるために提示される。
私たちの知る限りでは、シーケンシャルなルールを使ってデータベース全体をエンコードするのは初めてです。
ComSRには2つのトレードオフアルゴリズム、ComSR_nonとComSR_fulがある。
- 参考スコア(独自算出の注目度): 5.0338135887409745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Nowadays, with the rapid development of the Internet, the era of big data has
come. The Internet generates huge amounts of data every day. However,
extracting meaningful information from massive data is like looking for a
needle in a haystack. Data mining techniques can provide various feasible
methods to solve this problem. At present, many sequential rule mining (SRM)
algorithms are presented to find sequential rules in databases with sequential
characteristics. These rules help people extract a lot of meaningful
information from massive amounts of data. How can we achieve compression of
mined results and reduce data size to save storage space and transmission time?
Until now, there has been little research on the compression of SRM. In this
paper, combined with the Minimum Description Length (MDL) principle and under
the two metrics (support and confidence), we introduce the problem of
compression of SRM and also propose a solution named ComSR for MDL-based
compressing of sequential rules based on the designed sequential rule coding
scheme. To our knowledge, we are the first to use sequential rules to encode an
entire database. A heuristic method is proposed to find a set of compact and
meaningful sequential rules as much as possible. ComSR has two trade-off
algorithms, ComSR_non and ComSR_ful, based on whether the database can be
completely compressed. Experiments done on a real dataset with different
thresholds show that a set of compact and meaningful sequential rules can be
found. This shows that the proposed method works.
- Abstract(参考訳): 今日、インターネットの急速な発展とともに、ビッグデータの時代がやって来た。
インターネットは毎日大量のデータを生成しています。
しかし、大量のデータから意味のある情報を抽出することは、干し草の山で針を探すようなものだ。
データマイニング技術は、この問題を解決するための様々な実現可能な方法を提供することができる。
現在,シーケンシャルなルールマイニング(srm)アルゴリズムが多数提案されており,シーケンシャルな特性を持つデータベース内のシーケンシャルルールを見つけることができる。
これらのルールは、大量のデータから多くの意味のある情報を抽出するのに役立つ。
マイニングされた結果の圧縮とデータサイズの削減により、ストレージスペースと送信時間を節約できるのか?
これまでSRMの圧縮についてはほとんど研究されていない。
本稿では,MDL(Minimum Description Length)の原則と2つの指標(サポートと信頼性)を組み合わせて,SRMの圧縮問題を導入し,設計した逐次ルール符号化方式に基づくMDLに基づく逐次ルールの圧縮のためのComSRというソリューションを提案する。
私たちの知る限りでは、シーケンシャルなルールを使ってデータベース全体をエンコードするのは初めてです。
できるだけコンパクトで有意義な順序規則の集合を見つけるために、ヒューリスティックな方法が提案されている。
ComSRには2つのトレードオフアルゴリズム、ComSR_nonとComSR_fulがある。
しきい値の異なる実際のデータセットで行った実験は、コンパクトで意味のある一連の逐次ルールが見つかることを示している。
提案手法が有効であることを示す。
関連論文リスト
- Distributed bundle adjustment with block-based sparse matrix compression
for super large scale datasets [0.0]
超大規模データセットに対する厳密なLevenberg-Marquardt(LM)アルゴリズムを用いた分散バンドル調整(DBA)手法を提案する。
はじめに、118万画像と1000万画像の合成データセットを持つ実データセットに対して、LMアルゴリズムを用いた並列バンドル調整を行った。
論文 参考訳(メタデータ) (2023-07-17T10:43:54Z) - Semantic Compression With Large Language Models [1.0874100424278175]
大規模言語モデル(LLM)は、情報検索、質問応答、要約、コード生成タスクに革命をもたらしている。
LLMは本質的に、一度に処理できる入力トークンと出力トークンの数によって制限される。
本稿では,LLMの研究への3つの貢献について述べる。
論文 参考訳(メタデータ) (2023-04-25T01:47:05Z) - Towards Correlated Sequential Rules [4.743965372344134]
高実用性シーケンシャルルールマイニング(HUSRM)は、結果のシーケンシャルパターンの発生を予測できる信頼度や確率を調査するために設計された。
HUSRMと呼ばれる既存のアルゴリズムは、生成されたシーケンシャルルール間の相関を無視しながら、すべての許容ルールを抽出することに制限されている。
本稿では,HUSRMに相関の概念を統合するために,CoUSR(Cocorlation High-utility Sequence Rule Minr)と呼ばれる新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-27T17:27:23Z) - Unrolled Compressed Blind-Deconvolution [77.88847247301682]
sparse multi channel blind deconvolution (S-MBD) はレーダー/ソナー/超音波イメージングなどの多くの工学的応用で頻繁に発生する。
そこで本研究では,受信した全信号に対して,はるかに少ない測定値からブラインドリカバリを可能にする圧縮手法を提案する。
論文 参考訳(メタデータ) (2022-09-28T15:16:58Z) - Totally-ordered Sequential Rules for Utility Maximization [49.57003933142011]
提案するアルゴリズムはTotalSRとTotalSR+である。
TotalSRは、先行するサポートを効率的に計算できるユーティリティテーブルと、残りのユーティリティをシーケンスのO(1)時間で計算できるユーティリティプレフィックスの和リストを作成する。
実データと合成データの両方において、TotalSRはプルーニング戦略の少ないアルゴリズムよりもはるかに効率的であることを示す実験結果が多数存在する。
論文 参考訳(メタデータ) (2022-09-27T16:17:58Z) - Towards Target Sequential Rules [52.4562332499155]
ターゲット・シーケンシャル・ルール・マイニング(TaSRM)と呼ばれる効率的なアルゴリズムを提案する。
新たなアルゴリズムであるTaSRMとその変種は,既存のベースラインアルゴリズムと比較して実験性能がよいことを示す。
論文 参考訳(メタデータ) (2022-06-09T18:59:54Z) - COIN++: Data Agnostic Neural Compression [55.27113889737545]
COIN++は、幅広いデータモダリティをシームレスに扱うニューラルネットワーク圧縮フレームワークである。
様々なデータモダリティを圧縮することで,本手法の有効性を示す。
論文 参考訳(メタデータ) (2022-01-30T20:12:04Z) - US-Rule: Discovering Utility-driven Sequential Rules [52.68017415747925]
我々は,高ユーティリティシーケンシャルルールを効率的にマイニングする,US-Ruleと呼ばれる高速アルゴリズムを提案する。
より厳密な上界(LEEU, REEU, LERSU, RERSU)とそれに対応する刈り取り戦略を提案する。
US-Ruleは実行時間、メモリ消費、スケーラビリティの点でパフォーマンスが向上する。
論文 参考訳(メタデータ) (2021-11-29T23:38:28Z) - A Generic Network Compression Framework for Sequential Recommender
Systems [71.81962915192022]
シークエンシャルレコメンデーションシステム(SRS)は,ユーザの動的関心を捉え,高品質なレコメンデーションを生成する上で重要な技術となっている。
CpRecと呼ばれる圧縮されたシーケンシャルレコメンデーションフレームワークを提案する。
大規模なアブレーション研究により、提案したCpRecは実世界のSRSデータセットにおいて最大4$sim$8倍の圧縮速度を達成できることを示した。
論文 参考訳(メタデータ) (2020-04-21T08:40:55Z) - Domain Adaptation Regularization for Spectral Pruning [44.060724281001775]
ドメイン適応(DA)は、ラベル付きソースディストリビューションで学んだ知識を、おそらくラベルなしのターゲットディストリビューションに転送することで、この問題に対処する。
提案手法は,DA設定における既存の圧縮手法よりも高い圧縮率を示す。
本研究は1つの特定の圧縮法に基づくものであるが、DA設定における圧縮を改善するための一般的なガイドラインについても概説する。
論文 参考訳(メタデータ) (2019-12-26T12:38:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。