論文の概要: The Minimum Description Length Principle for Pattern Mining: A Survey
- arxiv url: http://arxiv.org/abs/2007.14009v5
- Date: Thu, 28 Jul 2022 06:25:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-06 02:54:10.357122
- Title: The Minimum Description Length Principle for Pattern Mining: A Survey
- Title(参考訳): パターンマイニングのための最小記述長原理:調査
- Authors: Esther Galbrun
- Abstract要約: パターンマイニングに適用される最小記述長の原理について述べる。
情報理論とコーディングから関連する概念を概説した後、様々な種類のデータやパターンをマイニングするためのMDLベースの手法を概説する。
- 参考スコア(独自算出の注目度): 0.07614628596146598
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This is about the Minimum Description Length (MDL) principle applied to
pattern mining. The length of this description is kept to the minimum.
Mining patterns is a core task in data analysis and, beyond issues of
efficient enumeration, the selection of patterns constitutes a major challenge.
The MDL principle, a model selection method grounded in information theory, has
been applied to pattern mining with the aim to obtain compact high-quality sets
of patterns. After giving an outline of relevant concepts from information
theory and coding, as well as of work on the theory behind the MDL and similar
principles, we review MDL-based methods for mining various types of data and
patterns. Finally, we open a discussion on some issues regarding these methods,
and highlight currently active related data analysis problems.
- Abstract(参考訳): これはパターンマイニングに適用される最小記述長(MDL)原理に関するものである。
この記述の長さは最小限に抑えられている。
パターンマイニングはデータ分析の中核的なタスクであり、効率的な列挙の問題を超えて、パターンの選択が大きな課題となっている。
情報理論に基づくモデル選択法であるMDL原理は,コンパクトな高品質なパターン集合を得るためにパターンマイニングに適用されている。
情報理論とコーディングの関連概念の概要と,MDLの背景にある理論と類似の原理について概説した後,様々な種類のデータやパターンをマイニングするためのMDLに基づく手法を概説した。
最後に,これらの手法に関する諸問題について議論を行い,現在活動中のデータ分析問題に注目した。
関連論文リスト
- Understanding Chain-of-Thought in LLMs through Information Theory [16.78730663293352]
我々は,情報理論レンズを用いて,大規模言語モデル(LLM)におけるChain-of-Thought(CoT)推論を定式化する。
具体的には、各推論ステップにおける情報ゲインの定量化を行い、障害モードの識別を可能にする。
提案手法の有効性を,玩具およびGSM-8Kデータに対する広範囲な実験により実証し,既存の結果に基づく手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2024-11-18T19:14:36Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - Granger Causal Inference in Multivariate Hawkes Processes by Minimum Message Length [0.0]
最小メッセージ長(MML)原理に基づく最適化基準とモデル選択アルゴリズムを提案する。
ラッソ型ペナル化を用いた最先端の手法の多くは、短時間の水平線を持つシナリオでは過度に適合する傾向にあるが、提案手法はこれらの設定において高いF1スコアを達成する。
論文 参考訳(メタデータ) (2023-09-05T08:13:34Z) - MinT: Boosting Generalization in Mathematical Reasoning via Multi-View
Fine-Tuning [53.90744622542961]
数学領域における推論は、小言語モデル(LM)にとって重要な課題である。
多様なアノテーションスタイルで既存の数学的問題データセットを利用する新しい手法を提案する。
実験結果から,LLaMA-7Bモデルが先行手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-16T05:41:53Z) - On Interpretable Approaches to Cluster, Classify and Represent
Multi-Subspace Data via Minimum Lossy Coding Length based on Rate-Distortion
Theory [0.0]
クラスタリング、分類、表現は、本質的な構造を持つ高次元データから学習する3つの基本的な目的である。
本稿では,3つの解釈可能なアプローチ,すなわち,最小ロッシー符号化長基準によるセグメンテーション(クラスタリング),最小インクリメンタル符号化長基準による分類,最大符号化レート削減基準による表現を紹介する。
論文 参考訳(メタデータ) (2023-02-21T01:15:08Z) - Contrast Pattern Mining: A Survey [54.06874773607785]
この分野の研究者が短期間で現場の一般的な状況を理解することは困難である。
まず、識別能力を評価するための基本的な概念、タイプ、採掘戦略、メトリクスを含む、CPMの深い理解を示す。
我々は,CPM法の特徴を,境界ベースアルゴリズム,木ベースアルゴリズム,進化ファジィシステムベースアルゴリズム,決定木ベースアルゴリズム,その他のアルゴリズムに分類する。
論文 参考訳(メタデータ) (2022-09-27T17:11:12Z) - The whole and the parts: the MDL principle and the a-contrario framework [4.970364068620608]
この研究は、最小記述長(MDL)原理と、Desolneux, Moisan, Morel によって提案された構造検出のための a-contrario フレームワークとの関係について検討する。
MDLの原理は、データ全体の最良の解釈に焦点を当て、a-contrarioのアプローチは、異常な統計を伴うデータの一部を検出することに集中している。
論文 参考訳(メタデータ) (2021-12-13T18:07:26Z) - Gaussian Determinantal Processes: a new model for directionality in data [10.591948377239921]
本研究では,ガウス DPP のパラメトリック系について,観測点に対するパラメトリック変調の明確な解釈可能な効果について検討する。
パラメータ変調は, 反発構造に方向性を導入することによって観測点に影響を与え, 主方向は最大依存性の方向に対応することを示す。
このモデルにより、主成分分析(PCA)の新たな代替手段が容易に得られ、データが最も拡散する方向を支持する次元削減ツールとなる。
論文 参考訳(メタデータ) (2021-11-19T00:57:33Z) - Rissanen Data Analysis: Examining Dataset Characteristics via
Description Length [78.42578316883271]
特定の能力が与えられたデータの正確なモデルを達成するのに役立つかどうかを判断する手法を提案する。
最小プログラム長は計算不可能であるため,ラベルの最小記述長(MDL)をプロキシとして推定する。
我々は、mdlの父にちなんで、rissanen data analysis (rda) と呼ぶ。
論文 参考訳(メタデータ) (2021-03-05T18:58:32Z) - Meta Cyclical Annealing Schedule: A Simple Approach to Avoiding
Meta-Amortization Error [50.83356836818667]
循環型アニーリングスケジュールとMMD基準を用いた新しいメタレギュラー化目標を構築した。
実験の結果,本手法は標準的なメタ学習アルゴリズムよりもかなり優れていることがわかった。
論文 参考訳(メタデータ) (2020-03-04T04:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。