論文の概要: Signature Methods in Machine Learning
- arxiv url: http://arxiv.org/abs/2206.14674v1
- Date: Wed, 29 Jun 2022 14:23:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-30 22:53:29.552739
- Title: Signature Methods in Machine Learning
- Title(参考訳): 機械学習における署名手法
- Authors: Terry Lyons and Andrew D. McLeod
- Abstract要約: 署名に基づく技術は、進化するデータの複雑なストリーム間の相互作用に関する数学的洞察を与える。
この記事では、シグネチャによって提供される理論的洞察が、アプリケーションデータの解析において単純に実現される方法について説明する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Signature-based techniques give mathematical insight into the interactions
between complex streams of evolving data. These insights can be quite naturally
translated into numerical approaches to understanding streamed data, and
perhaps because of their mathematical precision, have proved useful in
analysing streamed data in situations where the data is irregular, and not
stationary, and the dimension of the data and the sample sizes are both
moderate.
Understanding streamed multi-modal data is exponential: a word in $n$ letters
from an alphabet of size $d$ can be any one of $d^n$ messages. Signatures
remove the exponential amount of noise that arises from sampling irregularity,
but an exponential amount of information still remain. This survey aims to stay
in the domain where that exponential scaling can be managed directly.
Scalability issues are an important challenge in many problems but would
require another survey article and further ideas. This survey describes a range
of contexts where the data sets are small enough to remove the possibility of
massive machine learning, and the existence of small sets of context free and
principled features can be used effectively.
The mathematical nature of the tools can make their use intimidating to
non-mathematicians. The examples presented in this article are intended to
bridge this communication gap and provide tractable working examples drawn from
the machine learning context. Notebooks are available online for several of
these examples. This survey builds on the earlier paper of Ilya Chevryev and
Andrey Kormilitzin which had broadly similar aims at an earlier point in the
development of this machinery. This article illustrates how the theoretical
insights offered by signatures are simply realised in the analysis of
application data in a way that is largely agnostic to the data type.
- Abstract(参考訳): 署名に基づく技術は、進化するデータの複雑なストリーム間の相互作用に関する数学的洞察を与える。
これらの知見は、ストリームデータを理解するための数値的なアプローチに自然に変換することができ、おそらくその数学的精度のために、データが不規則で定常ではない状況において、ストリームデータを分析するのに有用であることが証明された。
ストリームされたマルチモーダルデータの理解は指数関数的である:$d$のアルファベットの$n$文字の単語は、$d^n$メッセージのどれでも構わない。
シグネチャはサンプリングの不規則性から生じる指数関数的なノイズを取り除くが、指数関数的な情報の量は残る。
この調査は、指数関数的スケーリングを直接管理できる領域にとどまることを目的としている。
スケーラビリティの問題は多くの問題において重要な課題ですが、別の調査記事とさらなるアイデアが必要です。
本調査では,大規模機械学習の可能性を排除するのに十分なデータセットが小さく,文脈自由かつ原則化された少数の特徴セットの存在を効果的に活用できる状況について述べる。
ツールの数学的性質は、非数学者に脅威を与える可能性がある。
この記事では、このコミュニケーションギャップを埋め、機械学習のコンテキストから引き出された、扱いやすい作業例を提供する。
ノートブックはいくつかの例でオンラインで入手できる。
この調査は、Ilya Chevryev氏とAndrey Kormilitzin氏による以前の論文に基づいており、この機械の開発の初期段階において、広く類似した目的を持っていた。
この記事では、シグネチャによって提供される理論的洞察が、データ型にほとんど依存しない方法で、アプリケーションデータ分析において単純に実現される方法を説明します。
関連論文リスト
- Shedding Light on Problems with Hyperbolic Graph Learning [2.3743504594834635]
グラフ機械学習文学における近年の論文は、双曲表現学習に多くのアプローチを導入している。
現在、双曲グラフ表現学習の分野を注意深く見ていく。
多くの論文では,アルゴリズム構築時にベースラインの厳密な提示に失敗し,ミスリード指標を用いてグラフデータセットの幾何を定量化している。
論文 参考訳(メタデータ) (2024-11-11T03:12:41Z) - Estimation of embedding vectors in high dimensions [10.55292041492388]
我々は、いくつかの「真」だが未知の埋め込みが存在する離散データに対する単純な確率モデルを考える。
このモデルでは、埋め込みは低ランク近似メッセージパッシング(AMP)法の変種によって学習できることが示されている。
提案手法は, 合成データと実テキストデータの両方のシミュレーションにより検証した。
論文 参考訳(メタデータ) (2023-12-12T23:41:59Z) - Explaining Classifiers Trained on Raw Hierarchical Multiple-Instance
Data [0.0]
多くのデータソースは、構造化されたデータ交換フォーマット(例えば、XMLフォーマットの複数のセキュリティログ)の自然な形式を持っています。
階層型インスタンス学習(HMIL)のような既存の手法では、そのようなデータを生の形式で学習することができる。
これらのモデルをサブセット選択問題として扱うことにより、計算効率のよいアルゴリズムを用いて、解釈可能な説明が好ましい性質でどのように生成できるかを実証する。
我々は,グラフニューラルネットワークから導入した説明手法と比較して,桁違いの高速化と高品質な説明を行う。
論文 参考訳(メタデータ) (2022-08-04T14:48:37Z) - A Survey of Learning on Small Data: Generalization, Optimization, and
Challenge [101.27154181792567]
ビッグデータの一般化能力を近似した小さなデータについて学ぶことは、AIの究極の目的の1つである。
この調査はPACフレームワークの下でのアクティブサンプリング理論に従い、小さなデータにおける学習の一般化誤差とラベルの複雑さを分析した。
効率的な小さなデータ表現の恩恵を受けるかもしれない複数のデータアプリケーションについて調査する。
論文 参考訳(メタデータ) (2022-07-29T02:34:19Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - When is Memorization of Irrelevant Training Data Necessary for
High-Accuracy Learning? [53.523017945443115]
我々は,十分な精度のトレーニングアルゴリズムが,予測モデルにおいて,そのトレーニング例の大規模サブセットに関する情報を本質的にすべてエンコードしなければならない自然予測問題を記述する。
私たちの結果は、トレーニングアルゴリズムや学習に使用されるモデルのクラスに依存しません。
論文 参考訳(メタデータ) (2020-12-11T15:25:14Z) - Overcoming the curse of dimensionality with Laplacian regularization in
semi-supervised learning [80.20302993614594]
ラプラシア正規化の欠点を克服するための統計的解析を提供する。
望ましい振る舞いを示すスペクトルフィルタリング法を多数発表する。
我々は,本手法を大量のデータで利用できるようにするために,現実的な計算ガイドラインを提供する。
論文 参考訳(メタデータ) (2020-09-09T14:28:54Z) - Graph Embedding with Data Uncertainty [113.39838145450007]
スペクトルベースのサブスペース学習は、多くの機械学習パイプラインにおいて、一般的なデータ前処理ステップである。
ほとんどの部分空間学習法は、不確実性の高いデータにつながる可能性のある測定の不正確さやアーティファクトを考慮していない。
論文 参考訳(メタデータ) (2020-09-01T15:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。