論文の概要: Mill.jl and JsonGrinder.jl: automated differentiable feature extraction
for learning from raw JSON data
- arxiv url: http://arxiv.org/abs/2105.09107v1
- Date: Wed, 19 May 2021 13:02:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-20 13:56:32.233329
- Title: Mill.jl and JsonGrinder.jl: automated differentiable feature extraction
for learning from raw JSON data
- Title(参考訳): Mill.jlとJsonGrinder.jl:生のJSONデータから学習するための自動微分可能な特徴抽出
- Authors: Simon Mandlik, Matej Racinsky, Viliam Lisy, Tomas Pevny
- Abstract要約: 生のデータ入力から学ぶことは、機械学習の手法を成功させるために重要な要素の1つである。
生のデータ入力から学ぶことは、機械学習の手法を成功させるために重要な要素の1つである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Learning from raw data input, thus limiting the need for manual feature
engineering, is one of the key components of many successful applications of
machine learning methods. While machine learning problems are often formulated
on data that naturally translate into a vector representation suitable for
classifiers, there are data sources, for example in cybersecurity, that are
naturally represented in diverse files with a unifying hierarchical structure,
such as XML, JSON, and Protocol Buffers. Converting this data to vector
(tensor) representation is generally done by manual feature engineering, which
is laborious, lossy, and prone to human bias about the importance of particular
features.
Mill and JsonGrinder is a tandem of libraries, which fully automates the
conversion. Starting with an arbitrary set of JSON samples, they create a
differentiable machine learning model capable of infer from further JSON
samples in their raw form.
- Abstract(参考訳): 生のデータ入力から学ぶことは、手作業の機能エンジニアリングの必要性を制限し、機械学習手法の多くの成功例の重要な要素の1つである。
機械学習の問題は、分類器に適したベクトル表現に自然に変換されるデータに定式化されることが多いが、例えばサイバーセキュリティでは、XML、JSON、Protocol Buffersのような統一階層構造を持つ様々なファイルで自然に表現されるデータソースが存在する。
このデータをベクトル(テンソル)表現に変換するのは、一般的に手動の機能エンジニアリングによって行われます。
MillとJsonGrinderはライブラリのタンデムであり、変換を完全に自動化している。
任意のJSONサンプルセットから始めて、生の形式でさらなるJSONサンプルから推論可能な、微分可能な機械学習モデルを生成する。
関連論文リスト
- MSdocTr-Lite: A Lite Transformer for Full Page Multi-script Handwriting
Recognition [3.0682439731292592]
フルページマルチスクリプト手書き文字認識のためのライトトランスアーキテクチャを提案する。
提案されたモデルには3つの利点がある。
カリキュラム学習戦略により,ページレベルの読み順を学習することができる。
簡単なトランスファー学習プロセスを適用することで、他のスクリプトに容易に適応できる。
論文 参考訳(メタデータ) (2023-03-24T11:40:50Z) - RT-1: Robotics Transformer for Real-World Control at Scale [98.09428483862165]
我々は,有望なスケーラブルなモデル特性を示す,ロボティクストランスフォーマーと呼ばれるモデルクラスを提示する。
実世界の課題を遂行する実ロボットの大規模データ収集に基づいて,様々なモデルクラスと,データサイズ,モデルサイズ,データの多様性の関数として一般化する能力について検証した。
論文 参考訳(メタデータ) (2022-12-13T18:55:15Z) - Privacy-Preserving Machine Learning for Collaborative Data Sharing via
Auto-encoder Latent Space Embeddings [57.45332961252628]
データ共有プロセスにおけるプライバシ保護機械学習は、極めて重要なタスクである。
本稿では、オートエンコーダによる表現学習を用いて、プライバシーを保護した組込みデータを生成する革新的なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-10T17:36:58Z) - Explaining Classifiers Trained on Raw Hierarchical Multiple-Instance
Data [0.0]
多くのデータソースは、構造化されたデータ交換フォーマット(例えば、XMLフォーマットの複数のセキュリティログ)の自然な形式を持っています。
階層型インスタンス学習(HMIL)のような既存の手法では、そのようなデータを生の形式で学習することができる。
これらのモデルをサブセット選択問題として扱うことにより、計算効率のよいアルゴリズムを用いて、解釈可能な説明が好ましい性質でどのように生成できるかを実証する。
我々は,グラフニューラルネットワークから導入した説明手法と比較して,桁違いの高速化と高品質な説明を行う。
論文 参考訳(メタデータ) (2022-08-04T14:48:37Z) - OmniXAI: A Library for Explainable AI [98.07381528393245]
eXplainable AI(XAI)のオープンソースPythonライブラリであるOmniXAIを紹介する。
オールニウェイで説明可能なAI機能と、さまざまな解釈可能な機械学習技術を提供する。
実践者にとってこのライブラリは、アプリケーションの説明を生成するために、使いやすく統合されたインターフェースを提供する。
論文 参考訳(メタデータ) (2022-06-01T11:35:37Z) - Pushing the Limits of Simple Pipelines for Few-Shot Learning: External
Data and Fine-Tuning Make a Difference [74.80730361332711]
コンピュータビジョンにおいて、ほとんどショット学習は重要かつトピック的な問題である。
単純なトランスフォーマーベースのパイプラインは、標準ベンチマークで驚くほど優れたパフォーマンスが得られることを示す。
論文 参考訳(メタデータ) (2022-04-15T02:55:58Z) - Sentence Bottleneck Autoencoders from Transformer Language Models [53.350633961266375]
我々は、事前訓練されたフリーズトランスフォーマー言語モデルから文レベルのオートエンコーダを構築する。
我々は、文ボトルネックと1層修飾トランスフォーマーデコーダのみを訓練しながら、マスク付き言語モデリングの目的を生成的・認知的言語として適応する。
本研究では,テキスト類似性タスク,スタイル転送,単一文分類タスクにおける事前学習されたトランスフォーマーからの表現をGLUEベンチマークで抽出する手法よりも,大規模な事前学習モデルよりも少ないパラメータを用いて,より高品質な文表現を実現することを示す。
論文 参考訳(メタデータ) (2021-08-31T19:39:55Z) - tf.data: A Machine Learning Data Processing Framework [0.4588028371034406]
機械学習モデルのトレーニングには、モデルに入力データを入力する必要がある。
機械学習ジョブのための効率的な入力パイプラインの構築と実行のためのフレームワークであるtf.dataを提案する。
入力パイプラインのパフォーマンスは、最先端の機械学習モデルのエンドツーエンドのトレーニング時間に極めて重要であることを実証する。
論文 参考訳(メタデータ) (2021-01-28T17:16:46Z) - Scaling Systematic Literature Reviews with Machine Learning Pipelines [57.82662094602138]
体系的なレビューは、科学的文書からデータを抽出する。
これらの側面をそれぞれ自動化するパイプラインを構築し、多くの人間時間対システム品質トレードオフを実験します。
人間の専門的アノテーションの2週間だけで、パイプラインシステム全体の驚くほどの精度と一般性が得られることが分かりました。
論文 参考訳(メタデータ) (2020-10-09T16:19:42Z) - An analysis on the use of autoencoders for representation learning:
fundamentals, learning task case studies, explainability and challenges [11.329636084818778]
多くの機械学習タスクでは、データの優れた表現を学ぶことが、優れたパフォーマンスのソリューションを構築するための鍵となる。
可視化のためのデータ埋め込み,画像認識,セマンティックハッシュ,異常行動の検出,インスタンス生成など,一連の学習課題を提示する。
オートエンコーダを唯一の学習方法として用いた各タスクに対して,解を提案する。
論文 参考訳(メタデータ) (2020-05-21T08:41:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。