論文の概要: Adapting CRISP-DM for Idea Mining: A Data Mining Process for Generating
Ideas Using a Textual Dataset
- arxiv url: http://arxiv.org/abs/2105.00574v1
- Date: Sun, 2 May 2021 23:24:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-04 23:51:13.175525
- Title: Adapting CRISP-DM for Idea Mining: A Data Mining Process for Generating
Ideas Using a Textual Dataset
- Title(参考訳): アイデアマイニングにCRISP-DMを適用する:テキストデータセットを用いたアイデア生成のためのデータマイニングプロセス
- Authors: W. Y. Ayele
- Abstract要約: 本稿では、アイデアマイニング(CRISP-IM)のためのアイデアを生成する再利用可能なモデルであるCRISP-DMを提案する。
CRISP-IMは、動的トピックモデリング(DTM)、教師なし機械学習、そしてその後の学術論文のデータセットの統計分析を通じて、アイデア生成を容易にする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data mining project managers can benefit from using standard data mining
process models. The benefits of using standard process models for data mining,
such as the de facto and the most popular, Cross-Industry-Standard-Process
model for Data Mining (CRISP-DM) are reduced cost and time. Also, standard
models facilitate knowledge transfer, reuse of best practices, and minimize
knowledge requirements. On the other hand, to unlock the potential of
ever-growing textual data such as publications, patents, social media data, and
documents of various forms, digital innovation is increasingly needed.
Furthermore, the introduction of cutting-edge machine learning tools and
techniques enable the elicitation of ideas. The processing of unstructured
textual data to generate new and useful ideas is referred to as idea mining.
Existing literature about idea mining merely overlooks the utilization of
standard data mining process models. Therefore, the purpose of this paper is to
propose a reusable model to generate ideas, CRISP-DM, for Idea Mining
(CRISP-IM). The design and development of the CRISP-IM are done following the
design science approach. The CRISP-IM facilitates idea generation, through the
use of Dynamic Topic Modeling (DTM), unsupervised machine learning, and
subsequent statistical analysis on a dataset of scholarly articles. The adapted
CRISP-IM can be used to guide the process of identifying trends using scholarly
literature datasets or temporally organized patent or any other textual dataset
of any domain to elicit ideas. The ex-post evaluation of the CRISP-IM is left
for future study.
- Abstract(参考訳): データマイニングプロジェクトマネージャは、標準的なデータマイニングプロセスモデルを使用することでメリットを享受できる。
データマイニング(CRISP-DM)におけるデファクトや最も一般的なクロスインダストリー・スタンダード・プロセスモデルなどの標準的なプロセスモデルを使用することの利点は、コストと時間を削減できる。
また、標準モデルは知識伝達を促進し、ベストプラクティスを再利用し、知識要件を最小化する。
一方で、出版物、特許、ソーシャルメディアデータ、様々な形式の文書など、成長を続けるテキストデータの可能性を解き放つためには、デジタルイノベーションがますます必要とされている。
さらに、最先端の機械学習ツールや技術の導入により、アイデアの活用が可能になる。
新しく有用なアイデアを生み出すための構造化されていないテキストデータの処理は、アイデアマイニング(idea mining)と呼ばれる。
アイデアマイニングに関する既存の文献は、標準的なデータマイニングプロセスモデルの利用を単に見落としているに過ぎない。
そこで本研究では,アイデアマイニング(CRISP-IM)のための再利用可能なモデルであるCRISP-DMを提案する。
CRISP-IMの設計と開発は、設計科学のアプローチに従って行われる。
CRISP-IMは、動的トピックモデリング(DTM)、教師なし機械学習、そしてその後の学術論文のデータセットの統計分析を通じて、アイデア生成を容易にする。
適応されたCRISP-IMは、学術文献データセットや時間的に組織された特許やその他のドメインのテキストデータセットを使用して、アイデアを導き出すトレンドを特定するプロセスのガイドに使用することができる。
CRISP-IMのポスト評価は今後の研究に残されている。
関連論文リスト
- ZhiJian: A Unifying and Rapidly Deployable Toolbox for Pre-trained Model
Reuse [59.500060790983994]
本稿では、PyTorchバックエンドを利用して、モデル再利用のための包括的でユーザフレンドリなツールボックスであるZhiJianを紹介する。
ZhiJianは、PTMによるターゲットアーキテクチャ構築、PTMによるターゲットモデルチューニング、およびPTMに基づく推論を含む、モデル再利用に関するさまざまな視点を統一する新しいパラダイムを提示している。
論文 参考訳(メタデータ) (2023-08-17T19:12:13Z) - Integration of Domain Expert-Centric Ontology Design into the CRISP-DM
for Cyber-Physical Production Systems [63.62764375279861]
機械学習(ML)とデータマイニング(DM)の手法は、収集されたデータから複雑で隠れたパターンを抽出する上で有望であることが証明されている。
しかし、このようなデータ駆動プロジェクトは、通常、CRISPDM(Cross-Industry Standard Process for Data Mining)で実行され、データの理解と準備に要する時間の不均等さのために失敗することが多い。
このコントリビューションは、データサイエンティストがCPPSの課題に対してより迅速かつ確実に洞察を得ることができるように、統合されたアプローチを提供することを目的としている。
論文 参考訳(メタデータ) (2023-07-21T15:04:00Z) - Information Screening whilst Exploiting! Multimodal Relation Extraction
with Feature Denoising and Multimodal Topic Modeling [96.75821232222201]
既存のマルチモーダル関係抽出(MRE)研究は、内部情報過剰利用と外部情報過多という2つの共存課題に直面している。
内部情報スクリーニングと外部情報活用を同時に実現する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:57Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time
Series [79.64785804590821]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - A toolbox for idea generation and evaluation: Machine learning,
data-driven, and contest-driven approaches to support idea generation [0.0]
この論文には、アイデア生成をサポートするための、対応するデータソースとモデルを備えた、データ駆動および機械学習テクニックのリストが含まれている。
結果は、データ駆動とコンテスト駆動のアイデア生成をよりサポートするための、2つのモデル、1つのメソッドと1つのフレームワークを含む。
人間中心のAIは、アーティファクトのさらなる発展と創造性の促進に貢献できる、有望な研究分野である。
論文 参考訳(メタデータ) (2022-05-19T20:28:49Z) - Retrieval-Enhanced Machine Learning [110.5237983180089]
本稿では,いくつかの既存モデルを含む汎用的な検索強化機械学習フレームワークについて述べる。
REMLは情報検索の慣例に挑戦し、最適化を含む中核領域における新たな進歩の機会を提示している。
REMLリサーチアジェンダは、情報アクセス研究の新しいスタイルの基礎を築き、機械学習と人工知能の進歩への道を開く。
論文 参考訳(メタデータ) (2022-05-02T21:42:45Z) - T-METASET: Task-Aware Generation of Metamaterial Datasets by
Diversity-Based Active Learning [14.668178146934588]
タスク対応データセット生成のためのインテリジェントなデータ取得フレームワークであるt-METASETを提案する。
提案するフレームワークを,汎用性,タスク認識性,カスタマイズ可能な3つのシナリオで検証する。
論文 参考訳(メタデータ) (2022-02-21T22:46:49Z) - A Systematic Literature Review about Idea Mining: The Use of
Machine-driven Analytics to Generate Ideas [0.0]
本研究では、アイデア生成とデータソースのための最先端の機械駆動分析に焦点を当てる。
IEEE、Scopus、Web of Science、Google Scholarから関連する学術文献を特定するために、体系的な文献レビューが行われる。
その結果,テキストマイニング,情報検索(IR),人工知能(AI),ディープラーニング,機械学習,統計技術,自然言語処理(NLP),NLPに基づく形態解析,ネットワーク分析,バイオロメトリなどを用いて,アイデア生成を支援することが示唆された。
論文 参考訳(メタデータ) (2022-01-30T21:46:21Z) - RPT: Toward Transferable Model on Heterogeneous Researcher Data via
Pre-Training [19.987304448524043]
マルチタスク型自己教師型学習ベース研究者データ事前学習モデル RPT を提案する。
研究者のデータをセマンティックドキュメントセットとコミュニティグラフに分割する。
モデル全体を学習するための3つの自己教師型学習目標を提案する。
論文 参考訳(メタデータ) (2021-10-08T03:42:09Z) - Automated Machine Learning Techniques for Data Streams [91.3755431537592]
本稿では、最先端のオープンソースAutoMLツールを調査し、ストリームから収集したデータに適用し、時間とともにパフォーマンスがどのように変化するかを測定する。
この結果から,既製のAutoMLツールで十分な結果が得られることが示されたが,概念ドリフトや検出,適応といった手法が適用されれば,予測精度を時間とともに維持することが可能になる。
論文 参考訳(メタデータ) (2021-06-14T11:42:46Z) - Method and Dataset Entity Mining in Scientific Literature: A CNN +
Bi-LSTM Model with Self-attention [21.93889297841459]
MDERと呼ばれる新しいエンティティ認識モデルを提案し、科学的論文から効果的にメソッドとデータセットを抽出することができる。
我々は,NLP,CV,データマイニング,AIの4つの研究分野の論文から構築したデータセットのモデルを評価する。
論文 参考訳(メタデータ) (2020-10-26T13:38:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。