論文の概要: Adapting CRISP-DM for Idea Mining: A Data Mining Process for Generating
Ideas Using a Textual Dataset
- arxiv url: http://arxiv.org/abs/2105.00574v1
- Date: Sun, 2 May 2021 23:24:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-04 23:51:13.175525
- Title: Adapting CRISP-DM for Idea Mining: A Data Mining Process for Generating
Ideas Using a Textual Dataset
- Title(参考訳): アイデアマイニングにCRISP-DMを適用する:テキストデータセットを用いたアイデア生成のためのデータマイニングプロセス
- Authors: W. Y. Ayele
- Abstract要約: 本稿では、アイデアマイニング(CRISP-IM)のためのアイデアを生成する再利用可能なモデルであるCRISP-DMを提案する。
CRISP-IMは、動的トピックモデリング(DTM)、教師なし機械学習、そしてその後の学術論文のデータセットの統計分析を通じて、アイデア生成を容易にする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data mining project managers can benefit from using standard data mining
process models. The benefits of using standard process models for data mining,
such as the de facto and the most popular, Cross-Industry-Standard-Process
model for Data Mining (CRISP-DM) are reduced cost and time. Also, standard
models facilitate knowledge transfer, reuse of best practices, and minimize
knowledge requirements. On the other hand, to unlock the potential of
ever-growing textual data such as publications, patents, social media data, and
documents of various forms, digital innovation is increasingly needed.
Furthermore, the introduction of cutting-edge machine learning tools and
techniques enable the elicitation of ideas. The processing of unstructured
textual data to generate new and useful ideas is referred to as idea mining.
Existing literature about idea mining merely overlooks the utilization of
standard data mining process models. Therefore, the purpose of this paper is to
propose a reusable model to generate ideas, CRISP-DM, for Idea Mining
(CRISP-IM). The design and development of the CRISP-IM are done following the
design science approach. The CRISP-IM facilitates idea generation, through the
use of Dynamic Topic Modeling (DTM), unsupervised machine learning, and
subsequent statistical analysis on a dataset of scholarly articles. The adapted
CRISP-IM can be used to guide the process of identifying trends using scholarly
literature datasets or temporally organized patent or any other textual dataset
of any domain to elicit ideas. The ex-post evaluation of the CRISP-IM is left
for future study.
- Abstract(参考訳): データマイニングプロジェクトマネージャは、標準的なデータマイニングプロセスモデルを使用することでメリットを享受できる。
データマイニング(CRISP-DM)におけるデファクトや最も一般的なクロスインダストリー・スタンダード・プロセスモデルなどの標準的なプロセスモデルを使用することの利点は、コストと時間を削減できる。
また、標準モデルは知識伝達を促進し、ベストプラクティスを再利用し、知識要件を最小化する。
一方で、出版物、特許、ソーシャルメディアデータ、様々な形式の文書など、成長を続けるテキストデータの可能性を解き放つためには、デジタルイノベーションがますます必要とされている。
さらに、最先端の機械学習ツールや技術の導入により、アイデアの活用が可能になる。
新しく有用なアイデアを生み出すための構造化されていないテキストデータの処理は、アイデアマイニング(idea mining)と呼ばれる。
アイデアマイニングに関する既存の文献は、標準的なデータマイニングプロセスモデルの利用を単に見落としているに過ぎない。
そこで本研究では,アイデアマイニング(CRISP-IM)のための再利用可能なモデルであるCRISP-DMを提案する。
CRISP-IMの設計と開発は、設計科学のアプローチに従って行われる。
CRISP-IMは、動的トピックモデリング(DTM)、教師なし機械学習、そしてその後の学術論文のデータセットの統計分析を通じて、アイデア生成を容易にする。
適応されたCRISP-IMは、学術文献データセットや時間的に組織された特許やその他のドメインのテキストデータセットを使用して、アイデアを導き出すトレンドを特定するプロセスのガイドに使用することができる。
CRISP-IMのポスト評価は今後の研究に残されている。
関連論文リスト
- A Survey of Small Language Models [104.80308007044634]
小言語モデル (SLM) は, 計算資源の最小化による言語タスクの効率化と性能の向上により, ますます重要になってきている。
本稿では,SLMのアーキテクチャ,トレーニング技術,モデル圧縮技術に着目した総合的な調査を行う。
論文 参考訳(メタデータ) (2024-10-25T23:52:28Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - A Gentle Introduction and Tutorial on Deep Generative Models in Transportation Research [21.66278922813198]
近年、DGM(Deep Generative Models)は急速に進歩し、様々な分野において重要なツールとなっている。
本稿では,DGMの総合的な紹介とチュートリアルについて紹介する。
これは生成モデルの概要から始まり、続いて基本モデルの詳細な説明、文献の体系的なレビュー、実装を支援するための実践的なチュートリアルコードなどが続く。
論文 参考訳(メタデータ) (2024-10-09T17:11:22Z) - Dataset Regeneration for Sequential Recommendation [69.93516846106701]
DR4SRと呼ばれるモデルに依存しないデータセット再生フレームワークを用いて、理想的なトレーニングデータセットを開発するためのデータ中心のパラダイムを提案する。
データ中心のパラダイムの有効性を示すために、我々はフレームワークを様々なモデル中心の手法と統合し、4つの広く採用されているデータセット間で大きなパフォーマンス改善を観察する。
論文 参考訳(メタデータ) (2024-05-28T03:45:34Z) - A Review of Modern Recommender Systems Using Generative Models (Gen-RecSys) [57.30228361181045]
この調査は、ジェネレーティブモデル(Gen-RecSys)を用いたレコメンデーションシステムにおける重要な進歩を結びつける。
対話駆動生成モデル、自然言語レコメンデーションのための大規模言語モデル(LLM)とテキストデータの使用、RSにおける画像やビデオの生成と処理のためのマルチモーダルモデルの統合。
我々の研究は、Gen-RecSysの影響と害を評価するために必要なパラダイムを強調し、オープンな課題を特定します。
論文 参考訳(メタデータ) (2024-03-31T06:57:57Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - A toolbox for idea generation and evaluation: Machine learning,
data-driven, and contest-driven approaches to support idea generation [0.0]
この論文には、アイデア生成をサポートするための、対応するデータソースとモデルを備えた、データ駆動および機械学習テクニックのリストが含まれている。
結果は、データ駆動とコンテスト駆動のアイデア生成をよりサポートするための、2つのモデル、1つのメソッドと1つのフレームワークを含む。
人間中心のAIは、アーティファクトのさらなる発展と創造性の促進に貢献できる、有望な研究分野である。
論文 参考訳(メタデータ) (2022-05-19T20:28:49Z) - Retrieval-Enhanced Machine Learning [110.5237983180089]
本稿では,いくつかの既存モデルを含む汎用的な検索強化機械学習フレームワークについて述べる。
REMLは情報検索の慣例に挑戦し、最適化を含む中核領域における新たな進歩の機会を提示している。
REMLリサーチアジェンダは、情報アクセス研究の新しいスタイルの基礎を築き、機械学習と人工知能の進歩への道を開く。
論文 参考訳(メタデータ) (2022-05-02T21:42:45Z) - T-METASET: Task-Aware Generation of Metamaterial Datasets by
Diversity-Based Active Learning [14.668178146934588]
タスク対応データセット生成のためのインテリジェントなデータ取得フレームワークであるt-METASETを提案する。
提案するフレームワークを,汎用性,タスク認識性,カスタマイズ可能な3つのシナリオで検証する。
論文 参考訳(メタデータ) (2022-02-21T22:46:49Z) - A Systematic Literature Review about Idea Mining: The Use of
Machine-driven Analytics to Generate Ideas [0.0]
本研究では、アイデア生成とデータソースのための最先端の機械駆動分析に焦点を当てる。
IEEE、Scopus、Web of Science、Google Scholarから関連する学術文献を特定するために、体系的な文献レビューが行われる。
その結果,テキストマイニング,情報検索(IR),人工知能(AI),ディープラーニング,機械学習,統計技術,自然言語処理(NLP),NLPに基づく形態解析,ネットワーク分析,バイオロメトリなどを用いて,アイデア生成を支援することが示唆された。
論文 参考訳(メタデータ) (2022-01-30T21:46:21Z) - RPT: Toward Transferable Model on Heterogeneous Researcher Data via
Pre-Training [19.987304448524043]
マルチタスク型自己教師型学習ベース研究者データ事前学習モデル RPT を提案する。
研究者のデータをセマンティックドキュメントセットとコミュニティグラフに分割する。
モデル全体を学習するための3つの自己教師型学習目標を提案する。
論文 参考訳(メタデータ) (2021-10-08T03:42:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。