Fugu-MT 論文翻訳(概要): Adapting CRISP-DM for Idea Mining: A Data Mining Process for Generating Ideas Using a Textual Dataset

論文の概要: Adapting CRISP-DM for Idea Mining: A Data Mining Process for Generating Ideas Using a Textual Dataset

arxiv url: http://arxiv.org/abs/2105.00574v1
Date: Sun, 2 May 2021 23:24:25 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-04 23:51:13.175525
Title: Adapting CRISP-DM for Idea Mining: A Data Mining Process for Generating Ideas Using a Textual Dataset
Title（参考訳）: アイデアマイニングにCRISP-DMを適用する:テキストデータセットを用いたアイデア生成のためのデータマイニングプロセス
Authors: W. Y. Ayele
Abstract要約: 本稿では、アイデアマイニング(CRISP-IM)のためのアイデアを生成する再利用可能なモデルであるCRISP-DMを提案する。 CRISP-IMは、動的トピックモデリング(DTM)、教師なし機械学習、そしてその後の学術論文のデータセットの統計分析を通じて、アイデア生成を容易にする。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Data mining project managers can benefit from using standard data mining process models. The benefits of using standard process models for data mining, such as the de facto and the most popular, Cross-Industry-Standard-Process model for Data Mining (CRISP-DM) are reduced cost and time. Also, standard models facilitate knowledge transfer, reuse of best practices, and minimize knowledge requirements. On the other hand, to unlock the potential of ever-growing textual data such as publications, patents, social media data, and documents of various forms, digital innovation is increasingly needed. Furthermore, the introduction of cutting-edge machine learning tools and techniques enable the elicitation of ideas. The processing of unstructured textual data to generate new and useful ideas is referred to as idea mining. Existing literature about idea mining merely overlooks the utilization of standard data mining process models. Therefore, the purpose of this paper is to propose a reusable model to generate ideas, CRISP-DM, for Idea Mining (CRISP-IM). The design and development of the CRISP-IM are done following the design science approach. The CRISP-IM facilitates idea generation, through the use of Dynamic Topic Modeling (DTM), unsupervised machine learning, and subsequent statistical analysis on a dataset of scholarly articles. The adapted CRISP-IM can be used to guide the process of identifying trends using scholarly literature datasets or temporally organized patent or any other textual dataset of any domain to elicit ideas. The ex-post evaluation of the CRISP-IM is left for future study.
Abstract（参考訳）: データマイニングプロジェクトマネージャは、標準的なデータマイニングプロセスモデルを使用することでメリットを享受できる。データマイニング(CRISP-DM)におけるデファクトや最も一般的なクロスインダストリー・スタンダード・プロセスモデルなどの標準的なプロセスモデルを使用することの利点は、コストと時間を削減できる。また、標準モデルは知識伝達を促進し、ベストプラクティスを再利用し、知識要件を最小化する。一方で、出版物、特許、ソーシャルメディアデータ、様々な形式の文書など、成長を続けるテキストデータの可能性を解き放つためには、デジタルイノベーションがますます必要とされている。さらに、最先端の機械学習ツールや技術の導入により、アイデアの活用が可能になる。新しく有用なアイデアを生み出すための構造化されていないテキストデータの処理は、アイデアマイニング(idea mining)と呼ばれる。アイデアマイニングに関する既存の文献は、標準的なデータマイニングプロセスモデルの利用を単に見落としているに過ぎない。そこで本研究では,アイデアマイニング(CRISP-IM)のための再利用可能なモデルであるCRISP-DMを提案する。 CRISP-IMの設計と開発は、設計科学のアプローチに従って行われる。 CRISP-IMは、動的トピックモデリング(DTM)、教師なし機械学習、そしてその後の学術論文のデータセットの統計分析を通じて、アイデア生成を容易にする。適応されたCRISP-IMは、学術文献データセットや時間的に組織された特許やその他のドメインのテキストデータセットを使用して、アイデアを導き出すトレンドを特定するプロセスのガイドに使用することができる。 CRISP-IMのポスト評価は今後の研究に残されている。

関連論文リスト

A Survey on Generative Recommendation: Data, Model, and Tasks [55.36322811257545]
ジェネレーティブ・レコメンデーションは、差別的なスコアではなく、世代としてのレコメンデーションを再認識する。この調査は、データ、モデル、タスク次元にまたがる統合された三部構成のフレームワークを通じて包括的な調査を提供する。世界知識の統合、自然言語理解、推論能力、スケーリング法則、創造的生成の5つの主要な利点を特定します。
論文参考訳（メタデータ） (2025-10-31T04:02:58Z)
PLUM: Adapting Pre-trained Language Models for Industrial-scale Generative Recommendations [8.96024282226161]
PLUMは,産業規模のレコメンデーションタスクに事前訓練された大規模言語モデルを適用するために設計されたフレームワークである。 PLUMは、セマンティックIDを使用したアイテムトークン化、ドメイン固有のデータに対する継続事前トレーニング(CPT)、推奨目的のためのタスク固有の微調整で構成されている。そこでは,ユーザコンテキストに基づいて推奨項目のセマンティックIDを生成するために,モデルを直接訓練する。
論文参考訳（メタデータ） (2025-10-09T05:01:05Z)
Generative Models for Synthetic Data: Transforming Data Mining in the GenAI Era [49.46005489386284]
このチュートリアルでは、合成データ生成の基礎と最新の進歩を紹介する。 Atendeesは、生成的合成データを活用してデータマイニングの研究と実践を強化する、実用的な洞察を得る。
論文参考訳（メタデータ） (2025-08-27T05:04:07Z)
Explore Theory of Mind: Program-guided adversarial data generation for theory of mind reasoning [88.68573198200698]
本研究では,多様で挑戦的な心的データ理論を大規模に生成するための最初のフレームワークであるExploreToMを紹介する。我々のアプローチは、A*検索をカスタムドメイン特化言語に利用して、複雑なストーリ構造と、新しく、多様だが、もっともらしいシナリオを生成します。評価の結果,Llama-3.1-70B や GPT-4o などの最先端 LLM はExploreToM 生成データに対して0%,9% の精度を示した。
論文参考訳（メタデータ） (2024-12-12T21:29:00Z)
A Survey of Small Language Models [104.80308007044634]
小言語モデル (SLM) は, 計算資源の最小化による言語タスクの効率化と性能の向上により, ますます重要になってきている。本稿では,SLMのアーキテクチャ,トレーニング技術,モデル圧縮技術に着目した総合的な調査を行う。
論文参考訳（メタデータ） (2024-10-25T23:52:28Z)
Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文参考訳（メタデータ） (2024-10-22T06:43:28Z)
A Gentle Introduction and Tutorial on Deep Generative Models in Transportation Research [21.66278922813198]
近年、DGM(Deep Generative Models)は急速に進歩し、様々な分野において重要なツールとなっている。本稿では,DGMの総合的な紹介とチュートリアルについて紹介する。これは生成モデルの概要から始まり、続いて基本モデルの詳細な説明、文献の体系的なレビュー、実装を支援するための実践的なチュートリアルコードなどが続く。
論文参考訳（メタデータ） (2024-10-09T17:11:22Z)
Dataset Regeneration for Sequential Recommendation [69.93516846106701]
DR4SRと呼ばれるモデルに依存しないデータセット再生フレームワークを用いて、理想的なトレーニングデータセットを開発するためのデータ中心のパラダイムを提案する。データ中心のパラダイムの有効性を示すために、我々はフレームワークを様々なモデル中心の手法と統合し、4つの広く採用されているデータセット間で大きなパフォーマンス改善を観察する。
論文参考訳（メタデータ） (2024-05-28T03:45:34Z)
A Review of Modern Recommender Systems Using Generative Models (Gen-RecSys) [57.30228361181045]
この調査は、ジェネレーティブモデル(Gen-RecSys)を用いたレコメンデーションシステムにおける重要な進歩を結びつける。対話駆動生成モデル、自然言語レコメンデーションのための大規模言語モデル(LLM)とテキストデータの使用、RSにおける画像やビデオの生成と処理のためのマルチモーダルモデルの統合。我々の研究は、Gen-RecSysの影響と害を評価するために必要なパラダイムを強調し、オープンな課題を特定します。
論文参考訳（メタデータ） (2024-03-31T06:57:57Z)
TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文参考訳（メタデータ） (2023-05-19T10:11:21Z)
A toolbox for idea generation and evaluation: Machine learning, data-driven, and contest-driven approaches to support idea generation [0.0]
この論文には、アイデア生成をサポートするための、対応するデータソースとモデルを備えた、データ駆動および機械学習テクニックのリストが含まれている。結果は、データ駆動とコンテスト駆動のアイデア生成をよりサポートするための、2つのモデル、1つのメソッドと1つのフレームワークを含む。人間中心のAIは、アーティファクトのさらなる発展と創造性の促進に貢献できる、有望な研究分野である。
論文参考訳（メタデータ） (2022-05-19T20:28:49Z)
Retrieval-Enhanced Machine Learning [110.5237983180089]
本稿では,いくつかの既存モデルを含む汎用的な検索強化機械学習フレームワークについて述べる。 REMLは情報検索の慣例に挑戦し、最適化を含む中核領域における新たな進歩の機会を提示している。 REMLリサーチアジェンダは、情報アクセス研究の新しいスタイルの基礎を築き、機械学習と人工知能の進歩への道を開く。
論文参考訳（メタデータ） (2022-05-02T21:42:45Z)
T-METASET: Task-Aware Generation of Metamaterial Datasets by Diversity-Based Active Learning [14.668178146934588]
タスク対応データセット生成のためのインテリジェントなデータ取得フレームワークであるt-METASETを提案する。提案するフレームワークを,汎用性,タスク認識性,カスタマイズ可能な3つのシナリオで検証する。
論文参考訳（メタデータ） (2022-02-21T22:46:49Z)
A Systematic Literature Review about Idea Mining: The Use of Machine-driven Analytics to Generate Ideas [0.0]
本研究では、アイデア生成とデータソースのための最先端の機械駆動分析に焦点を当てる。 IEEE、Scopus、Web of Science、Google Scholarから関連する学術文献を特定するために、体系的な文献レビューが行われる。その結果,テキストマイニング,情報検索(IR),人工知能(AI),ディープラーニング,機械学習,統計技術,自然言語処理(NLP),NLPに基づく形態解析,ネットワーク分析,バイオロメトリなどを用いて,アイデア生成を支援することが示唆された。
論文参考訳（メタデータ） (2022-01-30T21:46:21Z)
RPT: Toward Transferable Model on Heterogeneous Researcher Data via Pre-Training [19.987304448524043]
マルチタスク型自己教師型学習ベース研究者データ事前学習モデル RPT を提案する。研究者のデータをセマンティックドキュメントセットとコミュニティグラフに分割する。モデル全体を学習するための3つの自己教師型学習目標を提案する。
論文参考訳（メタデータ） (2021-10-08T03:42:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。