論文の概要: Investigation of Topic Modelling Methods for Understanding the Reports
of the Mining Projects in Queensland
- arxiv url: http://arxiv.org/abs/2111.03576v1
- Date: Fri, 5 Nov 2021 15:52:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-08 16:36:49.648228
- Title: Investigation of Topic Modelling Methods for Understanding the Reports
of the Mining Projects in Queensland
- Title(参考訳): クイーンズランドにおける鉱業計画報告の理解のためのトピックモデリング手法の検討
- Authors: Yasuko Okamoto, Thirunavukarasu Balasubramaniam, Richi Nayak
- Abstract要約: 鉱業では、プロジェクト管理プロセスにおいて多くの報告が生成される。
ドキュメントクラスタリングは、この問題に対処するための強力なアプローチです。
The three method, Latent Dirichlet Allocation (LDA), Non negative Matrix Factorization (NMF), Non negative Factorization (NTF) were compared。
- 参考スコア(独自算出の注目度): 2.610470075814367
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the mining industry, many reports are generated in the project management
process. These past documents are a great resource of knowledge for future
success. However, it would be a tedious and challenging task to retrieve the
necessary information if the documents are unorganized and unstructured.
Document clustering is a powerful approach to cope with the problem, and many
methods have been introduced in past studies. Nonetheless, there is no silver
bullet that can perform the best for any types of documents. Thus, exploratory
studies are required to apply the clustering methods for new datasets. In this
study, we will investigate multiple topic modelling (TM) methods. The
objectives are finding the appropriate approach for the mining project reports
using the dataset of the Geological Survey of Queensland, Department of
Resources, Queensland Government, and understanding the contents to get the
idea of how to organise them. Three TM methods, Latent Dirichlet Allocation
(LDA), Nonnegative Matrix Factorization (NMF), and Nonnegative Tensor
Factorization (NTF) are compared statistically and qualitatively. After the
evaluation, we conclude that the LDA performs the best for the dataset;
however, the possibility remains that the other methods could be adopted with
some improvements.
- Abstract(参考訳): 鉱業では、プロジェクト管理プロセスにおいて多くの報告が生成される。
これらの過去の文書は、将来の成功のための優れた知識資源である。
しかし、文書が整理されず、構造化されていない場合、必要な情報を回収するのは面倒で難しい作業である。
文書クラスタリングはこの問題に対処するための強力なアプローチであり、多くの手法が過去の研究に導入されている。
それにもかかわらず、あらゆる種類の文書に対して最善を尽くす銀の弾丸は存在しない。
したがって、新しいデータセットにクラスタリング手法を適用するためには探索的研究が必要である。
本研究では,複数トピックモデリング(TM)手法について検討する。
目的は、クイーンズランド州地質調査所(英語版)、クイーンズランド州資源省(英語版)のデータセットを用いて、鉱業プロジェクトレポートの適切なアプローチを見つけ、それらを整理する方法のアイデアを得るための内容を理解することである。
3つのTM法,潜在ディリクレ割当(LDA),非負行列因子化(NMF),非負テンソル因子化(NTF)を統計的,質的に比較した。
評価後、ldaはデータセットに対して最善を尽くしていると結論づけるが、いくつかの改善で他の方法が採用される可能性は残る。
関連論文リスト
- A Survey on Data Selection for Language Models [151.6210632830082]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - A Reliable Knowledge Processing Framework for Combustion Science using
Foundation Models [0.0]
この研究は、多様な燃焼研究データを処理し、実験研究、シミュレーション、文献にまたがるアプローチを導入している。
開発されたアプローチは、データのプライバシと精度を最適化しながら、計算と経済の費用を最小化する。
このフレームワークは、最小限の人間の監視で、常に正確なドメイン固有の応答を提供する。
論文 参考訳(メタデータ) (2023-12-31T17:15:25Z) - Capture the Flag: Uncovering Data Insights with Large Language Models [90.47038584812925]
本研究では,Large Language Models (LLMs) を用いてデータの洞察の発見を自動化する可能性について検討する。
そこで本稿では,データセット内の意味的かつ関連する情報(フラグ)を識別する能力を測定するために,フラグを捕捉する原理に基づく新しい評価手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T14:20:06Z) - New methods for new data? An overview and illustration of quantitative
inductive methods for HRM research [0.0]
要するに、データは第4次産業革命の本質的な源泉となる。
石油とは異なり、データ生産に関して大きな問題はない。
データ評価の方法論的課題は、実践者と学術研究者の両方に当てはまる。
論文 参考訳(メタデータ) (2023-05-15T09:51:30Z) - Application of Transformers based methods in Electronic Medical Records:
A Systematic Literature Review [77.34726150561087]
本研究は,異なるNLPタスクにおける電子カルテ(EMR)のトランスフォーマーに基づく手法を用いて,最先端技術に関する体系的な文献レビューを行う。
論文 参考訳(メタデータ) (2023-04-05T22:19:42Z) - Recent Few-Shot Object Detection Algorithms: A Survey with Performance
Comparison [54.357707168883024]
Few-Shot Object Detection (FSOD)は、人間の学習能力を模倣する。
FSODは、学習した汎用オブジェクトの知識を共通のヘビーテールから新しいロングテールオブジェクトクラスにインテリジェントに転送する。
本稿では,問題定義,共通データセット,評価プロトコルなどを含むFSODの概要を紹介する。
論文 参考訳(メタデータ) (2022-03-27T04:11:28Z) - A Multi-Document Coverage Reward for RELAXed Multi-Document
Summarization [11.02198476454955]
本稿では,MDSの基準値と入力文書のカバレッジのバランスをとる報酬を付与したMDSベースラインの微調整を提案する。
Multi-NewsおよびWCEP MDSデータセットに対する実験結果から、ベースライン上での平均ROUGEスコアが+0.95pp、METEORスコアが+3.17ppと大幅に改善された。
論文 参考訳(メタデータ) (2022-03-06T07:33:01Z) - Data-to-Value: An Evaluation-First Methodology for Natural Language
Projects [3.9378507882929554]
Data to Value"(D2V)は、ビッグデータテキスト分析プロジェクトのための新しい方法論である。
ビッグデータテキスト分析プロジェクトチームとトピック間の切断を避けるため、質問の詳細なカタログでガイドされている。
論文 参考訳(メタデータ) (2022-01-19T17:04:52Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - A Taxonomy of Similarity Metrics for Markov Decision Processes [62.997667081978825]
近年、伝達学習は強化学習(RL)アルゴリズムをより効率的にすることに成功した。
本稿では,これらの指標を分類し,これまでに提案されている類似性の定義を分析する。
論文 参考訳(メタデータ) (2021-03-08T12:36:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。