論文の概要: Investigation of Topic Modelling Methods for Understanding the Reports
of the Mining Projects in Queensland
- arxiv url: http://arxiv.org/abs/2111.03576v1
- Date: Fri, 5 Nov 2021 15:52:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-08 16:36:49.648228
- Title: Investigation of Topic Modelling Methods for Understanding the Reports
of the Mining Projects in Queensland
- Title(参考訳): クイーンズランドにおける鉱業計画報告の理解のためのトピックモデリング手法の検討
- Authors: Yasuko Okamoto, Thirunavukarasu Balasubramaniam, Richi Nayak
- Abstract要約: 鉱業では、プロジェクト管理プロセスにおいて多くの報告が生成される。
ドキュメントクラスタリングは、この問題に対処するための強力なアプローチです。
The three method, Latent Dirichlet Allocation (LDA), Non negative Matrix Factorization (NMF), Non negative Factorization (NTF) were compared。
- 参考スコア(独自算出の注目度): 2.610470075814367
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the mining industry, many reports are generated in the project management
process. These past documents are a great resource of knowledge for future
success. However, it would be a tedious and challenging task to retrieve the
necessary information if the documents are unorganized and unstructured.
Document clustering is a powerful approach to cope with the problem, and many
methods have been introduced in past studies. Nonetheless, there is no silver
bullet that can perform the best for any types of documents. Thus, exploratory
studies are required to apply the clustering methods for new datasets. In this
study, we will investigate multiple topic modelling (TM) methods. The
objectives are finding the appropriate approach for the mining project reports
using the dataset of the Geological Survey of Queensland, Department of
Resources, Queensland Government, and understanding the contents to get the
idea of how to organise them. Three TM methods, Latent Dirichlet Allocation
(LDA), Nonnegative Matrix Factorization (NMF), and Nonnegative Tensor
Factorization (NTF) are compared statistically and qualitatively. After the
evaluation, we conclude that the LDA performs the best for the dataset;
however, the possibility remains that the other methods could be adopted with
some improvements.
- Abstract(参考訳): 鉱業では、プロジェクト管理プロセスにおいて多くの報告が生成される。
これらの過去の文書は、将来の成功のための優れた知識資源である。
しかし、文書が整理されず、構造化されていない場合、必要な情報を回収するのは面倒で難しい作業である。
文書クラスタリングはこの問題に対処するための強力なアプローチであり、多くの手法が過去の研究に導入されている。
それにもかかわらず、あらゆる種類の文書に対して最善を尽くす銀の弾丸は存在しない。
したがって、新しいデータセットにクラスタリング手法を適用するためには探索的研究が必要である。
本研究では,複数トピックモデリング(TM)手法について検討する。
目的は、クイーンズランド州地質調査所(英語版)、クイーンズランド州資源省(英語版)のデータセットを用いて、鉱業プロジェクトレポートの適切なアプローチを見つけ、それらを整理する方法のアイデアを得るための内容を理解することである。
3つのTM法,潜在ディリクレ割当(LDA),非負行列因子化(NMF),非負テンソル因子化(NTF)を統計的,質的に比較した。
評価後、ldaはデータセットに対して最善を尽くしていると結論づけるが、いくつかの改善で他の方法が採用される可能性は残る。
関連論文リスト
- A Survey of Small Language Models [104.80308007044634]
小言語モデル (SLM) は, 計算資源の最小化による言語タスクの効率化と性能の向上により, ますます重要になってきている。
本稿では,SLMのアーキテクチャ,トレーニング技術,モデル圧縮技術に着目した総合的な調査を行う。
論文 参考訳(メタデータ) (2024-10-25T23:52:28Z) - Enhancing literature review with LLM and NLP methods. Algorithmic trading case [0.0]
本研究では,機械学習アルゴリズムを用いて,アルゴリズム取引分野の知識を分析し,整理する。
1956年から2020年の第1四半期にかけて、1億3600万件の研究論文のデータセットをフィルタリングして14,342件の関連記事を特定した。
論文 参考訳(メタデータ) (2024-10-23T13:37:27Z) - Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - Out-of-Distribution Detection with Attention Head Masking for Multimodal Document Classification [3.141006099594433]
本稿では,文書分類システムにおける多モードOODタスクに対するアテンションヘッドマスキング(AHM)と呼ばれる新しい手法を提案する。
実験により,提案手法がすべての最先端手法より優れていることを示す。
高品質な公開可能なドキュメントデータセットの不足に対処するために、新しいドキュメントAIデータセットであるFunderDocsを紹介します。
論文 参考訳(メタデータ) (2024-08-20T23:30:00Z) - Multi-News+: Cost-efficient Dataset Cleansing via LLM-based Data Annotation [9.497148303350697]
本稿では,LCMに基づくデータアノテーションの適用を拡大し,既存のデータセットの品質を向上させるケーススタディを提案する。
具体的には、連鎖や多数決のようなアプローチを利用して、人間のアノテーションを模倣し、Multi-Newsデータセットから無関係な文書を分類する。
論文 参考訳(メタデータ) (2024-04-15T11:36:10Z) - A Survey on Data Selection for Language Models [148.300726396877]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - Capture the Flag: Uncovering Data Insights with Large Language Models [90.47038584812925]
本研究では,Large Language Models (LLMs) を用いてデータの洞察の発見を自動化する可能性について検討する。
そこで本稿では,データセット内の意味的かつ関連する情報(フラグ)を識別する能力を測定するために,フラグを捕捉する原理に基づく新しい評価手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T14:20:06Z) - Application of Transformers based methods in Electronic Medical Records:
A Systematic Literature Review [77.34726150561087]
本研究は,異なるNLPタスクにおける電子カルテ(EMR)のトランスフォーマーに基づく手法を用いて,最先端技術に関する体系的な文献レビューを行う。
論文 参考訳(メタデータ) (2023-04-05T22:19:42Z) - Recent Few-Shot Object Detection Algorithms: A Survey with Performance
Comparison [54.357707168883024]
Few-Shot Object Detection (FSOD)は、人間の学習能力を模倣する。
FSODは、学習した汎用オブジェクトの知識を共通のヘビーテールから新しいロングテールオブジェクトクラスにインテリジェントに転送する。
本稿では,問題定義,共通データセット,評価プロトコルなどを含むFSODの概要を紹介する。
論文 参考訳(メタデータ) (2022-03-27T04:11:28Z) - Data-to-Value: An Evaluation-First Methodology for Natural Language
Projects [3.9378507882929554]
Data to Value"(D2V)は、ビッグデータテキスト分析プロジェクトのための新しい方法論である。
ビッグデータテキスト分析プロジェクトチームとトピック間の切断を避けるため、質問の詳細なカタログでガイドされている。
論文 参考訳(メタデータ) (2022-01-19T17:04:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。