Fugu-MT 論文翻訳(概要): Investigation of Topic Modelling Methods for Understanding the Reports of the Mining Projects in Queensland

論文の概要: Investigation of Topic Modelling Methods for Understanding the Reports of the Mining Projects in Queensland

arxiv url: http://arxiv.org/abs/2111.03576v1
Date: Fri, 5 Nov 2021 15:52:03 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-08 16:36:49.648228
Title: Investigation of Topic Modelling Methods for Understanding the Reports of the Mining Projects in Queensland
Title（参考訳）: クイーンズランドにおける鉱業計画報告の理解のためのトピックモデリング手法の検討
Authors: Yasuko Okamoto, Thirunavukarasu Balasubramaniam, Richi Nayak
Abstract要約: 鉱業では、プロジェクト管理プロセスにおいて多くの報告が生成される。ドキュメントクラスタリングは、この問題に対処するための強力なアプローチです。 The three method, Latent Dirichlet Allocation (LDA), Non negative Matrix Factorization (NMF), Non negative Factorization (NTF) were compared。
参考スコア（独自算出の注目度）: 2.610470075814367
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In the mining industry, many reports are generated in the project management process. These past documents are a great resource of knowledge for future success. However, it would be a tedious and challenging task to retrieve the necessary information if the documents are unorganized and unstructured. Document clustering is a powerful approach to cope with the problem, and many methods have been introduced in past studies. Nonetheless, there is no silver bullet that can perform the best for any types of documents. Thus, exploratory studies are required to apply the clustering methods for new datasets. In this study, we will investigate multiple topic modelling (TM) methods. The objectives are finding the appropriate approach for the mining project reports using the dataset of the Geological Survey of Queensland, Department of Resources, Queensland Government, and understanding the contents to get the idea of how to organise them. Three TM methods, Latent Dirichlet Allocation (LDA), Nonnegative Matrix Factorization (NMF), and Nonnegative Tensor Factorization (NTF) are compared statistically and qualitatively. After the evaluation, we conclude that the LDA performs the best for the dataset; however, the possibility remains that the other methods could be adopted with some improvements.
Abstract（参考訳）: 鉱業では、プロジェクト管理プロセスにおいて多くの報告が生成される。これらの過去の文書は、将来の成功のための優れた知識資源である。しかし、文書が整理されず、構造化されていない場合、必要な情報を回収するのは面倒で難しい作業である。文書クラスタリングはこの問題に対処するための強力なアプローチであり、多くの手法が過去の研究に導入されている。それにもかかわらず、あらゆる種類の文書に対して最善を尽くす銀の弾丸は存在しない。したがって、新しいデータセットにクラスタリング手法を適用するためには探索的研究が必要である。本研究では,複数トピックモデリング(TM)手法について検討する。目的は、クイーンズランド州地質調査所(英語版)、クイーンズランド州資源省(英語版)のデータセットを用いて、鉱業プロジェクトレポートの適切なアプローチを見つけ、それらを整理する方法のアイデアを得るための内容を理解することである。 3つのTM法,潜在ディリクレ割当(LDA),非負行列因子化(NMF),非負テンソル因子化(NTF)を統計的,質的に比較した。評価後、ldaはデータセットに対して最善を尽くしていると結論づけるが、いくつかの改善で他の方法が採用される可能性は残る。

関連論文リスト

Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs [66.63911043019294]
データ準備は、生のデータセットを識別し、データセット間の関係を解明し、それらから貴重な洞察を抽出することを目的としている。本稿では,様々な下流タスクのためのデータ準備にLLM技術を用いることに焦点を当てる。データクリーニング、標準化、エラー処理、計算、データ統合、データ豊か化という3つの主要なタスクにフィールドを編成するタスク中心の分類を導入します。
論文参考訳（メタデータ） (2026-01-22T12:02:45Z)
Missing Data in Signal Processing and Machine Learning: Models, Methods and Modern Approaches [49.431846265898486]
このチュートリアルの目的は、信号処理(SP)と機械学習(ML)の実践者に、その質問に答えるための重要なツールを提供することだ。
論文参考訳（メタデータ） (2025-06-02T13:58:36Z)
SnipGen: A Mining Repository Framework for Evaluating LLMs for Code [51.07471575337676]
言語モデル(LLM)は、コードリポジトリを含む広範なデータセットに基づいてトレーニングされる。それらの有効性を評価することは、トレーニングに使用されるデータセットと評価に使用されるデータセットとが重複する可能性があるため、大きな課題となる。 SnipGenは、コード生成のために、様々な下流タスクをまたいだ迅速なエンジニアリングを活用するように設計された包括的なリポジトリマイニングフレームワークである。
論文参考訳（メタデータ） (2025-02-10T21:28:15Z)
A Survey of Small Language Models [104.80308007044634]
小言語モデル (SLM) は, 計算資源の最小化による言語タスクの効率化と性能の向上により, ますます重要になってきている。本稿では,SLMのアーキテクチャ,トレーニング技術,モデル圧縮技術に着目した総合的な調査を行う。
論文参考訳（メタデータ） (2024-10-25T23:52:28Z)
Enhancing literature review with LLM and NLP methods. Algorithmic trading case [0.0]
本研究では,機械学習アルゴリズムを用いて,アルゴリズム取引分野の知識を分析し,整理する。 1956年から2020年の第1四半期にかけて、1億3600万件の研究論文のデータセットをフィルタリングして14,342件の関連記事を特定した。
論文参考訳（メタデータ） (2024-10-23T13:37:27Z)
Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文参考訳（メタデータ） (2024-10-02T20:48:28Z)
Out-of-Distribution Detection with Attention Head Masking for Multimodal Document Classification [3.141006099594433]
本稿では,文書分類システムにおける多モードOODタスクに対するアテンションヘッドマスキング(AHM)と呼ばれる新しい手法を提案する。実験により,提案手法がすべての最先端手法より優れていることを示す。高品質な公開可能なドキュメントデータセットの不足に対処するために、新しいドキュメントAIデータセットであるFunderDocsを紹介します。
論文参考訳（メタデータ） (2024-08-20T23:30:00Z)
Multi-News+: Cost-efficient Dataset Cleansing via LLM-based Data Annotation [9.497148303350697]
本稿では,LCMに基づくデータアノテーションの適用を拡大し,既存のデータセットの品質を向上させるケーススタディを提案する。具体的には、連鎖や多数決のようなアプローチを利用して、人間のアノテーションを模倣し、Multi-Newsデータセットから無関係な文書を分類する。
論文参考訳（メタデータ） (2024-04-15T11:36:10Z)
A Survey on Data Selection for Language Models [148.300726396877]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文参考訳（メタデータ） (2024-02-26T18:54:35Z)
Capture the Flag: Uncovering Data Insights with Large Language Models [90.47038584812925]
本研究では,Large Language Models (LLMs) を用いてデータの洞察の発見を自動化する可能性について検討する。そこで本稿では,データセット内の意味的かつ関連する情報(フラグ)を識別する能力を測定するために,フラグを捕捉する原理に基づく新しい評価手法を提案する。
論文参考訳（メタデータ） (2023-12-21T14:20:06Z)
Application of Transformers based methods in Electronic Medical Records: A Systematic Literature Review [77.34726150561087]
本研究は,異なるNLPタスクにおける電子カルテ(EMR)のトランスフォーマーに基づく手法を用いて,最先端技術に関する体系的な文献レビューを行う。
論文参考訳（メタデータ） (2023-04-05T22:19:42Z)
Recent Few-Shot Object Detection Algorithms: A Survey with Performance Comparison [54.357707168883024]
Few-Shot Object Detection (FSOD)は、人間の学習能力を模倣する。 FSODは、学習した汎用オブジェクトの知識を共通のヘビーテールから新しいロングテールオブジェクトクラスにインテリジェントに転送する。本稿では,問題定義,共通データセット,評価プロトコルなどを含むFSODの概要を紹介する。
論文参考訳（メタデータ） (2022-03-27T04:11:28Z)
Data-to-Value: An Evaluation-First Methodology for Natural Language Projects [3.9378507882929554]
Data to Value"(D2V)は、ビッグデータテキスト分析プロジェクトのための新しい方法論である。ビッグデータテキスト分析プロジェクトチームとトピック間の切断を避けるため、質問の詳細なカタログでガイドされている。
論文参考訳（メタデータ） (2022-01-19T17:04:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。