論文の概要: Analyzing the impact of climate change on critical infrastructure from
the scientific literature: A weakly supervised NLP approach
- arxiv url: http://arxiv.org/abs/2302.01887v2
- Date: Mon, 6 Feb 2023 02:36:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 12:40:04.412239
- Title: Analyzing the impact of climate change on critical infrastructure from
the scientific literature: A weakly supervised NLP approach
- Title(参考訳): 気候変動が重要なインフラに与える影響を科学的文献から分析する:弱い教師付きnlpアプローチ
- Authors: Tanwi Mallick, Joshua David Bergerson, Duane R. Verner, John K
Hutchison, Leslie-Anne Levy, Prasanna Balaprakash
- Abstract要約: 自然言語処理(NLP)は、大量の気候変動とインフラ関連科学文献を分析するための有望な手法である。
我々は、カテゴリと文書間の意味的類似性を利用してトピック固有のコーパスを確立する、弱い監督ベースのNLPアプローチを開発する。
対象者ラベル付けの1ヶ月のプロセスと比較して,弱監督と教師付き学習を約13時間で,コーパス全体に対してカテゴリラベルを割り当てる。
ラベル付き気候とNCFコーパスは、関心のトピック(またはトピックの組み合わせ)を議論する文書の標的的で効率的な識別を可能にし、気候変動の様々な影響が重要なインフラに与える影響を識別する。
- 参考スコア(独自算出の注目度): 0.7046417074932257
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural language processing (NLP) is a promising approach for analyzing large
volumes of climate-change and infrastructure-related scientific literature.
However, best-in-practice NLP techniques require large collections of relevant
documents (corpus). Furthermore, NLP techniques using machine learning and deep
learning techniques require labels grouping the articles based on user-defined
criteria for a significant subset of a corpus in order to train the supervised
model. Even labeling a few hundred documents with human subject-matter experts
is a time-consuming process. To expedite this process, we developed a weak
supervision-based NLP approach that leverages semantic similarity between
categories and documents to (i) establish a topic-specific corpus by subsetting
a large-scale open-access corpus and (ii) generate category labels for the
topic-specific corpus. In comparison with a months-long process of
subject-matter expert labeling, we assign category labels to the whole corpus
using weak supervision and supervised learning in about 13 hours. The labeled
climate and NCF corpus enable targeted, efficient identification of documents
discussing a topic (or combination of topics) of interest and identification of
various effects of climate change on critical infrastructure, improving the
usability of scientific literature and ultimately supporting enhanced policy
and decision making. To demonstrate this capability, we conduct topic modeling
on pairs of climate hazards and NCFs to discover trending topics at the
intersection of these categories. This method is useful for analysts and
decision-makers to quickly grasp the relevant topics and most important
documents linked to the topic.
- Abstract(参考訳): 自然言語処理(nlp)は、大量の気候変化とインフラ関連科学文献の分析に有望なアプローチである。
しかし、ベストプラクティスのNLP技術は、関連ドキュメント(コーパス)の大規模な収集を必要とする。
さらに、機械学習とディープラーニング技術を用いたNLP技術では、教師付きモデルをトレーニングするために、コーパスの重要なサブセットに対するユーザ定義基準に基づいて、ラベルをグループ化する必要がある。
数百のドキュメントに人事の専門家をラベル付けするのも時間を要する作業です。
このプロセスの迅速化を目的として,カテゴリと文書間の意味的類似性を活用する弱監督型NLPアプローチを開発した。
(i)大規模オープンアクセスコーパスを分割してトピック固有のコーパスを確立すること、及び
(ii)トピック特定コーパスのカテゴリラベルを生成する。
対象者ラベル付けの1ヶ月のプロセスと比較して,弱監督と教師付き学習を約13時間で,コーパス全体に対してカテゴリラベルを割り当てる。
このラベル付き気候とncfコーパスは、重要なインフラに対する気候変動の様々な影響の関心のトピック(またはトピックの組み合わせ)を議論する文書をターゲットとし、効率的な識別を可能にし、科学文献のユーザビリティを改善し、最終的には政策と意思決定の強化を支援する。
この能力を実証するために,気候の危険度とNCFのペアのトピックモデリングを行い,これらのカテゴリの交差点でトレンドのトピックを発見する。
この手法は、アナリストや意思決定者にとって、関連するトピックやそのトピックに関連する最も重要なドキュメントを素早く把握するのに有用である。
関連論文リスト
- Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - Interactive Topic Models with Optimal Transport [75.26555710661908]
ラベル名監視型トピックモデリングのためのアプローチとして,EdTMを提案する。
EdTMは、LM/LLMベースのドキュメントトピック親和性を活用しながら、代入問題としてのトピックモデリングをモデル化する。
論文 参考訳(メタデータ) (2024-06-28T13:57:27Z) - Empowering Interdisciplinary Research with BERT-Based Models: An Approach Through SciBERT-CNN with Topic Modeling [0.0]
本稿では,SciBERTモデルとCNNを用いて,学術論文を体系的に分類する手法を提案する。
CNNは、畳み込みとプーリングを使用して特徴抽出を強化し、次元を減少させる。
論文 参考訳(メタデータ) (2024-04-16T05:21:47Z) - Object Recognition from Scientific Document based on Compartment Refinement Framework [2.699900017799093]
膨大な資源から貴重な情報を効率的に抽出することがますます重要になっている。
科学文書の現在のデータ抽出方法は、ルールベース(RB)または機械学習(ML)アプローチを用いるのが一般的である。
我々はCTBR(Compartment & Text Blocks Refinement)と呼ばれる新しい文書レイアウト分析フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T15:36:49Z) - Incremental hierarchical text clustering methods: a review [49.32130498861987]
本研究の目的は,階層的および漸進的クラスタリング技術の解析である。
本研究の主な貢献は、文書クラスタリングのテキスト化を目的とした、2010年から2018年にかけて出版された研究で使用されるテクニックの組織化と比較である。
論文 参考訳(メタデータ) (2023-12-12T22:27:29Z) - Information Extraction from Documents: Question Answering vs Token
Classification in real-world setups [0.0]
質問応答法と古典的トークン分類法を比較して,文書鍵情報抽出を行う。
我々の研究は、クリーンで比較的短いエンティティを扱う場合、トークン分類に基づくアプローチを用いるのが最善であることを示した。
論文 参考訳(メタデータ) (2023-04-21T14:43:42Z) - Document Provenance and Authentication through Authorship Classification [5.2545206693029884]
本稿では,単一文書と複数文書の分類のためのアンサンブルベースのテキスト処理フレームワークを提案する。
提案するフレームワークには,最先端のテキスト分類アルゴリズムがいくつか組み込まれている。
フレームワークは大規模なベンチマークデータセットで評価される。
論文 参考訳(メタデータ) (2023-03-02T12:26:03Z) - TaxoCom: Topic Taxonomy Completion with Hierarchical Discovery of Novel
Topic Clusters [57.59286394188025]
我々はTaxoComというトピック分類の完成のための新しい枠組みを提案する。
TaxoComは、用語と文書の新たなサブトピッククラスタを発見する。
2つの実世界のデータセットに関する包括的実験により、TaxoComは、用語の一貫性とトピックカバレッジの観点から、高品質なトピック分類を生成するだけでなく、高品質なトピック分類を生成することを実証した。
論文 参考訳(メタデータ) (2022-01-18T07:07:38Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - Predicting Themes within Complex Unstructured Texts: A Case Study on
Safeguarding Reports [66.39150945184683]
本稿では,教師付き分類手法を用いた保護レポートにおいて,主テーマの自動識別の問題に焦点をあてる。
この結果から,ラベル付きデータに制限のある複雑なタスクであっても,深層学習モデルが対象知識の振る舞いをシミュレートする可能性が示唆された。
論文 参考訳(メタデータ) (2020-10-27T19:48:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。