論文の概要: ClimateBert: A Pretrained Language Model for Climate-Related Text
- arxiv url: http://arxiv.org/abs/2110.12010v1
- Date: Fri, 22 Oct 2021 18:47:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-01 03:26:17.727056
- Title: ClimateBert: A Pretrained Language Model for Climate-Related Text
- Title(参考訳): ClimateBert: 気候関連テキストのための事前訓練された言語モデル
- Authors: Nicolas Webersinke, Mathias Kraus, Julia Anna Bingler, Markus Leippold
- Abstract要約: 大規模事前学習型言語モデル(LM)は自然言語処理(NLP)の分野に革命をもたらした。
我々は、気候関連テキストの160万節以上でさらに事前訓練されたトランスフォーマーベースの言語モデルであるClimateBertを提案する。
気候ベルトルアドは、マスク付き言語モデルの目標に対して46%の改善を達成し、様々な気候関連下流タスクにおいて、エラー率を3.57%から35.71%に下げる結果となった。
- 参考スコア(独自算出の注目度): 6.9637233646722985
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Over the recent years, large pretrained language models (LM) have
revolutionized the field of natural language processing (NLP). However, while
pretraining on general language has been shown to work very well for common
language, it has been observed that niche language poses problems. In
particular, climate-related texts include specific language that common LMs can
not represent accurately. We argue that this shortcoming of today's LMs limits
the applicability of modern NLP to the broad field of text processing of
climate-related texts. As a remedy, we propose ClimateBert, a transformer-based
language model that is further pretrained on over 1.6 million paragraphs of
climate-related texts, crawled from various sources such as common news,
research articles, and climate reporting of companies. We find that
ClimateBertleads to a 46% improvement on a masked language model objective
which, in turn, leads to lowering error rates by 3.57% to 35.71% for various
climate-related downstream tasks like text classification, sentiment analysis,
and fact-checking.
- Abstract(参考訳): 近年,大規模な事前学習型言語モデル (LM) が自然言語処理 (NLP) の分野に革命をもたらした。
しかしながら、一般言語での事前学習は共通言語に非常に適していることが示されているが、ニッチ言語が問題を引き起こすことが観察されている。
特に、気候に関するテキストには、共通するLMが正確に表現できない特定の言語が含まれている。
我々は、今日のLMのこの欠点は、気候関連テキストの幅広いテキスト処理分野への現代のNLPの適用性を制限していると論じる。
そこで,我々は,共通ニュースや研究記事,企業の気候報告などさまざまな情報源から収集された,160万段落以上の気候関連テキストに基づいて,さらに事前学習されたトランスフォーマティブ言語モデルであるclimatebertを提案する。
我々は、ClimateBertleadsが、テキスト分類、感情分析、ファクトチェックといった様々な気候関連下流タスクにおいて、マスク付き言語モデルの目標に対して46%の改善を達成し、エラー率を3.57%から35.71%に下げることを発見した。
関連論文リスト
- Since the Scientific Literature Is Multilingual, Our Models Should Be Too [8.039428445336364]
文献の大部分は多言語であり、現在のモデルとベンチマークはこの言語多様性を反映すべきである、と論じている。
テキストベースのモデルでは、非英語の論文に意味のある表現を作れず、多言語ドメインで非差別的に英語のみのモデルを使用することによるネガティブなユーザ面の影響を強調できる証拠を提供する。
論文 参考訳(メタデータ) (2024-03-27T04:47:10Z) - ClimateGPT: Towards AI Synthesizing Interdisciplinary Research on
Climate Change [21.827936253363603]
本稿では,気候変動に関する学際的な研究を合成するドメイン固有大規模言語モデルのモデルファミリーであるClimateGPTを紹介する。
科学指向の300Bトークンデータセットを用いて,スクラッチから2つの7Bモデルをトレーニングした。
気候GPT-7B、13B、70Bは、Llama2から4.2Bトークンのドメイン固有のデータセットで継続的に事前訓練される。
論文 参考訳(メタデータ) (2024-01-17T23:29:46Z) - Arabic Mini-ClimateGPT : A Climate Change and Sustainability Tailored
Arabic LLM [77.17254959695218]
ChatGPTやBardのような大規模言語モデル(LLM)は、優れた会話能力を示し、幅広いNLPタスクに優れています。
我々は,オープンソースのLLM上に構築され,アラビア語データセットClima500-Instructの対話型命令チューニングに特化して微調整された軽量のアラビア語ミニクリメートGPTを提案する。
本モデルは,ChatGPTによる評価において,88.3%の症例において,ベースラインLLMを上回った。
論文 参考訳(メタデータ) (2023-12-14T22:04:07Z) - Cross-Lingual Knowledge Editing in Large Language Models [73.12622532088564]
知識編集は、スクラッチから再学習することなく、大きな言語モデルを新しい知識に適応させることが示されている。
ソース言語編集が別のターゲット言語に与える影響は、いまだ不明である。
まず、ZsREを英語から中国語に翻訳することで、大規模な言語間合成データセットを収集する。
論文 参考訳(メタデータ) (2023-09-16T11:07:52Z) - Enhancing Large Language Models with Climate Resources [5.2677629053588895]
大規模言語モデル(LLM)は、人間のようなテキストを生成する能力を示すことによって、人工知能のランドスケープを変革した。
しかし、彼らはしばしば不正確な言語を使うが、それは気候変動など、正確性が重要である領域では有害である。
本研究では,複数のソースにアクセスするエージェントとしてLLMの可能性を活かすために,近年のアイデアを活用している。
本研究では,ClimateWatchから放射データを取得するプロトタイプエージェントを用いて,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-03-31T20:24:14Z) - Language Model Behavior: A Comprehensive Survey [5.663056267168211]
本稿では,タスク固有の微調整前における英語モデル行動に関する最近の250以上の研究について論じる。
モデルが数十億のパラメータにスケールするにつれて、生成テキストの品質は劇的に向上するが、モデルはまだ、非現実的な応答、常識的エラー、暗記されたテキスト、社会的偏見の傾向にある。
論文 参考訳(メタデータ) (2023-03-20T23:54:26Z) - Language Contamination Explains the Cross-lingual Capabilities of
English Pretrained Models [79.38278330678965]
一般的な英語事前学習コーパスには、かなりの量の非英語テキストが含まれていることが判明した。
これにより、大規模なデータセットで数十億の外国語トークンが生成される。
そして、これらの少数の非英語データでさえ、それらに基づいて訓練されたモデルの言語間移動を促進することを実証する。
論文 参考訳(メタデータ) (2022-04-17T23:56:54Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - AmericasNLI: Evaluating Zero-shot Natural Language Understanding of
Pretrained Multilingual Models in Truly Low-resource Languages [75.08199398141744]
我々は、XNLI(Conneau et al)の拡張である AmericasNLI を提示する。
は、アメリカ大陸の10の原住民の言語である。
XLM-Rで実験を行い、複数のゼロショットおよび翻訳ベースのアプローチをテストします。
XLM-Rのゼロショット性能は全10言語で低調であり、平均性能は38.62%である。
論文 参考訳(メタデータ) (2021-04-18T05:32:28Z) - Analyzing Sustainability Reports Using Natural Language Processing [68.8204255655161]
近年、企業は環境への影響を緩和し、気候変動の状況に適応することを目指している。
これは、環境・社会・ガバナンス(ESG)の傘下にある様々な種類の気候リスクと暴露を網羅する、ますます徹底した報告を通じて報告されている。
本稿では,本稿で開発したツールと方法論について紹介する。
論文 参考訳(メタデータ) (2020-11-03T21:22:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。