論文の概要: CoastTerm: a Corpus for Multidisciplinary Term Extraction in Coastal Scientific Literature
- arxiv url: http://arxiv.org/abs/2406.09128v1
- Date: Thu, 13 Jun 2024 14:01:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 17:44:14.887043
- Title: CoastTerm: a Corpus for Multidisciplinary Term Extraction in Coastal Scientific Literature
- Title(参考訳): 沿岸科学文献における複数学際的用語抽出コーパス
- Authors: Julien Delaunay, Hanh Thi Hong Tran, Carlos-Emiliano González-Gallardo, Georgeta Bordea, Mathilde Ducos, Nicolas Sidere, Antoine Doucet, Senja Pollak, Olivier De Viron,
- Abstract要約: 沿岸域に関する410の科学的要約から,2,491文からなる新しい専門コーパスを紹介した。
ARDIフレームワークに触発されて、単言語および多言語トランスフォーマーモデルを利用して、沿岸システムの機能におけるドメイン用語とその役割を自動的に抽出する。
評価の結果,自動用語抽出ではF1スコアが約80%,用語抽出ではF1スコアが70%,ラベル抽出ではF1スコアが得られた。
- 参考スコア(独自算出の注目度): 4.031542695037649
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The growing impact of climate change on coastal areas, particularly active but fragile regions, necessitates collaboration among diverse stakeholders and disciplines to formulate effective environmental protection policies. We introduce a novel specialized corpus comprising 2,491 sentences from 410 scientific abstracts concerning coastal areas, for the Automatic Term Extraction (ATE) and Classification (ATC) tasks. Inspired by the ARDI framework, focused on the identification of Actors, Resources, Dynamics and Interactions, we automatically extract domain terms and their distinct roles in the functioning of coastal systems by leveraging monolingual and multilingual transformer models. The evaluation demonstrates consistent results, achieving an F1 score of approximately 80\% for automated term extraction and F1 of 70\% for extracting terms and their labels. These findings are promising and signify an initial step towards the development of a specialized Knowledge Base dedicated to coastal areas.
- Abstract(参考訳): 気候変動が沿岸地域、特に活動的だが脆弱な地域に与える影響は、効果的な環境保護政策を定式化するために、多様な利害関係者と規律の協力を必要としている。
本研究では,沿岸域に関する410の科学的要約から2,491文の専門コーパスを導入し,自動用語抽出(ATE)タスクと分類(ATC)タスクについて紹介する。
アクター,資源,ダイナミクス,インタラクションの識別に焦点をあてたARDIフレームワークに着想を得て,単言語および多言語トランスフォーマーモデルを用いて,沿岸システムの機能におけるドメイン用語とその役割を自動抽出する。
評価は、自動項抽出のF1スコアが約80%、項抽出のF1スコアが70%、ラベル抽出のF1スコアが一貫した結果を示す。
これらの発見は、沿岸地域に特化した専門知識ベースの開発に向けた最初の一歩であり、有望である。
関連論文リスト
- Combining Observational Data and Language for Species Range Estimation [63.65684199946094]
我々は,数百万の市民科学種の観察とウィキペディアのテキスト記述を組み合わせた新しいアプローチを提案する。
我々のフレームワークは、場所、種、テキスト記述を共通空間にマッピングし、テキスト記述からゼロショット範囲の推定を可能にする。
また,本手法は観測データと組み合わせることで,少ないデータでより正確な距離推定を行うことができる。
論文 参考訳(メタデータ) (2024-10-14T17:22:55Z) - SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。
SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - Improving Retrieval in Theme-specific Applications using a Corpus
Topical Taxonomy [52.426623750562335]
ToTER (Topical Taxonomy Enhanced Retrieval) フレームワークを紹介する。
ToTERは、クエリとドキュメントの中心的なトピックを分類学のガイダンスで識別し、そのトピックの関連性を利用して、欠落したコンテキストを補う。
プラグイン・アンド・プレイのフレームワークとして、ToTERは様々なPLMベースのレトリバーを強化するために柔軟に使用できる。
論文 参考訳(メタデータ) (2024-03-07T02:34:54Z) - ClimateGPT: Towards AI Synthesizing Interdisciplinary Research on
Climate Change [21.827936253363603]
本稿では,気候変動に関する学際的な研究を合成するドメイン固有大規模言語モデルのモデルファミリーであるClimateGPTを紹介する。
科学指向の300Bトークンデータセットを用いて,スクラッチから2つの7Bモデルをトレーニングした。
気候GPT-7B、13B、70Bは、Llama2から4.2Bトークンのドメイン固有のデータセットで継続的に事前訓練される。
論文 参考訳(メタデータ) (2024-01-17T23:29:46Z) - Optimal Strategies to Perform Multilingual Analysis of Social Content
for a Novel Dataset in the Tourism Domain [5.848712585343905]
大規模な多言語言語モデル上で、少数ショット、パターン探索、微調整の機械学習技術を評価する。
我々は,3つの共通NLPタスクにおいて,優れた性能を実現するのに必要な注釈付きサンプルの量を確認することを目的としている。
この作業は、NLPを新しいドメイン固有のアプリケーションに適用する方法を舗装する。
論文 参考訳(メタデータ) (2023-11-20T13:08:21Z) - Land Cover Segmentation with Sparse Annotations from Sentinel-2 Imagery [0.31498833540989407]
土地被覆(LC)セグメンテーションは, 環境分析や自然災害管理など, 様々な分野で重要な役割を担っている。
本稿では,LCセグメンテーションに関わる課題に,スパースアノテーションとドメイン適応手法を用いて対処する,燃料マップ記述のためのフレームワークSPADAを紹介する。
LUCASやUrban Atlasといった信頼性の高い地上事実を用いた性能評価は、この手法の有効性を実証している。
論文 参考訳(メタデータ) (2023-06-28T14:26:57Z) - CorNav: Autonomous Agent with Self-Corrected Planning for Zero-Shot Vision-and-Language Navigation [73.78984332354636]
CorNavは視覚・言語ナビゲーションのための新しいゼロショットフレームワークである。
将来の計画の見直しや行動調整のための環境フィードバックが組み込まれている。
ゼロショットマルチタスク設定ですべてのベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-06-17T11:44:04Z) - Interactive Natural Language Processing [67.87925315773924]
対話型自然言語処理(iNLP)は,NLP分野における新しいパラダイムとして登場した。
本稿では,iNLPの概念の統一的定義と枠組みを提案することから,iNLPに関する包括的調査を行う。
論文 参考訳(メタデータ) (2023-05-22T17:18:29Z) - Topic-Centric Unsupervised Multi-Document Summarization of Scientific
and News Articles [3.0504782036247438]
本稿では,トピック中心のマルチドキュメント要約フレームワークを提案し,抽象的な要約を生成する。
提案アルゴリズムは,有能な言語単位選択とテキスト生成技術を開発することにより,抽象的な要約を生成する。
提案手法は,自動抽出評価指標を用いて評価した場合の最先端技術と一致し,人間の5つの評価指標の抽象的要約に優れる。
論文 参考訳(メタデータ) (2020-11-03T04:04:21Z) - Text Recognition in Real Scenarios with a Few Labeled Samples [55.07859517380136]
Scene Text Recognition (STR) はコンピュータビジョン分野におけるホットな研究テーマである。
本稿では,数ショットの逆数列領域適応 (FASDA) を用いて構築シーケンスを適応する手法を提案する。
我々のアプローチは、ソースドメインとターゲットドメインの間の文字レベルの混乱を最大化することができる。
論文 参考訳(メタデータ) (2020-06-22T13:03:01Z) - A Scientific Information Extraction Dataset for Nature Inspired
Engineering [12.819150283584328]
本稿では,科学生物学テキストにおける中心概念間のドメインに依存しない関係を表現する,1500の手書き注釈文のデータセットについて述べる。
これらの関係の議論はマルチワード表現であり、非射影グラフを形成するためにフレーズを変更することで注釈付けされている。
このデータセットは、科学的生物学的文書の粗いタイピングを目的とした関係抽出アルゴリズムのトレーニングと評価を可能にする。
論文 参考訳(メタデータ) (2020-05-15T19:25:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。