論文の概要: Fully automatic extraction of morphological traits from the Web: utopia
or reality?
- arxiv url: http://arxiv.org/abs/2409.17179v1
- Date: Mon, 23 Sep 2024 17:40:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 16:40:36.794834
- Title: Fully automatic extraction of morphological traits from the Web: utopia
or reality?
- Title(参考訳): ウェブからの形態的特徴の完全自動抽出:ユートピア
それとも現実?
- Authors: Diego Marcos, Robert van de Vlasakker, Ioannis N. Athanasiadis, Pierre
Bonnet, Herv\'e Goeau, Alexis Joly, W. Daniel Kissling, C\'esar Leblanc,
Andr\'e S.J. van Proosdij, Konstantinos P. Panousis
- Abstract要約: 本研究では,植物形質に関する情報を非構造的テキスト記述形式で収集・処理する機構を提案する。
その結果, F1スコアは75%以上であった。
この結果から,LLMの情報抽出機能により,構造化された特徴データベースの大規模作成が可能であることが示唆された。
- 参考スコア(独自算出の注目度): 5.890633002734125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Plant morphological traits, their observable characteristics, are fundamental
to understand the role played by each species within their ecosystem. However,
compiling trait information for even a moderate number of species is a
demanding task that may take experts years to accomplish. At the same time,
massive amounts of information about species descriptions is available online
in the form of text, although the lack of structure makes this source of data
impossible to use at scale. To overcome this, we propose to leverage recent
advances in large language models (LLMs) and devise a mechanism for gathering
and processing information on plant traits in the form of unstructured textual
descriptions, without manual curation. We evaluate our approach by
automatically replicating three manually created species-trait matrices. Our
method managed to find values for over half of all species-trait pairs, with an
F1-score of over 75%. Our results suggest that large-scale creation of
structured trait databases from unstructured online text is currently feasible
thanks to the information extraction capabilities of LLMs, being limited by the
availability of textual descriptions covering all the traits of interest.
- Abstract(参考訳): 植物の形態的特徴、その観測可能な特徴は、生態系の中で各種が果たす役割を理解するのに不可欠である。
しかし、適度な数の種であっても特性情報をコンパイルすることは、専門家が達成するまでに何年もかかる可能性のある作業である。
同時に、種の記述に関する膨大な情報がテキスト形式でオンラインで公開されているが、構造が欠けているため、このデータソースを大規模に使用することは不可能である。
そこで本研究では,大規模言語モデル(LLM)の最近の進歩を活用し,手作業によるキュレーションを伴わずに,構造化されていないテキスト記述の形で植物形質の情報を収集し,処理する機構を考案する。
提案手法は,手作業で作成した3種類の形質行列を自動複製することによって評価する。
その結果, F1スコアは75%以上であった。
その結果、構造化されていないオンラインテキストから構造化された特徴データベースを大規模に作成することは、LLMの情報抽出能力によって現在実現可能であることが示唆された。
関連論文リスト
- CBGBench: Fill in the Blank of Protein-Molecule Complex Binding Graph [66.11279161533619]
CBGBenchは構造ベースドラッグデザイン(SBDD)のベンチマークである
既存のメソッドを属性に基づいて分類することで、CBGBenchは様々な最先端メソッドを実装している。
我々は,これらのモデルを薬物設計に不可欠なタスクに適応させてきた。
論文 参考訳(メタデータ) (2024-06-16T08:20:24Z) - Distantly Supervised Morpho-Syntactic Model for Relation Extraction [0.27195102129094995]
テキストから制約のない関係の集合を抽出し分類する手法を提案する。
ウィキデータとウィキペディア上に構築された6つのデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2024-01-18T14:17:40Z) - Unsupervised Pre-Training for 3D Leaf Instance Segmentation [34.122575664767915]
本稿では,3次元点雲上でのリーフインスタンスセグメンテーションの実行に必要なラベル付けの労力を削減する問題に対処する。
本稿では,ネットワークのバックボーンを初期化するための,自己教師型タスク固有の事前学習手法を提案する。
また,茎近傍の点を正確に区分けすることの難しさを考慮した新しい自動後処理も導入した。
論文 参考訳(メタデータ) (2024-01-16T08:11:08Z) - Structured information extraction from complex scientific text with
fine-tuned large language models [55.96705756327738]
そこで本研究では,共振器認識と関係抽出のための簡単なシーケンス・ツー・シーケンス手法を提案する。
このアプローチは、約500組のプロンプトで微調整された、事前訓練済みの大規模言語モデル(LLM)であるGPT-3を利用する。
このアプローチは、構造化されていないテキストから抽出された構造化知識の大規模なデータベースを得るための、シンプルで、アクセス可能で、非常に柔軟な経路を示す。
論文 参考訳(メタデータ) (2022-12-10T07:51:52Z) - Deep Sequence Models for Text Classification Tasks [0.007329200485567826]
自然言語処理(NLP)は、人間の多様で複雑な言語を理解するために機械を装備している。
一般的なテキスト分類アプリケーションには、情報検索、ニューストピックのモデリング、テーマ抽出、感情分析、スパム検出が含まれる。
RNN、GRU、LSTMといったシーケンスモデルは、長距離依存性を持つタスクのブレークスルーである。
その結果、ほとんどのモデルでは80%と94%の範囲で性能が向上した。
論文 参考訳(メタデータ) (2022-07-18T18:47:18Z) - Modeling Multi-Granularity Hierarchical Features for Relation Extraction [26.852869800344813]
本稿では,原文のみに基づく多粒度特徴抽出手法を提案する。
外部知識を必要とせずに,効果的な構造的特徴が達成可能であることを示す。
論文 参考訳(メタデータ) (2022-04-09T09:44:05Z) - Scaling Systematic Literature Reviews with Machine Learning Pipelines [57.82662094602138]
体系的なレビューは、科学的文書からデータを抽出する。
これらの側面をそれぞれ自動化するパイプラインを構築し、多くの人間時間対システム品質トレードオフを実験します。
人間の専門的アノテーションの2週間だけで、パイプラインシステム全体の驚くほどの精度と一般性が得られることが分かりました。
論文 参考訳(メタデータ) (2020-10-09T16:19:42Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - Recurrent Chunking Mechanisms for Long-Text Machine Reading
Comprehension [59.80926970481975]
機械読解(MRC)を長文で研究する。
モデルは長い文書と質問を入力として取り、回答として文書からテキストを抽出する。
我々は、モデルに強化学習を通じてより柔軟な方法でチャンクを学習させることを提案する。
論文 参考訳(メタデータ) (2020-05-16T18:08:58Z) - Few-Shot Learning for Opinion Summarization [117.70510762845338]
オピニオン要約は、複数の文書で表現された主観的な情報を反映したテキストの自動生成である。
本研究では,要約テキストの生成をブートストラップするのには,少数の要約でも十分であることを示す。
提案手法は, 従来の抽出法および抽象法を, 自動的, 人的評価において大きく上回っている。
論文 参考訳(メタデータ) (2020-04-30T15:37:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。