論文の概要: PlantBert: An Open Source Language Model for Plant Science
- arxiv url: http://arxiv.org/abs/2506.08897v1
- Date: Tue, 10 Jun 2025 15:24:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.672893
- Title: PlantBert: An Open Source Language Model for Plant Science
- Title(参考訳): PlantBert: 植物科学のためのオープンソースの言語モデル
- Authors: Hiba Khey, Amine Lakhder, Salma Rouichi, Imane El Ghabi, Kamal Hejjaoui, Younes En-nahli, Fahd Kalloubi, Moez Amri,
- Abstract要約: 植物ストレス応答型文献から構造化知識を抽出する,高性能でオープンソースな言語モデルであるPlantBertを提案する。
本手法は,トランスフォーマーに基づくモデリングと規則強化された言語後処理とオントロジーに基づく実体正規化を組み合わせた手法である。
計算プラント科学における透明性の促進と学際的イノベーションの促進を目的として,本モデルが公開された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of transformer-based language models has catalyzed breakthroughs in biomedical and clinical natural language processing; however, plant science remains markedly underserved by such domain-adapted tools. In this work, we present PlantBert, a high-performance, open-source language model specifically tailored for extracting structured knowledge from plant stress-response literature. Built upon the DeBERTa architecture-known for its disentangled attention and robust contextual encoding-PlantBert is fine-tuned on a meticulously curated corpus of expert-annotated abstracts, with a primary focus on lentil (Lens culinaris) responses to diverse abiotic and biotic stressors. Our methodology combines transformer-based modeling with rule-enhanced linguistic post-processing and ontology-grounded entity normalization, enabling PlantBert to capture biologically meaningful relationships with precision and semantic fidelity. The underlying corpus is annotated using a hierarchical schema aligned with the Crop Ontology, encompassing molecular, physiological, biochemical, and agronomic dimensions of plant adaptation. PlantBert exhibits strong generalization capabilities across entity types and demonstrates the feasibility of robust domain adaptation in low-resource scientific fields. By providing a scalable and reproducible framework for high-resolution entity recognition, PlantBert bridges a critical gap in agricultural NLP and paves the way for intelligent, data-driven systems in plant genomics, phenomics, and agronomic knowledge discovery. Our model is publicly released to promote transparency and accelerate cross-disciplinary innovation in computational plant science.
- Abstract(参考訳): トランスフォーマーに基づく言語モデルの急速な進歩は、バイオメディカルおよび臨床自然言語処理のブレークスルーを助長した。
本研究では,植物ストレス応答型文献から構造化知識を抽出するための,高性能でオープンソースな言語モデルであるPlantBertを提案する。
DeBERTaアーキテクチャ上に構築されたPlantBertは、多種多様な抗生物質および生物ストレスに対するレンズ(Lens culinaris)応答を主眼に、厳密にキュレートされた専門家注釈の抽象体のコーパスに基づいて微調整されている。
提案手法はトランスフォーマーに基づくモデリングと規則強化された言語後処理とオントロジーに基づく実体正規化を組み合わせることで,PlantBertは生物学的に有意な関係を精度と意味的忠実性で捉えることができる。
基礎となるコーパスは、植物適応の分子、生理学的、生化学的、農業的次元を含む、クロップオントロジーに整列した階層的スキーマを用いて注釈付けされる。
PlantBertはエンティティタイプにまたがる強力な一般化能力を示し、低リソースの科学分野における堅牢なドメイン適応の可能性を示している。
高解像度の実体認識のためのスケーラブルで再現可能なフレームワークを提供することで、PlantBertは農業のNLPにおいて重要なギャップを埋め、植物ゲノム学、フェノミクス、農業知識発見におけるインテリジェントでデータ駆動システムへの道を開く。
計算プラント科学における透明性の促進と学際的イノベーションの促進を目的として,本モデルが公開された。
関連論文リスト
- GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - Synthesizing Proteins on the Graphics Card. Protein Folding and the Limits of Critical AI Studies [0.8192907805418581]
本稿では,タンパク質の折り畳みにおけるトランスアーキテクチャの適用について検討する。
インテリジェントマシンの検索は、インテリジェンスの場所ではなく、形から始めなければならない、と私たちは主張する。
論文 参考訳(メタデータ) (2024-05-16T03:24:05Z) - Leveraging Biomolecule and Natural Language through Multi-Modal
Learning: A Survey [75.47055414002571]
生物分子モデリングと自然言語(BL)の統合は、人工知能、化学、生物学の交差点において有望な学際領域として現れてきた。
生体分子と自然言語の相互モデリングによって達成された最近の進歩について分析する。
論文 参考訳(メタデータ) (2024-03-03T14:59:47Z) - BonnBeetClouds3D: A Dataset Towards Point Cloud-based Organ-level
Phenotyping of Sugar Beet Plants under Field Conditions [30.27773980916216]
農業生産は今後数十年間、気候変動と持続可能性の必要性によって深刻な課題に直面している。
自律無人航空機(UAV)による作物のモニタリングと、ロボットによる非化学雑草によるフィールド管理の進歩は、これらの課題に対処するのに有用である。
表現型化と呼ばれる植物形質の分析は、植物の育種に不可欠な活動であるが、大量の手作業が伴う。
論文 参考訳(メタデータ) (2023-12-22T14:06:44Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - Improving Biomedical Abstractive Summarisation with Knowledge
Aggregation from Citation Papers [24.481854035628434]
既存の言語モデルは、バイオメディカルの専門家が生み出したものと同等の技術的要約を生成するのに苦労している。
本稿では,引用論文からドメイン固有の知識を統合する,新たな注目に基づく引用集約モデルを提案する。
我々のモデルは最先端のアプローチより優れており、抽象的なバイオメディカルテキスト要約の大幅な改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T09:56:46Z) - Semantic Image Segmentation with Deep Learning for Vine Leaf Phenotyping [59.0626764544669]
本研究では,ブドウの葉のイメージを意味的にセグメント化するためにDeep Learning法を用いて,葉の表現型自動検出システムを開発した。
私たちの研究は、成長や開発のような動的な特性を捉え定量化できる植物ライフサイクルのモニタリングに寄与します。
論文 参考訳(メタデータ) (2022-10-24T14:37:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。