論文の概要: PlantBert: An Open Source Language Model for Plant Science
- arxiv url: http://arxiv.org/abs/2506.08897v2
- Date: Fri, 20 Jun 2025 16:27:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 14:57:52.284482
- Title: PlantBert: An Open Source Language Model for Plant Science
- Title(参考訳): PlantBert: 植物科学のためのオープンソースの言語モデル
- Authors: Hiba Khey, Amine Lakhder, Salma Rouichi, Imane El Ghabi, Kamal Hejjaoui, Younes En-nahli, Fahd Kalloubi, Moez Amri,
- Abstract要約: 植物ストレス応答型文献から構造化知識を抽出する,高性能でオープンソースな言語モデルであるPlantBertを提案する。
本手法は,トランスフォーマーに基づくモデリングと規則強化された言語後処理とオントロジーに基づく実体正規化を組み合わせた手法である。
計算プラント科学における透明性の促進と学際的イノベーションの促進を目的として,本モデルが公開された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of transformer-based language models has catalyzed breakthroughs in biomedical and clinical natural language processing; however, plant science remains markedly underserved by such domain-adapted tools. In this work, we present PlantBert, a high-performance, open-source language model specifically tailored for extracting structured knowledge from plant stress-response literature. Built upon the DeBERTa architecture-known for its disentangled attention and robust contextual encoding-PlantBert is fine-tuned on a meticulously curated corpus of expert-annotated abstracts, with a primary focus on lentil (Lens culinaris) responses to diverse abiotic and biotic stressors. Our methodology combines transformer-based modeling with rule-enhanced linguistic post-processing and ontology-grounded entity normalization, enabling PlantBert to capture biologically meaningful relationships with precision and semantic fidelity. The underlying corpus is annotated using a hierarchical schema aligned with the Crop Ontology, encompassing molecular, physiological, biochemical, and agronomic dimensions of plant adaptation. PlantBert exhibits strong generalization capabilities across entity types and demonstrates the feasibility of robust domain adaptation in low-resource scientific fields. By providing a scalable and reproducible framework for high-resolution entity recognition, PlantBert bridges a critical gap in agricultural NLP and paves the way for intelligent, data-driven systems in plant genomics, phenomics, and agronomic knowledge discovery. Our model is publicly released to promote transparency and accelerate cross-disciplinary innovation in computational plant science.
- Abstract(参考訳): トランスフォーマーに基づく言語モデルの急速な進歩は、バイオメディカルおよび臨床自然言語処理のブレークスルーを助長した。
本研究では,植物ストレス応答型文献から構造化知識を抽出するための,高性能でオープンソースな言語モデルであるPlantBertを提案する。
DeBERTaアーキテクチャ上に構築されたPlantBertは、多種多様な抗生物質および生物ストレスに対するレンズ(Lens culinaris)応答を主眼に、厳密にキュレートされた専門家注釈の抽象体のコーパスに基づいて微調整されている。
提案手法はトランスフォーマーに基づくモデリングと規則強化された言語後処理とオントロジーに基づく実体正規化を組み合わせることで,PlantBertは生物学的に有意な関係を精度と意味的忠実性で捉えることができる。
基礎となるコーパスは、植物適応の分子、生理学的、生化学的、農業的次元を含む、クロップオントロジーに整列した階層的スキーマを用いて注釈付けされる。
PlantBertはエンティティタイプにまたがる強力な一般化能力を示し、低リソースの科学分野における堅牢なドメイン適応の可能性を示している。
高解像度の実体認識のためのスケーラブルで再現可能なフレームワークを提供することで、PlantBertは農業のNLPにおいて重要なギャップを埋め、植物ゲノム学、フェノミクス、農業知識発見におけるインテリジェントでデータ駆動システムへの道を開く。
計算プラント科学における透明性の促進と学際的イノベーションの促進を目的として,本モデルが公開された。
関連論文リスト
- Bridging the Plausibility-Validity Gap by Fine-Tuning a Reasoning-Enhanced LLM for Chemical Synthesis and Discovery [0.0]
大規模言語モデルはしばしば科学的に妥当だが、実際は無効な情報を生成する。
本稿では, このギャップを埋める手法として, 専門的な科学アシスタントを開発する。
論文 参考訳(メタデータ) (2025-07-09T23:05:23Z) - Biological Sequence with Language Model Prompting: A Survey [14.270959261105968]
大きな言語モデル(LLM)は、さまざまなドメインにまたがる課題に対処するための強力なツールとして登場した。
本稿では, LLMを用いたプロンプトベース手法の生物学的配列への応用を系統的に検討する。
論文 参考訳(メタデータ) (2025-03-06T06:28:36Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - BioMNER: A Dataset for Biomedical Method Entity Recognition [25.403593761614424]
本稿では,生物医学的手法による実体認識のための新しいデータセットを提案する。
我々は、人間のアノテーションを支援するために、自動的なBioMethodエンティティ認識と情報検索システムを採用している。
実験の結果,言語モデルのパラメータ数が大きくなると,実体抽出パターンの有効同化が著しく阻害されることが判明した。
論文 参考訳(メタデータ) (2024-06-28T16:34:24Z) - Synthesizing Proteins on the Graphics Card. Protein Folding and the Limits of Critical AI Studies [0.8192907805418581]
本稿では,タンパク質の折り畳みにおけるトランスアーキテクチャの適用について検討する。
インテリジェントマシンの検索は、インテリジェンスの場所ではなく、形から始めなければならない、と私たちは主張する。
論文 参考訳(メタデータ) (2024-05-16T03:24:05Z) - Leveraging Biomolecule and Natural Language through Multi-Modal
Learning: A Survey [75.47055414002571]
生物分子モデリングと自然言語(BL)の統合は、人工知能、化学、生物学の交差点において有望な学際領域として現れてきた。
生体分子と自然言語の相互モデリングによって達成された最近の進歩について分析する。
論文 参考訳(メタデータ) (2024-03-03T14:59:47Z) - BonnBeetClouds3D: A Dataset Towards Point Cloud-based Organ-level
Phenotyping of Sugar Beet Plants under Field Conditions [30.27773980916216]
農業生産は今後数十年間、気候変動と持続可能性の必要性によって深刻な課題に直面している。
自律無人航空機(UAV)による作物のモニタリングと、ロボットによる非化学雑草によるフィールド管理の進歩は、これらの課題に対処するのに有用である。
表現型化と呼ばれる植物形質の分析は、植物の育種に不可欠な活動であるが、大量の手作業が伴う。
論文 参考訳(メタデータ) (2023-12-22T14:06:44Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - High-throughput Biomedical Relation Extraction for Semi-Structured Web Articles Empowered by Large Language Models [1.9665865095034865]
関係抽出タスクを大言語モデルのバイナリ分類として定式化する。
メインタイトルをテールエンティティとして指定し、コンテキストに明示的に組み込む。
長い内容はテキストチャンクにスライスされ、埋め込みされ、追加の埋め込みモデルで検索される。
論文 参考訳(メタデータ) (2023-12-13T16:43:41Z) - Improving Biomedical Abstractive Summarisation with Knowledge
Aggregation from Citation Papers [24.481854035628434]
既存の言語モデルは、バイオメディカルの専門家が生み出したものと同等の技術的要約を生成するのに苦労している。
本稿では,引用論文からドメイン固有の知識を統合する,新たな注目に基づく引用集約モデルを提案する。
我々のモデルは最先端のアプローチより優れており、抽象的なバイオメディカルテキスト要約の大幅な改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T09:56:46Z) - Semantic Image Segmentation with Deep Learning for Vine Leaf Phenotyping [59.0626764544669]
本研究では,ブドウの葉のイメージを意味的にセグメント化するためにDeep Learning法を用いて,葉の表現型自動検出システムを開発した。
私たちの研究は、成長や開発のような動的な特性を捉え定量化できる植物ライフサイクルのモニタリングに寄与します。
論文 参考訳(メタデータ) (2022-10-24T14:37:09Z) - Sparse*BERT: Sparse Models Generalize To New tasks and Domains [79.42527716035879]
本稿では, 階層的非構造的マグニチュード・プルーニング(Gradual Unstructured Magnitude Pruning)を用いて, ドメイン間およびタスク間を移動可能なモデルについて検討する。
Sparse*BERTは、非構造化バイオメディカルテキスト上で圧縮されたアーキテクチャを事前学習することで、SparseBioBERTとなることを示す。
論文 参考訳(メタデータ) (2022-05-25T02:51:12Z) - Fine-Tuning Large Neural Language Models for Biomedical Natural Language
Processing [55.52858954615655]
バイオメディカルNLPの微調整安定性に関する系統的研究を行った。
我々は、特に低リソース領域において、微調整性能は事前トレーニング設定に敏感であることを示した。
これらの技術は低リソースバイオメディカルNLPアプリケーションの微調整性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:20:35Z) - Multimodal Graph-based Transformer Framework for Biomedical Relation
Extraction [21.858440542249934]
本稿では,分子構造などの付加的なマルチモーダルキューの助けを借りて,モデルが実体(タンパク質)に関する多言語生物学的情報を学習することを可能にする新しい枠組みを提案する。
バイオメディカルコーパスを用いたタンパク質プロテイン相互作用タスクの評価を行った。
論文 参考訳(メタデータ) (2021-07-01T16:37:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。