論文の概要: Multimodal large language model for wheat breeding: a new exploration of smart breeding
- arxiv url: http://arxiv.org/abs/2411.15203v1
- Date: Wed, 20 Nov 2024 04:47:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:24:50.154231
- Title: Multimodal large language model for wheat breeding: a new exploration of smart breeding
- Title(参考訳): コムギ育種のための多モーダル大言語モデル : スマート育種の新しい探索
- Authors: Guofeng Yang, Yu Li, Yong He, Zhenjiang Zhou, Lingzhen Ye, Hui Fang, Yiqi Luo, Xuping Feng,
- Abstract要約: 繁殖の多分野的な性質は、知識採掘に技術的障壁と効率性の課題をもたらした。
本研究では、教師付き微調整(SFT)、検索強化生成(RAG)、人間フィードバック(RLHF)技術による強化学習を用いて、クロスドメイン知識をMLLMに注入した。
WBLMは、表現型推定、環境ストレスアセスメント、ターゲット胚細胞スクリーニング、栽培技術推奨、種価照会タスクのための専門的な意思決定支援回答を生成することができる。
- 参考スコア(独自算出の注目度): 13.849056190321189
- License:
- Abstract: UAV remote sensing technology has become a key technology in crop breeding, which can achieve high-throughput and non-destructive collection of crop phenotyping data. However, the multidisciplinary nature of breeding has brought technical barriers and efficiency challenges to knowledge mining. Therefore, it is important to develop a smart breeding goal tool to mine cross-domain multimodal data. Based on different pre-trained open-source multimodal large language models (MLLMs) (e.g., Qwen-VL, InternVL, Deepseek-VL), this study used supervised fine-tuning (SFT), retrieval-augmented generation (RAG), and reinforcement learning from human feedback (RLHF) technologies to inject cross-domain knowledge into MLLMs, thereby constructing multiple multimodal large language models for wheat breeding (WBLMs). The above WBLMs were evaluated using the newly created evaluation benchmark in this study. The results showed that the WBLM constructed using SFT, RAG and RLHF technologies and InternVL2-8B has leading performance. Then, subsequent experiments were conducted using the WBLM. Ablation experiments indicated that the combination of SFT, RAG, and RLHF technologies can improve the overall generation performance, enhance the generated quality, balance the timeliness and adaptability of the generated answer, and reduce hallucinations and biases. The WBLM performed best in wheat yield prediction using cross-domain data (remote sensing, phenotyping, weather, germplasm) simultaneously, with R2 and RMSE of 0.821 and 489.254 kg/ha, respectively. Furthermore, the WBLM can generate professional decision support answers for phenotyping estimation, environmental stress assessment, target germplasm screening, cultivation technique recommendation, and seed price query tasks.
- Abstract(参考訳): UAVリモートセンシング技術は、作物の育種において重要な技術となり、作物の表現型データの高スループットかつ非破壊的な収集を実現することができる。
しかし、育種の多分野的な性質は、知識採掘に技術的障壁と効率性の課題をもたらしている。
したがって、クロスドメインマルチモーダルデータをマイニングするためのスマート育種目標ツールを開発することが重要である。
本研究は, MLLMにクロスドメイン知識を注入するために, 教師付き微調整(SFT), 検索拡張生成(RAG), ヒューマンフィードバック(RLHF)技術からの強化学習(RLHF)を用いて, コムギ育種のためのマルチモーダル大規模言語モデルを構築した。
以上のWBLMを新たに作成した評価ベンチマークを用いて評価した。
その結果, WBLMはSFT, RAG, RLHF技術を用いて構築され, InternVL2-8Bは高い性能を示した。
その後、WBLMを用いて実験を行った。
アブレーション実験により, SFT, RAG, RLHF技術の組み合わせは, 全体の生成性能の向上, 生成品質の向上, 生成した回答のタイムラインのバランスと適応性の向上, 幻覚と偏見の低減を図った。
WBLMは,R2とRMSEをそれぞれ0.821,RMSEを489.254kg/ha,クロスドメインデータ(リモートセンシング,表現型,気象,胚小胞体)を用いてコムギ収量予測を行った。
さらに、WBLMは、表現型推定、環境ストレスアセスメント、ターゲット胚細胞スクリーニング、栽培技術推奨、種価照会タスクのための専門的な意思決定支援回答を生成することができる。
関連論文リスト
- Clear Minds Think Alike: What Makes LLM Fine-tuning Robust? A Study of Token Perplexity [61.48338027901318]
LLM生成データによる微調整により,目標タスク性能が向上し,ドメイン外劣化の低減が図られる。
LLM生成トレーニングデータによって与えられる優れたOODロバスト性について、これが最初の力学的説明である。
論文 参考訳(メタデータ) (2025-01-24T08:18:56Z) - Combining Domain-Specific Models and LLMs for Automated Disease Phenotyping from Survey Data [0.0]
本研究では,ドメイン固有モデルであるBERN2と大規模言語モデル(LLM)を組み合わせることにより,調査データから自動表現性を高める可能性について検討した。
我々は ORIGINS 調査データから,エンティティ認識と正規化モデルであるBERN2 を用いて情報抽出を行った。
BERN2は疾患の言及を抽出・正規化する上で高い性能を示し、特にFew Shot InferenceとRAGオーケストレーションとのLLMの統合により精度が向上した。
論文 参考訳(メタデータ) (2024-10-28T02:55:03Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - THaMES: An End-to-End Tool for Hallucination Mitigation and Evaluation in Large Language Models [0.0]
事実的に誤ったコンテンツの生成である幻覚は、大規模言語モデルにおいてますます困難になっている。
本稿では,このギャップに対処する統合フレームワークとライブラリであるTHaMESを紹介する。
THaMES は LLM における幻覚の評価と緩和のためのエンドツーエンドのソリューションを提供する。
論文 参考訳(メタデータ) (2024-09-17T16:55:25Z) - A Framework for Fine-Tuning LLMs using Heterogeneous Feedback [69.51729152929413]
ヘテロジニアスフィードバックを用いた大規模言語モデル(LLM)の微調整フレームワークを提案する。
まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。
次に、この統合されたフィードバックデータセットから、性能向上を得るために高品質で多様なサブセットを抽出する。
論文 参考訳(メタデータ) (2024-08-05T23:20:32Z) - LSTM Autoencoder-based Deep Neural Networks for Barley Genotype-to-Phenotype Prediction [16.99449054451577]
そこで本研究では,オオムギの開花時期と収量推定のために,オオムギの遺伝子型からフェノタイプへの予測のためのLSTMオートエンコーダを用いた新しいモデルを提案する。
我々のモデルは、複雑な高次元農業データセットを扱う可能性を示す他のベースライン手法よりも優れていた。
論文 参考訳(メタデータ) (2024-07-21T16:07:43Z) - Geneverse: A collection of Open-source Multimodal Large Language Models for Genomic and Proteomic Research [20.285114234576298]
大規模言語モデル(LLM)は、生物医学と医療の研究に期待されている。
本稿では,ゲノム学およびプロテオミクス研究における3つの新しい課題に対して,微調整LDMとマルチモーダルLSM(MLLM)のコレクションを提案する。
Geneverseのモデルは、ドメイン固有のデータセットに基づいてトレーニングされ、評価される。
適応LLMとMLLMはこれらのタスクに対して良好に動作し、クローズドソースの大規模モデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-06-21T14:19:10Z) - MLXP: A Framework for Conducting Replicable Experiments in Python [63.37350735954699]
MLXPはPythonをベースとした,オープンソースの,シンプルで,軽量な実験管理ツールである。
実験プロセスを最小限のオーバーヘッドで合理化し、高いレベルの実践的オーバーヘッドを確保します。
論文 参考訳(メタデータ) (2024-02-21T14:22:20Z) - AI enhanced data assimilation and uncertainty quantification applied to
Geological Carbon Storage [0.0]
本稿では,Surrogate-based hybrid ESMDA (SH-ESMDA)を導入し,Surrogate-based hybrid ESMDA (SH-ESMDA)について述べる。
また,SurrogateをベースとしたHybrid RML(SH-RML)も導入する。
以上の結果より,SH-RMLは従来のESMDAと比較して不確実性が高いことが示唆された。
論文 参考訳(メタデータ) (2024-02-09T00:24:46Z) - Evaluation of the potential of Near Infrared Hyperspectral Imaging for
monitoring the invasive brown marmorated stink bug [53.682955739083056]
BMSB(Halyomorpha halys)は、数種の作物を害する世界的重要性の害虫である。
本研究は、BMSB検体を検出する技術として、NIR-HSI(Near Infrared Hyperspectral Imaging)を実験室レベルで予備評価する。
論文 参考訳(メタデータ) (2023-01-19T11:37:20Z) - Pre-trained Language Models for Keyphrase Generation: A Thorough
Empirical Study [76.52997424694767]
事前学習言語モデルを用いて,キーフレーズ抽出とキーフレーズ生成の詳細な実験を行った。
PLMは、競争力のある高リソース性能と最先端の低リソース性能を持つことを示す。
さらに,領域内のBERTライクなPLMを用いて,強大かつデータ効率のよいキーフレーズ生成モデルを構築できることが示唆された。
論文 参考訳(メタデータ) (2022-12-20T13:20:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。