論文の概要: BioAlchemy: Distilling Biological Literature into Reasoning-Ready Reinforcement Learning Training Data
- arxiv url: http://arxiv.org/abs/2604.03506v1
- Date: Fri, 03 Apr 2026 23:06:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.615484
- Title: BioAlchemy: Distilling Biological Literature into Reasoning-Ready Reinforcement Learning Training Data
- Title(参考訳): BioAlchemy: 生物文献を推論可能な強化学習データに蒸留する
- Authors: Brian Hsu, Ozan Gökdemir, Carlo Siebenschuh, Bruce Parrello, Neil Getty, Thomas S. Brettin, Rick L. Stevens, Ian T. Foster, Nicholas Chia, Arvind Ramanathan,
- Abstract要約: 現在の大規模推論データセットからの生物学の質問は、生物学における現代の研究トピックの分布とよく一致していないことを示す。
生物学研究のテキストから検証可能な質問と回答のペアのさまざまなセットをソーシングするためのパイプラインであるBioAlchemyを紹介した。
本稿では,現代の科学的生物学のトピック分布にデータセットを合わせることで,推論性能を向上させるための強化学習をいかに活用できるかを実証する。
- 参考スコア(独自算出の注目度): 5.668472223629237
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the large corpus of biology training text, the impact of reasoning models on biological research generally lags behind math and coding. In this work, we show that biology questions from current large-scale reasoning datasets do not align well with modern research topic distributions in biology, and that this topic imbalance may negatively affect performance. In addition, we find that methods for extracting challenging and verifiable research problems from biology research text are a critical yet underdeveloped ingredient in applying reinforcement learning for better performance on biology research tasks. We introduce BioAlchemy, a pipeline for sourcing a diverse set of verifiable question-and-answer pairs from a scientific corpus of biology research text. We curate BioAlchemy-345K, a training dataset containing over 345K scientific reasoning problems in biology. Then, we demonstrate how aligning our dataset to the topic distribution of modern scientific biology can be used with reinforcement learning to improve reasoning performance. Finally, we present BioAlchemist-8B, which improves over its base reasoning model by 9.12% on biology benchmarks. These results demonstrate the efficacy of our approach for developing stronger scientific reasoning capabilities in biology. The BioAlchemist-8B model is available at: https://huggingface.co/BioAlchemy.
- Abstract(参考訳): 生物学のトレーニングテキストの膨大なコーパスにもかかわらず、推論モデルが生物学的研究に与える影響は一般に数学やコーディングに遅れている。
本研究では,現在の大規模推論データセットからの生物学の質問は,生物学における現代の研究トピックの分布とよく一致せず,この話題の不均衡が性能に悪影響を及ぼす可能性があることを示す。
さらに, 生物学研究課題に対する強化学習の適用において, 生物学研究テキストから, 困難かつ検証可能な研究問題を抽出する方法が, 重要かつ未開発な要素であることが判明した。
生物学研究テキストの科学的コーパスから、検証可能な質問と回答のペアのさまざまなセットをソーシングするためのパイプラインであるBioAlchemyを紹介した。
生物学における345K以上の科学的推論問題を含むトレーニングデータセットであるBioAlchemy-345Kをキュレートする。
そして,現代の科学的生物学のトピック分布にデータセットを合わせることで,推論性能を向上させるための強化学習をいかに活用できるかを実証する。
最後に,BioAlchemist-8Bについて述べる。BioAlchemist-8Bは,生物学ベンチマークにおいて,基礎的推論モデルよりも9.12%向上する。
これらの結果から, 生物学における科学的推論能力の向上に向けたアプローチの有効性が示唆された。
BioAlchemist-8Bモデルは、https://huggingface.co/BioAlchemy.comで利用可能である。
関連論文リスト
- BABE: Biology Arena BEnchmark [51.53220868983288]
BABEは、生物学的AIシステムの実験的推論能力を評価するために設計されたベンチマークである。
われわれのベンチマークは、AIシステムが科学者を実践するのと同じように、いかにうまく判断できるかを評価するための堅牢なフレームワークを提供する。
論文 参考訳(メタデータ) (2026-02-05T16:39:20Z) - Flow Matching Meets Biology and Life Science: A Survey [65.2146737141455]
拡散に基づく生成モデリングの強力な代替手段としてフローマッチングが登場した。
本稿では,フローマッチングの最近の進歩とその生物学的領域への応用に関する包括的調査について述べる。
論文 参考訳(メタデータ) (2025-07-23T17:44:29Z) - BioReason: Incentivizing Multimodal Biological Reasoning within a DNA-LLM Model [12.528834366422466]
BioReasonは論理的、生物学的に一貫性のある還元物を生成することを学ぶ。
KEGGによる疾患経路予測の精度は86%から98%に向上する。
また、強いベースラインよりも平均15%の変動効果予測を改善する。
論文 参考訳(メタデータ) (2025-05-29T15:49:27Z) - BioDiscoveryAgent: An AI Agent for Designing Genetic Perturbation Experiments [112.25067497985447]
そこで,BioDiscoveryAgentを紹介した。このエージェントは,新しい実験を設計し,その結果の理由を明らかにし,仮説空間を効率的にナビゲートし,望ましい解に到達させる。
BioDiscoveryAgentは、機械学習モデルをトレーニングすることなく、新しい実験を独自に設計することができる。
6つのデータセットで関連する遺伝的摂動を予測することで、平均21%の改善が達成されている。
論文 参考訳(メタデータ) (2024-05-27T19:57:17Z) - BioT5+: Towards Generalized Biological Understanding with IUPAC Integration and Multi-task Tuning [77.90250740041411]
本稿では,BioT5フレームワークの拡張であるBioT5+を紹介する。
BioT5+ には、分子理解のための IUPAC 名の統合、bioRxiv や PubChem などのソースからの広範なバイオテキストと分子データの統合、タスク間の汎用性のためのマルチタスク命令チューニング、数値データの処理を改善する数値トークン化技術など、いくつかの新機能が含まれている。
論文 参考訳(メタデータ) (2024-02-27T12:43:09Z) - Evaluating the Potential of Leading Large Language Models in Reasoning
Biology Questions [33.81650223615028]
本研究では,概念生物学的な疑問に答える上で,LLM(Large Language Models)をリードする能力について検討した。
これらのモデルは、分子生物学、生物学的技術、代謝工学、合成生物学における生物学のトピックをカバーする108回の多重選択試験で試験された。
その結果、GPT-4の論理的推論能力と、データ分析、仮説生成、知識統合といった能力を通じて生物学の研究を支援する可能性を示唆した。
論文 参考訳(メタデータ) (2023-11-05T03:34:17Z) - ProBio: A Protocol-guided Multimodal Dataset for Molecular Biology Lab [67.24684071577211]
研究結果を複製するという課題は、分子生物学の分野に重大な障害をもたらしている。
まず、この目的に向けた最初のステップとして、ProBioという名前の包括的なマルチモーダルデータセットをキュレートする。
次に、透明なソリューショントラッキングとマルチモーダルなアクション認識という2つの挑戦的なベンチマークを考案し、BioLab設定におけるアクティビティ理解に関連する特徴と難しさを強調した。
論文 参考訳(メタデータ) (2023-11-01T14:44:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。