論文の概要: Unleashing Scientific Reasoning for Bio-experimental Protocol Generation via Structured Component-based Reward Mechanism
- arxiv url: http://arxiv.org/abs/2510.15600v1
- Date: Fri, 17 Oct 2025 12:47:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.621143
- Title: Unleashing Scientific Reasoning for Bio-experimental Protocol Generation via Structured Component-based Reward Mechanism
- Title(参考訳): 構造的コンポーネントベース・リワード機構による生物実験プロトコル生成のための科学的推論
- Authors: Haoran Sun, Yankai Jiang, Zhenyu Tang, Yaning Pan, Shuang Gu, Zekai Lin, Lilong Wang, Wenjie Lou, Lei Liu, Lei Bai, Xiaosong Wang,
- Abstract要約: SciRecipeは27の生物学的サブフィールドにまたがる12K以上の構造化プロトコルからなる大規模データセットである。
プロトコル生成をさらに改善するために,解析,構造化,表現を分離する"Sketch-and-Fill"パラダイムを提案する。
我々はThothを開発し、知識獲得から運用的推論に至る段階的な知識と行動のプロセスで訓練する。
- 参考スコア(独自算出の注目度): 26.631284893550056
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The foundation of reproducible science lies in protocols that are precise, logically ordered, and executable. The autonomous generation of these protocols through natural language queries could greatly improve the efficiency of the reproduction process. However, current leading large language models (LLMs) often generate incomplete or inconsistent protocols, limiting their utility. To address this limitation, we first introduce SciRecipe, a large-scale dataset of over 12K structured protocols spanning 27 biological subfields and encompassing both comprehension and problem-solving tasks. To further improve protocol generation, we propose the "Sketch-and-Fill" paradigm, which separates analysis, structuring, and expression to ensure each step is explicit and verifiable. Complementing this, the structured component-based reward mechanism evaluates step granularity, action order, and semantic fidelity, aligning model optimization with experimental reliability. Building on these components, we develop Thoth, trained through a staged Knowledge-to-Action process that progresses from knowledge acquisition to operational reasoning and ultimately to robust, executable protocol generation. Across multiple benchmarks, Thoth consistently surpasses both proprietary and open-source LLMs, achieving significant improvements in step alignment, logical sequencing, and semantic accuracy. Our approach paves the way for reliable scientific assistants that bridge knowledge with experimental execution. All data, code, and models will be released publicly.
- Abstract(参考訳): 再現可能な科学の基礎は、正確で論理的に順序付けられ、実行可能なプロトコルにある。
自然言語クエリによるこれらのプロトコルの自動生成は、再生プロセスの効率を大幅に改善する可能性がある。
しかしながら、現在の主要な大規模言語モデル(LLM)は、しばしば不完全または一貫性のないプロトコルを生成し、そのユーティリティを制限している。
この制限に対処するために、まず、27の生物学的サブフィールドにまたがる12K以上の構造化プロトコルの大規模データセットであるSciRecipeを紹介した。
プロトコル生成をさらに改善するために,解析,構造化,表現を分離し,各ステップが明確かつ検証可能であることを保証する"Sketch-and-Fill"パラダイムを提案する。
これを完成させ、構造化されたコンポーネントベースの報酬機構は、ステップの粒度、行動順序、意味的忠実度を評価し、モデルの最適化と実験的信頼性を整合させる。
これらのコンポーネントに基づいてThothを開発し、知識獲得から運用推論へ、そして究極的には堅牢で実行可能なプロトコル生成へと進化する、段階的な知識と対話プロセスを通じて訓練する。
複数のベンチマークで、ThothはプロプライエタリなLLMとオープンソースのLLMを一貫して上回り、ステップアライメント、論理シークエンシング、セマンティック精度を大幅に改善した。
我々のアプローチは、実験的な実行で知識を橋渡しする信頼性のある科学アシスタントの道を開く。
すべてのデータ、コード、モデルは公開されます。
関連論文リスト
- Loong: Synthesize Long Chain-of-Thoughts at Scale through Verifiers [103.4410890572479]
スケーラブルな合成データ生成と検証のためのオープンソースのフレームワークであるLoong Projectを紹介します。
LoongBenchは、12のドメインにまたがる8,729の人為的なサンプルを含む、キュレートされたシードデータセットである。
LoongEnvはモジュラー合成データ生成環境であり、新しい質問応答コードのトリプルを生成する複数のプロンプト戦略をサポートする。
論文 参考訳(メタデータ) (2025-09-03T06:42:40Z) - ProtocolLLM: RTL Benchmark for SystemVerilog Generation of Communication Protocols [45.66401695351214]
本稿では,広く使用されているSystemVerilogプロトコルを対象とした最初のベンチマークスイートであるProtocolLLMを紹介する。
我々は,ほとんどのモデルがタイミング制約に従う通信プロトコルのSystemVerilogコードを生成するのに失敗したことを観察する。
論文 参考訳(メタデータ) (2025-06-09T17:10:47Z) - BioProBench: Comprehensive Dataset and Benchmark in Biological Protocol Understanding and Reasoning [31.739027752007928]
生物プロトコルの理解と推論のための大規模マルチタスクベンチマークとして,BioProBenchを提案する。
27Kのオリジナルプロトコルに基づいて構築され、約556Kの高品質な構造化インスタンスを生成する。
論文 参考訳(メタデータ) (2025-05-11T09:42:24Z) - Hierarchically Encapsulated Representation for Protocol Design in Self-Driving Labs [8.340267449839681]
自動運転研究所は、人間の実験者に代わって、単一の実験技術や所定の実験プロトコルを実行するようになった。
プロトコル設計の自動化への取り組みは始まっているが、知識に基づく機械設計者の能力は十分に発揮されていない。
本稿では,インスタンスアクション,一般化操作,製品フローモデルなどを階層的にカプセル化する多面的マルチスケール表現を提案する。
論文 参考訳(メタデータ) (2025-04-04T12:05:15Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - BioPlanner: Automatic Evaluation of LLMs on Protocol Planning in Biology [41.952424120054914]
大きな言語モデル(LLM)は、幅広いタスクにおいて印象的な機能を持っています。
本稿では,実験プロトコルの計画作業のための自動評価フレームワークを提案する。
本課題について, GPT-3 と GPT-4 を評価し, その堅牢性について検討した。
論文 参考訳(メタデータ) (2023-10-16T17:54:20Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - Procedures as Programs: Hierarchical Control of Situated Agents through
Natural Language [81.73820295186727]
エージェント命令と制御のための階層的な手続き的知識を表現する強力な手法である,プログラムとしての手続きの形式化を提案する。
NL命令に対するIQAおよびALFREDデータセット上で、このフレームワークをインスタンス化する。
論文 参考訳(メタデータ) (2021-09-16T20:36:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。