論文の概要: Unleashing Scientific Reasoning for Bio-experimental Protocol Generation via Structured Component-based Reward Mechanism
- arxiv url: http://arxiv.org/abs/2510.15600v1
- Date: Fri, 17 Oct 2025 12:47:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.621143
- Title: Unleashing Scientific Reasoning for Bio-experimental Protocol Generation via Structured Component-based Reward Mechanism
- Title(参考訳): 構造的コンポーネントベース・リワード機構による生物実験プロトコル生成のための科学的推論
- Authors: Haoran Sun, Yankai Jiang, Zhenyu Tang, Yaning Pan, Shuang Gu, Zekai Lin, Lilong Wang, Wenjie Lou, Lei Liu, Lei Bai, Xiaosong Wang,
- Abstract要約: SciRecipeは27の生物学的サブフィールドにまたがる12K以上の構造化プロトコルからなる大規模データセットである。
プロトコル生成をさらに改善するために,解析,構造化,表現を分離する"Sketch-and-Fill"パラダイムを提案する。
我々はThothを開発し、知識獲得から運用的推論に至る段階的な知識と行動のプロセスで訓練する。
- 参考スコア(独自算出の注目度): 26.631284893550056
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The foundation of reproducible science lies in protocols that are precise, logically ordered, and executable. The autonomous generation of these protocols through natural language queries could greatly improve the efficiency of the reproduction process. However, current leading large language models (LLMs) often generate incomplete or inconsistent protocols, limiting their utility. To address this limitation, we first introduce SciRecipe, a large-scale dataset of over 12K structured protocols spanning 27 biological subfields and encompassing both comprehension and problem-solving tasks. To further improve protocol generation, we propose the "Sketch-and-Fill" paradigm, which separates analysis, structuring, and expression to ensure each step is explicit and verifiable. Complementing this, the structured component-based reward mechanism evaluates step granularity, action order, and semantic fidelity, aligning model optimization with experimental reliability. Building on these components, we develop Thoth, trained through a staged Knowledge-to-Action process that progresses from knowledge acquisition to operational reasoning and ultimately to robust, executable protocol generation. Across multiple benchmarks, Thoth consistently surpasses both proprietary and open-source LLMs, achieving significant improvements in step alignment, logical sequencing, and semantic accuracy. Our approach paves the way for reliable scientific assistants that bridge knowledge with experimental execution. All data, code, and models will be released publicly.
- Abstract(参考訳): 再現可能な科学の基礎は、正確で論理的に順序付けられ、実行可能なプロトコルにある。
自然言語クエリによるこれらのプロトコルの自動生成は、再生プロセスの効率を大幅に改善する可能性がある。
しかしながら、現在の主要な大規模言語モデル(LLM)は、しばしば不完全または一貫性のないプロトコルを生成し、そのユーティリティを制限している。
この制限に対処するために、まず、27の生物学的サブフィールドにまたがる12K以上の構造化プロトコルの大規模データセットであるSciRecipeを紹介した。
プロトコル生成をさらに改善するために,解析,構造化,表現を分離し,各ステップが明確かつ検証可能であることを保証する"Sketch-and-Fill"パラダイムを提案する。
これを完成させ、構造化されたコンポーネントベースの報酬機構は、ステップの粒度、行動順序、意味的忠実度を評価し、モデルの最適化と実験的信頼性を整合させる。
これらのコンポーネントに基づいてThothを開発し、知識獲得から運用推論へ、そして究極的には堅牢で実行可能なプロトコル生成へと進化する、段階的な知識と対話プロセスを通じて訓練する。
複数のベンチマークで、ThothはプロプライエタリなLLMとオープンソースのLLMを一貫して上回り、ステップアライメント、論理シークエンシング、セマンティック精度を大幅に改善した。
我々のアプローチは、実験的な実行で知識を橋渡しする信頼性のある科学アシスタントの道を開く。
すべてのデータ、コード、モデルは公開されます。
関連論文リスト
- Interaction-Grounded Learning for Contextual Markov Decision Processes with Personalized Feedback [59.287761696290865]
本稿では,個人化されたフィードバックを伴って,文脈的マルコフ決定プロセス(MDP)のサブ線形後悔保証を実現する計算効率の高いアルゴリズムを提案する。
提案手法の有効性を,合成エピソードMDPと実世界のユーザ予約データセットの両方を用いた実験を通じて,マルチターンインタラクションからパーソナライズされた目的を学習する際の有効性を示す。
論文 参考訳(メタデータ) (2026-02-09T06:29:54Z) - Towards a Science of Collective AI: LLM-based Multi-Agent Systems Need a Transition from Blind Trial-and-Error to Rigorous Science [70.3658845234978]
大規模言語モデル(LLM)はマルチエージェントシステム(MAS)の機能を大幅に拡張した。
この急速な進歩にもかかわらず、この分野はいまだに実証的な試行錯誤に大きく依存している。
このボトルネックは、帰属の曖昧さに起因している。
本稿では,協調運転要因を体系的に同定する要因帰属パラダイムを提案する。
論文 参考訳(メタデータ) (2026-02-05T04:19:52Z) - EvoSyn: Generalizable Evolutionary Data Synthesis for Verifiable Learning [63.03672166010434]
我々は、進化的、タスクに依存しない、戦略を導いた、実行可能検証可能なデータ合成フレームワークを紹介します。
問題、多様な候補解、検証成果物を共同で合成する。
これは、人間による注釈付きチェックと戦略によるチェックの合意を強制する一貫性に基づく評価器を通じて戦略を反復的に発見する。
論文 参考訳(メタデータ) (2025-10-20T11:56:35Z) - Optimizing LOCC Protocols on Product Stiefel Manifold [3.7715498552640434]
局所的演算と古典的通信(LOCC)は、理論と実験の両方の観点からの量子情報の基礎となるフレームワークである。
我々は、積 Stiefel 多様体上のリーマン最適化を通じて固定円LOCCを最適化するフレームワークを開発する。
本稿では,このフレームワークの量子情報処理における重要なタスク,例えば絡み込み蒸留や状態マージによる適用性を実証する。
論文 参考訳(メタデータ) (2025-10-08T11:43:47Z) - Loong: Synthesize Long Chain-of-Thoughts at Scale through Verifiers [103.4410890572479]
スケーラブルな合成データ生成と検証のためのオープンソースのフレームワークであるLoong Projectを紹介します。
LoongBenchは、12のドメインにまたがる8,729の人為的なサンプルを含む、キュレートされたシードデータセットである。
LoongEnvはモジュラー合成データ生成環境であり、新しい質問応答コードのトリプルを生成する複数のプロンプト戦略をサポートする。
論文 参考訳(メタデータ) (2025-09-03T06:42:40Z) - Rethinking Testing for LLM Applications: Characteristics, Challenges, and a Lightweight Interaction Protocol [83.83217247686402]
大言語モデル(LLM)は、単純なテキストジェネレータから、検索強化、ツール呼び出し、マルチターンインタラクションを統合する複雑なソフトウェアシステムへと進化してきた。
その固有の非決定主義、ダイナミズム、文脈依存は品質保証に根本的な課題をもたらす。
本稿では,LLMアプリケーションを3層アーキテクチャに分解する: textbftextitSystem Shell Layer, textbftextitPrompt Orchestration Layer, textbftextitLLM Inference Core。
論文 参考訳(メタデータ) (2025-08-28T13:00:28Z) - ProtocolLLM: RTL Benchmark for SystemVerilog Generation of Communication Protocols [45.66401695351214]
本稿では,広く使用されているSystemVerilogプロトコルを対象とした最初のベンチマークスイートであるProtocolLLMを紹介する。
我々は,ほとんどのモデルがタイミング制約に従う通信プロトコルのSystemVerilogコードを生成するのに失敗したことを観察する。
論文 参考訳(メタデータ) (2025-06-09T17:10:47Z) - BioProBench: Comprehensive Dataset and Benchmark in Biological Protocol Understanding and Reasoning [31.739027752007928]
生物プロトコルの理解と推論のための大規模マルチタスクベンチマークとして,BioProBenchを提案する。
27Kのオリジナルプロトコルに基づいて構築され、約556Kの高品質な構造化インスタンスを生成する。
論文 参考訳(メタデータ) (2025-05-11T09:42:24Z) - Hierarchically Encapsulated Representation for Protocol Design in Self-Driving Labs [8.340267449839681]
自動運転研究所は、人間の実験者に代わって、単一の実験技術や所定の実験プロトコルを実行するようになった。
プロトコル設計の自動化への取り組みは始まっているが、知識に基づく機械設計者の能力は十分に発揮されていない。
本稿では,インスタンスアクション,一般化操作,製品フローモデルなどを階層的にカプセル化する多面的マルチスケール表現を提案する。
論文 参考訳(メタデータ) (2025-04-04T12:05:15Z) - Understanding Token-level Topological Structures in Transformer-based Time Series Forecasting [52.364260925700485]
Transformer-based method has achieved state-of-the-art performance in time series forecasting (TSF)
既存のトランスフォーマーが中間層全体を通してトークン間の固有位相構造を完全に活用しているかどうかは不明である。
トークンレベルのトポロジを明示的にかつ適応的に保存するトランスフォーマーベースの新しいTSF手法であるトポロジ拡張法(TEM)を提案する。
論文 参考訳(メタデータ) (2024-04-16T07:21:39Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - BioPlanner: Automatic Evaluation of LLMs on Protocol Planning in Biology [41.952424120054914]
大きな言語モデル(LLM)は、幅広いタスクにおいて印象的な機能を持っています。
本稿では,実験プロトコルの計画作業のための自動評価フレームワークを提案する。
本課題について, GPT-3 と GPT-4 を評価し, その堅牢性について検討した。
論文 参考訳(メタデータ) (2023-10-16T17:54:20Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - Procedures as Programs: Hierarchical Control of Situated Agents through
Natural Language [81.73820295186727]
エージェント命令と制御のための階層的な手続き的知識を表現する強力な手法である,プログラムとしての手続きの形式化を提案する。
NL命令に対するIQAおよびALFREDデータセット上で、このフレームワークをインスタンス化する。
論文 参考訳(メタデータ) (2021-09-16T20:36:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。