論文の概要: OwkinZero: Accelerating Biological Discovery with AI
- arxiv url: http://arxiv.org/abs/2508.16315v1
- Date: Fri, 22 Aug 2025 11:52:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.374737
- Title: OwkinZero: Accelerating Biological Discovery with AI
- Title(参考訳): OwkinZero: AIによる生物発見の加速
- Authors: Nathan Bigaud, Vincent Cabeli, Meltem Gurel, Arthur Pignet, John Klein, Gilles Wainrib, Eric Durand,
- Abstract要約: 我々は,8-32B OwkinZeroモデルが生物ベンチマークにおいて,大規模かつ最先端の商用LCMよりも大幅に優れていることを示す。
ひとつひとつのタスクで訓練された専門家モデルは、これまで見つからなかったタスクでベースモデルを一貫して上回っている。
- 参考スコア(独自算出の注目度): 1.9599431659016011
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While large language models (LLMs) are rapidly advancing scientific research, they continue to struggle with core biological reasoning tasks essential for translational and biomedical discovery. To address this limitation, we created and curated eight comprehensive benchmark datasets comprising over 300,000 verifiable question-and-answer pairs, each targeting critical challenges in drug discovery including target druggability, modality suitability, and drug perturbation effects. Using this resource, we developed the OwkinZero models by post-training open-source LLMs through a Reinforcement Learning from Verifiable Rewards strategy. Our results demonstrate that specialized 8-32B OwkinZero models substantially outperform larger, state-of-the-art commercial LLMs on these biological benchmarks. Remarkably, we uncover evidence of a key aspect of generalization: specialist models trained on a single task consistently outperform their base models on previously unseen tasks. This generalization effect is further amplified in our comprehensive OwkinZero models, which were trained on a mixture of datasets and achieve even broader cross-task improvements. This study represents a significant step toward addressing the biological reasoning blind spot in current LLMs, demonstrating that targeted reinforcement learning on carefully curated data can unlock generalizable performance in specialized models, thereby accelerating AI-driven biological discovery.
- Abstract(参考訳): 大型言語モデル(LLMs)は急速に科学的研究が進んでいるが、翻訳や生物医学的な発見に欠かせない重要な生物学的推論の課題に苦慮し続けている。
この制限に対処するために、30,000以上の検証可能な質問と回答のペアからなる8つの総合的なベンチマークデータセットを作成し、評価した。
この資源を用いて,検証リワード戦略による強化学習を通じて,オープンソースLLMのポストトレーニングによるOwkinZeroモデルを開発した。
以上の結果から,8-32B OwkinZeroモデルは,これらの生物学的ベンチマークにおいて,大規模かつ最先端の商用LCMよりも大幅に優れていた。
ひとつひとつのタスクで訓練された専門家モデルは、これまで見つからなかったタスクでベースモデルを一貫して上回っている。
この一般化効果は、データセットの混合に基づいてトレーニングされた包括的OwkinZeroモデルでさらに増幅され、より広範なクロスタスク改善が達成される。
この研究は、現在のLSMにおける生物学的推論の盲点に対処するための重要なステップであり、慎重にキュレートされたデータに対する強化学習が、特殊モデルにおける一般化可能な性能を解放し、AI駆動の生物学的発見を加速させることを実証している。
関連論文リスト
- Tool Zero: Training Tool-Augmented LLMs via Pure RL from Scratch [63.40752011615843]
ツール強化言語モデルのトレーニングは、複雑なタスクの能力を高めるための有望なアプローチとして登場した。
規則に基づく強化学習のための動的一般化誘導型報酬設計を提案する。
本研究では,SFTモデルとRL-with-SFTモデルと比較して7%以上の性能向上を実現していることを示す。
論文 参考訳(メタデータ) (2025-11-02T16:33:45Z) - The Path of Self-Evolving Large Language Models: Achieving Data-Efficient Learning via Intrinsic Feedback [51.144727949988436]
強化学習(RL)は、大規模言語モデル(LLM)の推論能力を高める可能性を実証した。
本研究では,最小限のデータを用いたLLによるLLMの改善について検討する。
データ依存を最小限に抑えるため、自己認識に基礎を置いた2つの新しいメカニズムを導入する。
論文 参考訳(メタデータ) (2025-10-03T06:32:10Z) - Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs [54.70676039314542]
本稿では拡散に基づく言語モデルの定量化に関する最初の体系的研究について述べる。
異常に大きなアクティベーション値によって特徴付けられるアクティベーションアウトリーチの存在を同定する。
我々は、最先端のPTQ手法を実装し、複数のタスクタイプとモデル変種を包括的に評価する。
論文 参考訳(メタデータ) (2025-08-20T17:59:51Z) - Continual Learning for Generative AI: From LLMs to MLLMs and Beyond [56.29231194002407]
本稿では,主流生成型AIモデルに対する連続学習手法の総合的な調査を行う。
これらのアプローチをアーキテクチャベース、正規化ベース、リプレイベースという3つのパラダイムに分類する。
我々は、トレーニング目標、ベンチマーク、コアバックボーンを含む、異なる生成モデルに対する連続的な学習設定を分析する。
論文 参考訳(メタデータ) (2025-06-16T02:27:25Z) - SwS: Self-aware Weakness-driven Problem Synthesis in Reinforcement Learning for LLM Reasoning [95.28059121743831]
RLVR(Reinforcement Learning with Verifiable Rewards)は、複雑な推論タスクにおいて、大規模言語モデル(LLM)のトレーニングに有効であることが証明されている。
本稿では、モデル欠陥を体系的に識別し、それらを問題解決に活用する自己認識弱さ駆動型問題合成フレームワーク(SwS)を提案する。
SwSはモデルを自己識別し、RLの弱点に対処することで堅牢な一般化を可能にし、7Bモデルと32Bモデルで平均パフォーマンスが10.0%と7.7%向上した。
論文 参考訳(メタデータ) (2025-06-10T17:02:00Z) - General-Reasoner: Advancing LLM Reasoning Across All Domains [64.70599911897595]
強化学習(RL)は近年,大規模言語モデル(LLM)の推論能力の向上に強い可能性を示している。
本稿では,多分野にわたるLSM推論能力の向上を目的とした,新たなトレーニングパラダイムであるGeneral-Reasonerを提案する。
私たちは一連のモデルをトレーニングし、物理学、化学、金融、電子工学など幅広い分野をカバーする幅広いデータセットでそれらを評価します。
論文 参考訳(メタデータ) (2025-05-20T17:41:33Z) - Reasoning Under 1 Billion: Memory-Augmented Reinforcement Learning for Large Language Models [53.4530106173067]
強化学習(RL)を伴う大規模言語モデル(LLM)は、複雑な推論タスクにおいて有望な改善を示す。
RLは10億のパラメータを持つ小さなLLMでは、効果的に探索するために必要な事前訓練能力が欠如しているため、依然として困難である。
この研究は、この課題に対処するためにエピソード記憶を活用する、新しい本質的なモチベーションアプローチを導入する。
論文 参考訳(メタデータ) (2025-04-03T04:46:17Z) - RAG-Enhanced Collaborative LLM Agents for Drug Discovery [28.025359322895905]
CLADDは、薬物発見タスクに適した、検索増強世代(RAG)内蔵のエージェントシステムである。
汎用LLMやドメイン固有のLLM、そして従来のディープラーニングのアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-02-22T00:12:52Z) - Knowledge Hierarchy Guided Biological-Medical Dataset Distillation for Domain LLM Training [10.701353329227722]
学術文献から高品質なテキストトレーニングデータの蒸留を自動化する枠組みを提案する。
われわれのアプローチは、バイオメディカル領域とより密接に一致した質問を自己評価し、生成する。
本手法は,生命科学領域の事前学習モデルと比較して,質問応答タスクを大幅に改善する。
論文 参考訳(メタデータ) (2025-01-25T07:20:44Z) - Forgetting, Ignorance or Myopia: Revisiting Key Challenges in Online Continual Learning [29.65600202138321]
高速なデータストリーム環境では、遅いモデルに対応するためにデータが停止しない。
モデルの無知: OCLのシングルパスの性質は、制約付きトレーニング時間内で効果的な機能を学ぶためにモデルに挑戦する。
モデルのミオピア:OCLの局所的な学習特性は、過度に単純化されたタスク固有の機能を採用するモデルに導かれる。
論文 参考訳(メタデータ) (2024-09-28T05:24:56Z) - Unifying Self-Supervised Clustering and Energy-Based Models [9.3176264568834]
自己教師付き学習と生成モデルとの間には,原則的な関連性を確立する。
シンボル接地問題の単純かつ非自明なインスタンス化に対処するために,我々の解法をニューロシンボリックな枠組みに統合できることが示される。
論文 参考訳(メタデータ) (2023-12-30T04:46:16Z) - Meta Transfer of Self-Supervised Knowledge: Foundation Model in Action
for Post-Traumatic Epilepsy Prediction [0.6291443816903801]
基礎モデルに新たなトレーニング戦略を導入する。
提案手法は,小規模臨床データセットのタスク性能を著しく向上することを示す。
さらに, 基礎モデルの一般化性の向上を実証した。
論文 参考訳(メタデータ) (2023-12-21T07:42:49Z) - Dyna-bAbI: unlocking bAbI's potential with dynamic synthetic
benchmarking [16.109330335379962]
Dyna-bAbIは動的フレームワークであり、bAbIのタスク生成を細かく制御する。
構成一般化を必要とする3つの新しいタスクを構築することで、私たちのアイデアを実証する。
論文 参考訳(メタデータ) (2021-11-30T20:36:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。