論文の概要: Helix: Evolutionary Reinforcement Learning for Open-Ended Scientific Problem Solving
- arxiv url: http://arxiv.org/abs/2603.07642v1
- Date: Sun, 08 Mar 2026 14:08:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.996789
- Title: Helix: Evolutionary Reinforcement Learning for Open-Ended Scientific Problem Solving
- Title(参考訳): Helix: オープンソースの科学的問題解決のための進化的強化学習
- Authors: Chang Su, Zhongkai Hao, Zhizhou Zhang, Zeyu Xia, Youjia Wu, Hang Su, Jun Zhu,
- Abstract要約: In-context eXperiences を用いた階層的進化学習フレームワーク HELIX を提案する。
HELIXは、2つの重要なノベルティを紹介している: (i) コンテキスト内学習を通じて探索を拡大する、多様だが高品質なソリューションのプール、(ii) ソリューションの品質を徐々に高める反復的政策改善のための強化学習。
円のパッキングタスクでは、HELIXは14Bモデルのみを用いて2.63598308の半径の和で最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 33.07964356595686
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) with reasoning abilities have demonstrated growing promise for tackling complex scientific problems. Yet such tasks are inherently domain-specific, unbounded and open-ended, demanding exploration across vast and flexible solution spaces. Existing approaches, whether purely learning-based or reliant on carefully designed workflows, often suffer from limited exploration efficiency and poor generalization. To overcome these challenges, we present HELIX -- a Hierarchical Evolutionary reinforcement Learning framework with In-context eXperiences. HELIX introduces two key novelties: (i) a diverse yet high-quality pool of candidate solutions that broadens exploration through in-context learning, and (ii) reinforcement learning for iterative policy refinement that progressively elevates solution quality. This synergy enables the discovery of more advanced solutions. On the circle packing task, HELIX achieves state-of-the-art result with a sum of radii of 2.63598308 using only a 14B model. Across standard machine learning benchmarks, HELIX further surpasses GPT-4o with a carefully engineered pipeline, delivering an average F1 improvement of 5.95 points on the Adult and Bank Marketing datasets.
- Abstract(参考訳): 推論能力を持つ大規模言語モデル(LLM)は、複雑な科学的問題に取り組むための公約が増大していることを示している。
しかし、そのようなタスクは本質的にドメイン固有であり、非有界で、オープンエンドであり、広大な柔軟な解空間を探索する必要がある。
純粋に学習ベースであるか、慎重に設計されたワークフローに依存している既存のアプローチは、探索効率の制限と一般化の低さに悩まされることが多い。
これらの課題を克服するため,HELIX - In-context eXperiences を用いた階層的進化的強化学習フレームワークを提案する。
HELIXは2つの重要なノベルティを紹介します。
(i)文脈内学習による探索を拡大する、多種多様ながら高品質な候補解のプール、及び
二 ソリューションの品質を徐々に高める反復的政策改善のための強化学習。
このシナジーにより、より高度な解が発見できる。
円のパッキングタスクでは、HELIXは14Bモデルのみを用いて2.63598308の半径の和で最先端の結果を達成する。
標準的な機械学習ベンチマーク全体で、HELIXは慎重に設計されたパイプラインでGPT-4oを超え、アダルトおよびバンクマーケティングデータセットで平均5.95ポイントのF1改善を提供する。
関連論文リスト
- BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing? [61.247730037229815]
BeyondSWEは2つの軸 – 解像度スコープと知識スコープ – に沿って既存の評価を拡張する包括的なベンチマークです。
外部知識の役割を解明するために,ディープ検索とコーディング能力を統合するフレームワークであるSearchSWEを開発した。
この作業は、現実的で挑戦的な評価ベンチマークと、より有能なコードエージェントに向けた研究を進めるための柔軟なフレームワークの両方を提供する。
論文 参考訳(メタデータ) (2026-03-03T17:52:01Z) - Didactic to Constructive: Turning Expert Solutions into Learnable Reasoning [24.23048069764839]
本研究では,専門的解を詳細な分散的推論トレースに変換することによって,分散ギャップを橋渡しする2段階の方法である分散適応学習(DAIL)を提案する。
DAILは1000未満のエキスパートソリューションを利用してQwen2.5-InstructおよびQwen3モデルの10-25%のパス@kゲインを実現し、推論効率を2倍から4倍に改善し、ドメイン外の一般化を可能にする。
論文 参考訳(メタデータ) (2026-02-02T18:03:43Z) - MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization [103.74675519953898]
ロングチェーンのリフレクティブ推論は、複雑な現実世界の問題を解決するための前提条件である。
我々は42の難解な合成タスクの1,260のサンプルからなるベンチマークを構築した。
トレーニング後のデータを生成し、そのようなデータを活用するための学習パラダイムを探索する。
論文 参考訳(メタデータ) (2025-10-09T17:53:58Z) - More Than One Teacher: Adaptive Multi-Guidance Policy Optimization for Diverse Exploration [103.1589018460702]
ガイダンス・オン・デマンド」アプローチは、自己発見の価値を保ちながら探究を広げる。
実験の結果、AMPOは強いベースラインを大幅に上回ることが示された。
ピアサイズの4人の教師を用いて、より強力な1人の教師を活用できる手法に匹敵する結果が得られる。
論文 参考訳(メタデータ) (2025-10-02T17:14:00Z) - UR$^2$: Unify RAG and Reasoning through Reinforcement Learning [17.319590573147565]
大規模言語モデル(LLM)は2つの相補的パラダイムを通じて顕著な能力を示してきた: 検索-拡張生成(RAG)と、検証リワード(RLVR)からの強化学習(Reinforcement Learning)である。
我々は、強化学習による検索と推論を統一する一般的なフレームワークUR2(Unified RAG and Reasoning)を提案する。
オープンドメインQA、MMLU-Pro、医学、数学的推論タスクにわたる実験は、UR$2$が既存のRAG法とRL法を大幅に上回ることを示した。
論文 参考訳(メタデータ) (2025-08-08T09:33:20Z) - Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective [77.94874338927492]
OpenAIは、o1の背後にある主要な技術は強化学習であると主張している。
本稿では、強化学習の観点から、o1を達成するためのロードマップを分析する。
論文 参考訳(メタデータ) (2024-12-18T18:24:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。