論文の概要: MOOSE-Star: Unlocking Tractable Training for Scientific Discovery by Breaking the Complexity Barrier
- arxiv url: http://arxiv.org/abs/2603.03756v1
- Date: Wed, 04 Mar 2026 06:11:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.194891
- Title: MOOSE-Star: Unlocking Tractable Training for Scientific Discovery by Breaking the Complexity Barrier
- Title(参考訳): MOOSE-Star:複雑なバリアを壊して科学的発見のための遠隔訓練
- Authors: Zonglin Yang, Lidong Bing,
- Abstract要約: MOOSE-Starは、トラクタブルなトレーニングとスケーラブルな推論を可能にする統合フレームワークである。
TOMATO-Starは、トレーニング用に108717の分解された論文(38,400GPU時間)のデータセットである。
- 参考スコア(独自算出の注目度): 56.250921274032066
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While large language models (LLMs) show promise in scientific discovery, existing research focuses on inference or feedback-driven training, leaving the direct modeling of the generative reasoning process, $P(\text{hypothesis}|\text{background})$ ($P(h|b)$), unexplored. We demonstrate that directly training $P(h|b)$ is mathematically intractable due to the combinatorial complexity ($O(N^k)$) inherent in retrieving and composing inspirations from a vast knowledge base. To break this barrier, we introduce MOOSE-Star, a unified framework enabling tractable training and scalable inference. In the best case, MOOSE-Star reduces complexity from exponential to logarithmic ($O(\log N)$) by (1) training on decomposed subtasks derived from the probabilistic equation of discovery, (2) employing motivation-guided hierarchical search to enable logarithmic retrieval and prune irrelevant subspaces, and (3) utilizing bounded composition for robustness against retrieval noise. To facilitate this, we release TOMATO-Star, a dataset of 108,717 decomposed papers (38,400 GPU hours) for training. Furthermore, we show that while brute-force sampling hits a ''complexity wall,'' MOOSE-Star exhibits continuous test-time scaling.
- Abstract(参考訳): 大きな言語モデル(LLMs)は科学的発見において有望であるが、既存の研究は推論やフィードバック駆動の訓練に重点を置いており、生成的推論プロセスの直接的なモデリングは、$P(\text{hypothesis}|\text{background})$$$P(h|b)$である。
P(h|b)$ の直接訓練は、膨大な知識ベースからインスピレーションを取り出し、構成することに固有の組合せ複雑性 (O(N^k)$) のために数学的に難解であることを示す。
この障壁を断ち切るために、我々は、抽出可能なトレーニングとスケーラブルな推論を可能にする統合フレームワークMOOSE-Starを紹介します。
最良の場合、MOOSE-Starは、(1)確率論的発見方程式から導かれる分解されたサブタスクのトレーニング、(2)モチベーション誘導階層探索による対数検索と無関係な部分空間の創出、(3)検索ノイズに対する堅牢性のための有界合成の活用により、指数関数から対数への複雑性を減少させる(O(\log N)$)。
これを容易にするために、トレーニング用の108,717論文(38,400GPU時間)のデータセットであるTomato-Starをリリースする。
さらに, ブルートフォースサンプリングが'複雑壁'にぶつかっているのに対して, MOOSE-Starは連続的なテスト時間スケーリングを示す。
関連論文リスト
- Unifying Tree Search Algorithm and Reward Design for LLM Reasoning: A Survey [92.71325249013535]
線形木探索はLarge Language Model (LLM) 研究の基盤となっている。
本稿では,検索アルゴリズムを3つのコアコンポーネントに分解する統合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-11T03:29:18Z) - Enabling Pareto-Stationarity Exploration in Multi-Objective Reinforcement Learning: A Multi-Objective Weighted-Chebyshev Actor-Critic Approach [23.834874532235382]
多目的強化学習(MORL)のための重み付きulineMulineActor-critic(MOCHA)アルゴリズムを提案する。
学習率を慎重に選択することで、各探索のサンプルの複雑さを$tildemathcalO(epsilon-2)$にすることができる。
MOCHAアルゴリズムの性能は、他のベースラインMORL手法よりも大幅に向上する。
論文 参考訳(メタデータ) (2025-07-29T00:11:59Z) - FLARE: Faithful Logic-Aided Reasoning and Exploration [47.46564769245296]
タスク分解を用いて問題空間をトラバースする新しい手法を提案する。
我々はLarge Language Modelsを使ってソリューションを計画し、クエリを事実に軟式化し、論理プログラミングコードを使って述語する。
提案手法は,生成したコードに対する推論プロセスの忠実度を計算し,外部の解法に頼らずにマルチホップ探索のステップを解析する。
論文 参考訳(メタデータ) (2024-10-14T19:39:11Z) - Reinforcement Learning from Human Feedback without Reward Inference: Model-Free Algorithm and Instance-Dependent Analysis [16.288866201806382]
モデルフリーなRLHFベストポリシー識別アルゴリズムである$mathsfBSAD$を、明示的な報酬モデル推論なしで開発する。
アルゴリズムは、人選好情報から直接、その最適方針を後方方向に識別する。
論文 参考訳(メタデータ) (2024-06-11T17:01:41Z) - Provably Efficient Adversarial Imitation Learning with Unknown
Transitions [24.70187647541753]
シミュレーション学習(IL)は、専門家による実証から優れた政策を学ぶための効果的な方法であることが証明されている。
本稿では, 未知遷移の存在下での AIL の理論的基盤について考察する。
我々は,$widetildeO (H3/2 |S|/varepsilon)$と$widetildeO (H3 |S|2 |A|/varepsilon2)$の相互作用複雑性を最小限に設定するアルゴリズムMB-TAILを提案する。
論文 参考訳(メタデータ) (2023-06-11T02:46:41Z) - Optimal Horizon-Free Reward-Free Exploration for Linear Mixture MDPs [60.40452803295326]
線形マルコフ決定過程(MDP)を学習するための新たな報酬なしアルゴリズムを提案する。
我々のアルゴリズムの核心は、探索駆動の擬似回帰を用いた不確実性重み付き値目標回帰である。
我々のアルゴリズムは$tilde O(d2varepsilon-2)$ episodesを探索するだけで、$varepsilon$-optimal policyを見つけることができる。
論文 参考訳(メタデータ) (2023-03-17T17:53:28Z) - On Function Approximation in Reinforcement Learning: Optimism in the
Face of Large State Spaces [208.67848059021915]
強化学習のコアにおける探索・探索トレードオフについて検討する。
特に、関数クラス $mathcalF$ の複雑さが関数の複雑さを特徴づけていることを証明する。
私たちの後悔の限界はエピソードの数とは無関係です。
論文 参考訳(メタデータ) (2020-11-09T18:32:22Z) - A Provably Efficient Sample Collection Strategy for Reinforcement
Learning [123.69175280309226]
オンライン強化学習(RL)における課題の1つは、エージェントがその振る舞いを最適化するために、環境の探索とサンプルの活用をトレードオフする必要があることである。
1) 生成モデル(環境のスパースシミュレータなど)にアクセス可能な状態のサンプル数を規定する「対象別」アルゴリズム,2) 所定のサンプルをできるだけ早く生成する「対象別」サンプル収集。
論文 参考訳(メタデータ) (2020-07-13T15:17:35Z) - Sample-Efficient Reinforcement Learning of Undercomplete POMDPs [91.40308354344505]
この研究は、これらの硬度障壁が、部分観測可能決定過程(POMDP)の豊かで興味深いサブクラスに対する効率的な強化学習を妨げないことを示している。
提案手法は, 観測回数が潜伏状態の数よりも大きく, 探索が学習に不可欠であり, 先行研究と区別できるような, エピソード有限不完全POMDPに対するサンプル効率アルゴリズムOOM-UCBを提案する。
論文 参考訳(メタデータ) (2020-06-22T17:58:54Z) - Task-agnostic Exploration in Reinforcement Learning [35.403304641170386]
タスクに依存しない効率的な強化学習アルゴリズムtextscUCBZero を提案する。
少なくとも$tilde O(log(N)H5SA/epsilon2)$ Exploring episodesの後、$N$の任意のタスクに対して$epsilon$-optimal Policyを見つける。
また、$Omega(log (N)H2SA/epsilon2)$ lower boundを提供し、$N$への$log$依存性が避けられないことを示す。
論文 参考訳(メタデータ) (2020-06-16T20:23:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。