論文の概要: Sci-CoE: Co-evolving Scientific Reasoning LLMs via Geometric Consensus with Sparse Supervision
- arxiv url: http://arxiv.org/abs/2602.12164v1
- Date: Thu, 12 Feb 2026 16:46:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.946506
- Title: Sci-CoE: Co-evolving Scientific Reasoning LLMs via Geometric Consensus with Sparse Supervision
- Title(参考訳): Sci-CoE:Sparse SupervisionとGeometric ConsensusによるLLMの科学的推論
- Authors: Xiaohan He, Shiyang Feng, Songtao Huang, Lei Bai, Bin Wang, Bo Zhang,
- Abstract要約: Sci-CoEは2段階の科学的共進化フレームワークであり、モデルが解法と検証器の両方として自己進化することを可能にする。
最初の段階では、モデルは注釈付きデータの小さなセットを使用して、検証器の正当性判定アンカーを確立する。
第2段階では、コンセンサス、信頼性、多様性を共同で考慮し、大規模な自己評価を促進する幾何学的報酬機構を導入する。
- 参考スコア(独自算出の注目度): 15.806243963561776
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have demonstrated exceptional reasoning capabilities, and co-evolving paradigms have shown promising results in domains such as code and math. However, in scientific reasoning tasks, these models remain fragile due to unreliable solution evaluation and limited diversity in verification strategies. In this work, we propose Sci-CoE, a two-stage scientific co-evolving framework that enables models to self-evolve as both solver and verifier through a transition from sparse supervision to unsupervised learning. In the first stage, the model uses a small set of annotated data to establish fundamental correctness judgment anchors for the Verifier. In the second stage, we introduce a geometric reward mechanism that jointly considers consensus, reliability, and diversity, driving large-scale self-iteration on unlabeled data. Experiments on several general scientific benchmarks demonstrate that Sci-CoE enhances complex reasoning capabilities and exhibits strong scalability, facilitating the construction of more robust and diverse evaluation systems. Codes are available at https://github.com/InternScience/Sci-CoE.
- Abstract(参考訳): 大規模言語モデル(LLM)は例外的な推論能力を示しており、共進化パラダイムはコードや数学などの領域で有望な結果を示している。
しかし、科学的推論タスクにおいては、これらのモデルは信頼性の低い解の評価と検証戦略の多様性のために脆弱なままである。
本研究では,スパース監視から教師なし学習への移行を通じて,モデルが解法と検証器の両方として自己進化することを可能にする2段階の科学的共進化フレームワークであるSci-CoEを提案する。
最初の段階では、モデルは注釈付きデータの小さなセットを使用して、検証者の基本的な正当性判定アンカーを確立する。
第2段階では,共同でコンセンサス,信頼性,多様性を考慮した幾何学的報酬機構を導入し,ラベルのないデータに対して大規模自己評価を行う。
いくつかの一般的な科学ベンチマークの実験では、Sci-CoEは複雑な推論能力を高め、強力なスケーラビリティを示し、より堅牢で多様な評価システムの構築を容易にすることが示されている。
コードはhttps://github.com/InternScience/Sci-CoE.comで入手できる。
関連論文リスト
- Towards a Science of Collective AI: LLM-based Multi-Agent Systems Need a Transition from Blind Trial-and-Error to Rigorous Science [70.3658845234978]
大規模言語モデル(LLM)はマルチエージェントシステム(MAS)の機能を大幅に拡張した。
この急速な進歩にもかかわらず、この分野はいまだに実証的な試行錯誤に大きく依存している。
このボトルネックは、帰属の曖昧さに起因している。
本稿では,協調運転要因を体系的に同定する要因帰属パラダイムを提案する。
論文 参考訳(メタデータ) (2026-02-05T04:19:52Z) - SCI-Verifier: Scientific Verifier with Thinking [37.08904000514563]
大規模言語モデル(LLM)は、科学的推論にますます応用されている。
科学的領域における既存の検証研究は2つの大きな限界に悩まされている。
データレベルとモデルレベルでのソリューションを提案する。
論文 参考訳(メタデータ) (2025-09-29T04:58:43Z) - A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers [251.23085679210206]
科学大規模言語モデル(Sci-LLMs)は、科学研究において、知識の表現、統合、適用の方法を変えつつある。
この調査は、モデルとその基盤となるデータ基板の共進化として、Sci-LLMの開発を再考する。
我々は、科学的データの統一された分類法と、科学的知識の階層的なモデルを定式化する。
論文 参考訳(メタデータ) (2025-08-28T18:30:52Z) - Coding Triangle: How Does Large Language Model Understand Code? [33.42334127806147]
大規模言語モデル (LLM) はコード生成において顕著な進歩を遂げているが、真のプログラミング能力は未解明のままである。
本稿では,3つの基本的な側面(編集解析,コード実装,テストケース生成)にまたがってLLMを体系的に評価するCode Triangleフレームワークを紹介する。
論文 参考訳(メタデータ) (2025-07-08T16:20:43Z) - Dynamic Knowledge Exchange and Dual-diversity Review: Concisely Unleashing the Potential of a Multi-Agent Research Team [53.38438460574943]
IDVSCIは、大規模言語モデル(LLM)上に構築されたマルチエージェントフレームワークである。
動的知識交換機構とデュアルダイバーシティ・レビュー・パラダイムという2つの重要なイノベーションが組み込まれている。
結果は、IDVSCIが2つのデータセットで常に最高のパフォーマンスを達成していることを示している。
論文 参考訳(メタデータ) (2025-06-23T07:12:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。