論文の概要: SE-Bench: Benchmarking Self-Evolution with Knowledge Internalization
- arxiv url: http://arxiv.org/abs/2602.04811v1
- Date: Wed, 04 Feb 2026 17:58:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.668786
- Title: SE-Bench: Benchmarking Self-Evolution with Knowledge Internalization
- Title(参考訳): SE-Bench: 知識内部化による自己進化のベンチマーク
- Authors: Jiarui Yuan, Tailin Jin, Weize Chen, Zeyuan Liu, Zhiyuan Liu, Maosong Sun,
- Abstract要約: 我々は,NumPyライブラリとそのAPIドキュメントをランダムな識別子を持つ擬似ノーベルパッケージに難読化する診断環境であるSE-Benchを紹介する。
エージェントはこのパッケージを内部化するように訓練され、ドキュメントにアクセスせずに単純なコーディングタスクで評価される。
本研究は,(1)参考資料を用いた学習が保持を阻害するオープンブックパラドックス,(2)知識圧縮を重みに強制する「クローズドブックトレーニング」,(2)標準RLがPPOクリッピングと負の勾配によって新たな知識を完全に内部化するのに失敗するRLギャップ,(3)内部化,証明モデルのためのセルフプレイの実現可能性,の3つの知見を明らかにする。
- 参考スコア(独自算出の注目度): 52.635237306338574
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: True self-evolution requires agents to act as lifelong learners that internalize novel experiences to solve future problems. However, rigorously measuring this foundational capability is hindered by two obstacles: the entanglement of prior knowledge, where ``new'' knowledge may appear in pre-training data, and the entanglement of reasoning complexity, where failures may stem from problem difficulty rather than an inability to recall learned knowledge. We introduce SE-Bench, a diagnostic environment that obfuscates the NumPy library and its API doc into a pseudo-novel package with randomized identifiers. Agents are trained to internalize this package and evaluated on simple coding tasks without access to documentation, yielding a clean setting where tasks are trivial with the new API doc but impossible for base models without it. Our investigation reveals three insights: (1) the Open-Book Paradox, where training with reference documentation inhibits retention, requiring "Closed-Book Training" to force knowledge compression into weights; (2) the RL Gap, where standard RL fails to internalize new knowledge completely due to PPO clipping and negative gradients; and (3) the viability of Self-Play for internalization, proving models can learn from self-generated, noisy tasks when coupled with SFT, but not RL. Overall, SE-Bench establishes a rigorous diagnostic platform for self-evolution with knowledge internalization. Our code and dataset can be found at https://github.com/thunlp/SE-Bench.
- Abstract(参考訳): 真の自己進化は、エージェントが将来の問題を解決するために新しい経験を内在化する生涯学習者として振る舞う必要がある。
しかし、この基礎的能力の厳密な測定は、事前知識の絡み合い('new''知識が事前学習データに現れる場合)と、失敗が学習知識を思い出すことができない場合よりも問題困難に起因する場合の推論複雑性の絡み合い)の2つの障害によって妨げられる。
我々は,NumPyライブラリとそのAPIドキュメントをランダムな識別子を持つ擬似ノーベルパッケージに難読化する診断環境であるSE-Benchを紹介する。
エージェントは、このパッケージを内部化するように訓練され、ドキュメントにアクセスせずに単純なコーディングタスクで評価される。
本研究は,(1)参照文書を用いた学習が保持を阻害するオープンブックパラドックス,(2)知識圧縮を重みに強制する「クローズドブックトレーニング」,(2)標準RLがPPOクリッピングと負の勾配によって新たな知識を完全に内部化するのに失敗するRLギャップ,(3)内部化のためのセルフプレイの実現可能性,モデルの検証は,SFTと組み合わせて自己生成されたノイズの多いタスクから学ぶことができるが,RLではない,という3つの知見を明らかにする。
全体として、SE-Benchは知識内部化を伴う自己進化のための厳格な診断プラットフォームを確立している。
私たちのコードとデータセットはhttps://github.com/thunlp/SE-Bench.orgにある。
関連論文リスト
- Toward Training Superintelligent Software Agents through Self-Play SWE-RL [66.11447353341926]
セルフプレイSWE-RLは、超知能ソフトウェアエージェントのトレーニングパラダイムに向けた第一歩である。
当社のアプローチでは,ソースコードとインストール済みの依存関係を備えたサンドボックスリポジトリへのアクセスのみを必要としています。
我々の成果は、早い段階で、エージェントが現実世界のソフトウェアリポジトリから広範囲にわたる学習経験を自律的に収集する道のりを示唆している。
論文 参考訳(メタデータ) (2025-12-21T00:49:40Z) - AlphaOPT: Formulating Optimization Programs with Self-Improving LLM Experience Library [47.82769337589924]
AlphaOPTは最適化モデリングのための自己改善エクスペリエンスライブラリである。
合理性のない限られた実演から効率よく学習する。
モデルウェイトではなくライブラリを更新することで、コストのかかる再トレーニングなしに継続的に拡張する。
論文 参考訳(メタデータ) (2025-10-21T09:03:26Z) - RL Grokking Recipe: How Does RL Unlock and Transfer New Algorithms in LLMs? [92.4931695205957]
DELTA-Codeは、学習可能性と伝達可能性という2つの基本的な側面を探索するために設計された、合成符号問題ファミリーのベンチマークである。
実験の結果, ほぼゼロ報酬の期間が延長された後, RL訓練モデルが突然, ほぼ完全な精度に上昇した。
従来未解決であった問題ファミリの学習性を確保するため,深い報酬を伴うウォームアップ,経験リプレイ,カリキュラムトレーニング,ループ内検証などの重要なトレーニング項目を探索する。
論文 参考訳(メタデータ) (2025-09-25T11:20:56Z) - Prompting is not Enough: Exploring Knowledge Integration and Controllable Generation [89.65955788873532]
オープンドメイン質問応答(OpenQA)は自然言語処理(NLP)の基盤である。
我々は,知識統合と制御可能生成を探求し,OpenQAの性能向上を目的としたGenKIという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T08:18:33Z) - R1-Searcher++: Incentivizing the Dynamic Knowledge Acquisition of LLMs via Reinforcement Learning [83.256752220849]
大きな言語モデル(LLM)は強力だが、静的な知識によって幻覚を起こす傾向がある。
内部および外部の知識ソースを適応的に活用するLLMのトレーニングを目的としたフレームワークであるR1-Searcher++を紹介する。
実験の結果,R1-Searcher++は従来のRAG法や推論法より優れ,効率的な検索が可能であった。
論文 参考訳(メタデータ) (2025-05-22T17:58:26Z) - Know Or Not: a library for evaluating out-of-knowledge base robustness [0.0]
大規模言語モデル(LLM)のOOKB(out-of-knowledge base)ロバスト性を体系的に評価するための新しい手法を提案する。
我々は,オープンソースライブラリである knowornot に方法論を実装し,ユーザがOOKB の堅牢性のために独自の評価データとパイプラインを開発できるようにする。
論文 参考訳(メタデータ) (2025-05-19T03:17:41Z) - Improving Open-world Continual Learning under the Constraints of Scarce Labeled Data [19.168022702075774]
Openworld Continual Learning (OWCL)は、オープンサンプルによるシーケンシャルなタスクに適応し、忘れることを防ぐと同時に、知識を漸進的に学習する。
本稿では,(1)サンプル表現を付加的な知識で表現・強化するインスタンスワイドトークン拡張(ITA),(2)新しいタスクによるオープンな検出を支援するマージンベースのオープンバウンダリ(MOB),(3)未知を未知から未知に更新する知識を持つ適応的知識空間(AKS)の3つの重要なコンポーネントを統合する新しいOFCLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-28T11:39:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。