論文の概要: GRASP: Gated Regression-Aware Skill Proposer for Self-Improving LLM Agents
- arxiv url: http://arxiv.org/abs/2605.29668v1
- Date: Thu, 28 May 2026 09:30:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.138995
- Title: GRASP: Gated Regression-Aware Skill Proposer for Self-Improving LLM Agents
- Title(参考訳): GRASP:自己改善LDMエージェントのためのGated Regression-Aware Skill Proposer
- Authors: Johannes Moll, Jean-Philippe Corbeil, Jiazhen Pan, Martin Hadamitzky, Daniel Rueckert, Lisa Adams, Keno Bressem,
- Abstract要約: GRASP(Gated Regression-Aware Skill Proposer)は、エージェントの改善を、境界付きスキルライブラリへの一連の編集として扱う。
臨床ベンチマークでは5つのベースモデルでGRASPを評価した。
- 参考スコア(独自算出の注目度): 17.26555663132631
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM agents acting in structured environments fail in operational rather than conversational ways, and reliability depends on procedural knowledge of the environment. Prior self-improvement methods accumulate natural-language guidance without checking that each new item preserves previously correct behavior, so a note that fixes one trajectory can silently regress another. We introduce GRASP (Gated Regression-Aware Skill Proposer), which treats agent improvement as a sequence of edits to a bounded skill library, admitting each candidate only if it produces a net improvement on a balanced held-out probe under a hard regression budget. We evaluate GRASP across five base models (gpt-oss-120b, DeepSeek V4 Flash, Gemini 3.1 Flash Lite, GPT-4.1, GPT-5.4) on two FHIR-based clinical benchmarks. On MedAgentBench, GRASP lifts gpt-oss-120b from 40.6% to 88.8%, exceeds the strongest of five self-improvement baselines by 21.0 points, and improves every other base model by 17.2 to 40.3 points. Ablations attribute the gain to comparative proposal generation, the acceptance gate, and the hard regression budget rather than to skill writing itself, which without validation is no better than using no skills. The mechanism generalizes beyond the clinical domain, improving agents on three of four non-clinical environments and remaining flat only where the action space is open-ended. Frozen libraries transfer across models, where skills from a stronger model improve weaker executors beyond what they learn for themselves while the reverse does not, an asymmetry that no ungated baseline reproduces.
- Abstract(参考訳): 構造化された環境に作用するLLMエージェントは、会話ではなく、動作中に失敗し、信頼性は環境の手続き的知識に依存する。
従来の自己改善手法では,各項目が事前に正しい動作を保っていることを確認することなく,自然言語によるガイダンスを蓄積する。
本稿では,エージェント改善を有界スキルライブラリの一連の編集として扱うGRASP(Gated Regression-Aware Skill Proposer)を紹介する。
我々は、FHIRベースの2つの臨床ベンチマークで、GRASPを5つのベースモデル(gpt-oss-120b、DeepSeek V4 Flash、Gemini 3.1 Flash Lite、GPT-4.1、GPT-5.4)で評価した。
MedAgentBenchでは、GRASPはgpt-oss-120bを40.6%から88.8%に引き上げ、5つの自己改善ベースラインを21.0ポイント上回り、他の全てのベースモデルを17.2から40.3ポイント改善している。
アブレーションは、スキル記述自体ではなく、比較提案の生成、受け入れゲート、ハードレグレッション予算による利益である。
このメカニズムは、臨床領域を超えて一般化され、4つの非臨床環境のうち3つのエージェントを改善し、アクション空間が開放された場所でのみ平坦に保たれる。
凍ったライブラリーはモデル間を移動し、より強いモデルから得られるスキルは、自分たちで学んだこと以上に弱い実行子を改善するが、逆のライブラリーは、非ゲートのベースラインが再現しない非対称性である。
関連論文リスト
- PACE: Two-Timescale Self-Evolution for Small Language Model Agents [7.324586777176562]
本研究では,凍結型小言語モデル (SLM) が資源制約下で有効な自己進化エージェントとして機能するかどうかを考察する。
PACE(Prompt And Control Logic Evolution)は,低リスクのプロンプト改善と高リスクの制御論理更新を協調する2段階のフレームワークである。
論文 参考訳(メタデータ) (2026-05-21T20:42:06Z) - FORGE: Self-Evolving Agent Memory With No Weight Updates via Population Broadcast [3.774094352572544]
FORGEは反射式内部ループをラップし、専用の反射エージェントが失敗した軌道を再利用可能な知識アーティファクトに変換する。
我々は,ネットワーク防御のPOMDPであるCybORG CAGE-2を,Bライン攻撃に対する30ステップの地平線上で評価した。
ゼロショットベースラインとリフレクションベースライン(分離シングルストリーム学習)の両方と比較して、FOGEはゼロショットよりも1.7-7.7$times$の平均評価リターンを改善する。
論文 参考訳(メタデータ) (2026-05-15T17:42:49Z) - REAL: Regression-Aware Reinforcement Learning for LLM-as-a-Judge [83.2858110368572]
回帰報酬を最適化するための原則的RLフレームワークである textbfREAL (underlineREgression-underlineAware Reinforcement underlineLThought) を提案する。
我々は,REALがレグレッション対応SFTベースラインと標準RL法の両方を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-03-17T21:19:08Z) - LLMs can Compress LLMs: Adaptive Pruning by Agents [0.0]
ポストトレーニングプルーニングは、性能を保ちながら計算コストを削減するための有望なアプローチとして現れている。
我々はエージェント誘導プルーニングを導入し、ファンデーションモデルが適応プルーニングエージェントとして機能する。
我々はQ3モデル(4Bおよび8Bパラメータ)の約45%の間隔で評価を行い、構造化プルーニングベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2026-01-14T18:45:36Z) - RefineBench: Evaluating Refinement Capability of Language Models via Checklists [71.02281792867531]
本研究は,2つの改良モード(ガイドリファインメントと自己リファインメント)を評価する。
ガイド付き改良では、プロプライエタリなLMと大きなオープンウェイトLMの両方が目標フィードバックを利用して、5ターン以内のほぼ完全なレベルへの応答を洗練できる。
これらの結果は、フロンティアLMは誤った反応を自己調整するためにブレークスルーを必要とすることを示唆している。
論文 参考訳(メタデータ) (2025-11-27T07:20:52Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback [59.078756231841574]
Critique-GRPOは、自然言語と数値フィードバックを統合して効果的なポリシー最適化を行うオンラインRLフレームワークである。
批判-GRPOは、教師付き学習とRLに基づく微調整法を8つの難解な数学、STEM、一般的な推論タスクで一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-06-03T17:39:02Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Aligner: Efficient Alignment by Learning to Correct [10.056049435141645]
モデルに依存しないプラグアンドプレイモジュールであるAlignerを導入し、好ましくない回答と好ましくない回答の補正残差を学習する。
トレーニングはワンオフで、さまざまなオープンソースおよびAPIベースのモデルに適用できるため、迅速なイテレーションに適している。
実験では、11の異なる言語モデルに同じAlignerモデルをデプロイすることで、パフォーマンスの向上を実証した。
論文 参考訳(メタデータ) (2024-02-04T09:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。