論文の概要: SCALAR: Learning and Composing Skills through LLM Guided Symbolic Planning and Deep RL Grounding
- arxiv url: http://arxiv.org/abs/2603.09036v1
- Date: Tue, 10 Mar 2026 00:11:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:23.907102
- Title: SCALAR: Learning and Composing Skills through LLM Guided Symbolic Planning and Deep RL Grounding
- Title(参考訳): SCALAR: LLMガイドによるシンボリックプランニングと深部RLグラウンディングによる学習と構成スキル
- Authors: Renos Zabounidis, Yue Wu, Simon Stepputtis, Woojun Kim, Yuanzhi Li, Tom Mitchell, Katia Sycara,
- Abstract要約: LMベースのエージェントは、ハイレベルなアクションAPIを与えられた時に優れるが、低レベルな制御に言語を根ざすのに苦労する。
学習スキルライブラリを通じて、LLM計画とRLを結合する双方向フレームワークSCALARを紹介する。
Craftaxでは、SCALARは88.2%のダイヤモンドコレクションを達成し、最高のベースラインよりも1.9倍改善し、以前の手法が完全に失敗する時間の9.1%に到達した。
- 参考スコア(独自算出の注目度): 47.41195092283274
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LM-based agents excel when given high-level action APIs but struggle to ground language into low-level control. Prior work has LLMs generate skills or reward functions for RL, but these one-shot approaches lack feedback to correct specification errors. We introduce SCALAR, a bidirectional framework coupling LLM planning with RL through a learned skill library. The LLM proposes skills with preconditions and effects; RL trains policies for each skill and feeds back execution results to iteratively refine specifications, improving robustness to initial errors. Pivotal Trajectory Analysis corrects LLM priors by analyzing RL trajectories; Frontier Checkpointing optionally saves environment states at skill boundaries to improve sample efficiency. On Craftax, SCALAR achieves 88.2% diamond collection, a 1.9x improvement over the best baseline, and reaches the Gnomish Mines 9.1% of the time where prior methods fail entirely.
- Abstract(参考訳): LMベースのエージェントは、ハイレベルなアクションAPIを与えられた時に優れるが、低レベルな制御に言語を根ざすのに苦労する。
以前の作業では、LLMはRLのスキルや報酬関数を生成するが、これらのワンショットアプローチには仕様エラーを修正するためのフィードバックがない。
学習スキルライブラリを通じて、LLM計画とRLを結合する双方向フレームワークSCALARを紹介する。
LLは、各スキルに対するポリシーを訓練し、実行結果を反復的に仕様を洗練させ、初期エラーに対する堅牢性を向上させる。
Pivotal Trajectory Analysisは、RLトラジェクトリを分析してLCMの優先順位を補正する。
Craftaxでは、SCALARは88.2%のダイヤモンドコレクションを達成し、最高のベースラインよりも1.9倍改善し、以前の手法が完全に失敗する時間の9.1%に到達した。
関連論文リスト
- Just-In-Time Reinforcement Learning: Continual Learning in LLM Agents Without Gradient Updates [53.3717573880076]
JitRL(Just-In-Time Reinforcement Learning、ジャスト・イン・タイム強化学習)は、テスト時間ポリシーの最適化を可能にするトレーニング不要のフレームワークである。
JitRLは、経験の動的で非パラメトリックな記憶を維持し、関連する軌跡を取得して、オンザフライでのアクションの利点を推定する。
WebArenaとJerrichoの実験では、JitRLがトレーニング不要メソッドの間に新しい最先端技術を確立していることが示されている。
論文 参考訳(メタデータ) (2026-01-26T14:16:51Z) - Guiding Exploration in Reinforcement Learning Through LLM-Augmented Observations [0.0]
大規模言語モデル(LLM)は、手続き的知識とテキスト事前学習による推論能力を持っている。
拡張観測空間を通してLLM生成アクションレコメンデーションを提供するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-09T19:54:31Z) - Evolution Strategies at Scale: LLM Fine-Tuning Beyond Reinforcement Learning [16.095629872564874]
強化学習はおそらく最も顕著な微調整法である。
進化戦略(ES)はかつて、数百万のパラメータを持つモデルでRLに匹敵する性能を示した。
ESは数十億のパラメータを効率的に探索し、既存のRLファインチューニング手法より優れている。
論文 参考訳(メタデータ) (2025-09-29T07:19:34Z) - How Many Parameters Does Your Task Really Need? Task Specific Pruning with LLM-Sieve [2.33361323991006]
大きな言語モデル(LLM)は、リソース制約された設定において、狭いタスクのためにますますデプロイされる。
LLM-Sieveは,タスク性能の維持に必要な最小パラメータサブセットにLCMを適用可能なフレームワークである。
論文 参考訳(メタデータ) (2025-05-23T20:17:20Z) - Controlling Large Language Model with Latent Actions [27.0292050543406]
強化学習(Reinforcement Learning)を用いた下流タスクへの大規模言語モデルの適用は、効果的なアプローチであることが証明されている。
本稿では,LLMの制御性と探索性を高めるために,コンパクトな潜在動作空間を学習する。
我々は,遅延アクション空間を事前学習したLLMに統合するフレームワークである潜在アクションを用いた大規模言語モデル制御(CoLA)を提案する。
論文 参考訳(メタデータ) (2025-03-27T11:25:22Z) - VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。
本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。
我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。
実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:45:56Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。
LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。
機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。
LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文 参考訳(メタデータ) (2023-11-15T19:52:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。