論文の概要: SCOPE: Language Models as One-Time Teacher for Hierarchical Planning in Text Environments
- arxiv url: http://arxiv.org/abs/2512.09897v1
- Date: Wed, 10 Dec 2025 18:26:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.634904
- Title: SCOPE: Language Models as One-Time Teacher for Hierarchical Planning in Text Environments
- Title(参考訳): SCOPE:テキスト環境における階層的計画のための一時期教師としての言語モデル
- Authors: Haoye Lu, Pavan Seshadri, Kaheer Suleman,
- Abstract要約: テキストベースの環境における長期計画は、オープンエンドアクションスペース、あいまいな観察、まばらなフィードバックによる重要な課題を示す。
近年の研究では、大規模言語モデル(LLM)が世界に関する豊富な意味知識をエンコードしていることが示唆されている。
既存のアプローチは、トレーニングや推論中にLLMを問い合わせることに大きく依存することが多く、計算コストが高く、効率的なデプロイが困難である。
LLM生成サブゴールを利用したワンショット階層型プランナーSCOPE(Subgoal-Conditioned Pretraining for Efficient Planning)を導入する。
- 参考スコア(独自算出の注目度): 4.375012768093524
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-term planning in complex, text-based environments presents significant challenges due to open-ended action spaces, ambiguous observations, and sparse feedback. Recent research suggests that large language models (LLMs) encode rich semantic knowledge about the world, which can be valuable for guiding agents in high-level reasoning and planning across both embodied and purely textual settings. However, existing approaches often depend heavily on querying LLMs during training and inference, making them computationally expensive and difficult to deploy efficiently. In addition, these methods typically employ a pretrained, unaltered LLM whose parameters remain fixed throughout training, providing no opportunity for adaptation to the target task. To address these limitations, we introduce SCOPE (Subgoal-COnditioned Pretraining for Efficient planning), a one-shot hierarchical planner that leverages LLM-generated subgoals only at initialization to pretrain a lightweight student model. Unlike prior approaches that distill LLM knowledge by repeatedly prompting the model to adaptively generate subgoals during training, our method derives subgoals directly from example trajectories. This design removes the need for repeated LLM queries, significantly improving efficiency, though at the cost of reduced explainability and potentially suboptimal subgoals. Despite their suboptimality, our results on the TextCraft environment show that LLM-generated subgoals can still serve as a strong starting point for hierarchical goal decomposition in text-based planning tasks. Compared to the LLM-based hierarchical agent ADaPT (Prasad et al., 2024), which achieves a 0.52 success rate, our method reaches 0.56 and reduces inference time from 164.4 seconds to just 3.0 seconds.
- Abstract(参考訳): 複雑なテキストベースの環境における長期計画は、オープンエンドアクションスペース、あいまいな観察、まばらなフィードバックによる重要な課題を示す。
近年の研究では、大規模言語モデル(LLM)が世界に関する豊富な意味知識をエンコードしていることが示唆されている。
しかし、既存のアプローチはトレーニングや推論中にLLMを問い合わせることに大きく依存することが多く、計算コストが高く、効率的なデプロイが困難である。
加えて、これらの手法は通常、訓練中にパラメータが固定された未訓練のLLMを使用し、目標タスクに適応する機会を与えない。
これらの制約に対処するため,LLM生成したサブゴールを初期化時にのみ活用し,軽量な学生モデルを事前学習するワンショット階層型プランナーであるSCOPE(Subgoal-Conditioned Pretraining for Efficient Planning)を導入する。
トレーニング中のサブゴールを適応的に生成するようモデルに繰り返し促すことでLCMの知識を蒸留する従来の手法とは異なり、本手法はサンプル軌道から直接サブゴールを導出する。
この設計では、繰り返しLLMクエリの必要性を排除し、説明可能性の低減と潜在的に最適以下のサブゴールを犠牲にしながら、効率を大幅に改善する。
その準最適性にもかかわらず、TextCraft環境における我々の結果は、LLM生成したサブゴールが、テキストベースの計画タスクにおいて階層的な目標分解の強力な出発点として機能することを示します。
LLMベースの階層型エージェントであるADaPT (Prasad et al , 2024) が0.52の成功率を達成したのに対し、本手法は0.56に達し、推論時間を164.4秒から3.0秒に短縮する。
関連論文リスト
- Learning to Reason and Navigate: Parameter Efficient Action Planning with Large Language Models [63.765846080050906]
本稿では,大規模言語モデル (PEAP-LLM) を用いたパラメータ効率の高いアクションプランナを提案する。
実験により,提案したREVERIEモデルが従来の最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-12T12:38:20Z) - Option Discovery Using LLM-guided Semantic Hierarchical Reinforcement Learning [16.654435148168172]
大規模言語モデル(LLM)は、推論と意思決定において顕著な将来性を示している。
サンプル効率,一般化,マルチタスク適応性を向上させるため,LDSCと呼ばれるLCM誘導階層型RLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-24T15:49:56Z) - From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文 参考訳(メタデータ) (2024-05-30T09:42:54Z) - Sub-goal Distillation: A Method to Improve Small Language Agents [21.815417165548187]
大規模言語モデル(LLM)は対話型タスクにおけるエージェントとして大きな可能性を証明している。
数十億のパラメータを持つLLMの性能を、はるかに小さな言語モデルに転送する手法を提案する。
困難かつマルチタスクな対話型テキスト環境であるScienceWorldでは,基本動作のみに基づく標準的な模倣学習を16.7%超えている。
論文 参考訳(メタデータ) (2024-05-04T20:34:06Z) - LgTS: Dynamic Task Sampling using LLM-generated sub-goals for
Reinforcement Learning Agents [10.936460061405157]
LgTS (LLM-Guided Teacher-Student Learning) を提案する。
提案手法では,提案したサブゴールを達成するための事前訓練されたポリシーも必要としない。
論文 参考訳(メタデータ) (2023-10-14T00:07:03Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。