論文の概要: Reward Shaping and Action Masking for Compositional Tasks using Behavior Trees and LLMs
- arxiv url: http://arxiv.org/abs/2605.05795v1
- Date: Thu, 07 May 2026 07:33:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.59611
- Title: Reward Shaping and Action Masking for Compositional Tasks using Behavior Trees and LLMs
- Title(参考訳): 行動木とLLMを用いた構成課題に対する逆整形とアクションマスキング
- Authors: Nicholas Potteiger, Ankita Samaddar, Taylor T. Johnson, Xenofon Koutsoukos,
- Abstract要約: 強化学習は、エージェントポリシーを最適化してサブタスクを完了するために使用することができる。
最近の研究は、報酬形成とアクションマスキングを自動化するために、大きな言語モデル(LLM)を使用している。
マスク報酬行動木(MRBT, masking reward behavior tree)は,反応型およびモジュラー型報酬およびアクションマスク機能として使用されるシンボル構造である。
- 参考スコア(独自算出の注目度): 3.285378336473673
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Decomposing complex tasks into a sequence of simpler subtasks can improve learning efficiency for an autonomous agent. Reinforcement learning (RL) can be used to optimize agent policies to complete subtasks, but requires well-defined subtask rewards and benefits from action masking. Recent work uses large language models (LLMs) to automate reward shaping and action masking, however none of them fully address reactivity to subtask failure and modularity to varying objects for compositional tasks. To overcome these challenges, we develop masking reward behavior tree (MRBT), a symbolic structure used as a reactive and modular reward and action mask function. We design an MRBT template and derive logical specifications to construct and verify MRBTs for a sequence of object-interaction subtasks. Further, we develop an automated pipeline that uses an LLM to generate MRBTs robust to varying task objects, an SMT-solver to verify correctness of specifications, and a neurosymbolic RL loop to train agents on compositional tasks. Experiments demonstrate successful generation and refinement of five MRBTs, consistently improving training efficiency and task success rates over baselines and MRBTs without action masking. We further highlight three advantages of MRBTs: transferability, modularity, and verifiability.
- Abstract(参考訳): 複雑なタスクを単純なサブタスクのシーケンスに分解することで、自律エージェントの学習効率を向上させることができる。
強化学習(Reinforcement Learning, RL)は、エージェントポリシーを最適化してサブタスクを完成させるが、適切に定義されたサブタスクの報酬とアクションマスキングの恩恵を必要とする。
最近の研究では、報酬のシェーピングとアクションマスキングを自動化するために、大きな言語モデル(LLM)を使用しているが、いずれもサブタスクの失敗に対する反応性と、さまざまなオブジェクトに対する合成タスクに対するモジュラリティに完全に対処するものではない。
これらの課題を克服するために,反応型およびモジュール型報酬およびアクションマスク機能として使用されるシンボル構造であるMRBT(Masking reward Behavior Tree)を開発した。
我々はMRBTテンプレートを設計し、オブジェクト-相互作用サブタスクのシーケンスに対してMRBTを構築し検証するための論理仕様を導出する。
さらに,LLMを用いたMRBTを多種多様なタスクオブジェクトに対して堅牢に生成する自動パイプライン,仕様の正しさを検証するSMTソルバ,構成タスクのエージェントを訓練するニューロシンボリックRLループを開発する。
実験では、5つのMRBTの生成と改良が成功し、ベースラインやMRBTよりもトレーニング効率とタスク成功率を継続的に改善した。
さらに、MRBTの3つの利点として、転送性、モジュール性、検証性を挙げる。
関連論文リスト
- Efficient Knowledge Transfer in Multi-Task Learning through Task-Adaptive Low-Rank Representation [11.955971931186006]
事前訓練された言語モデルは、現実世界のアプリケーションでトレーニング中に見つからない新しいタスクに苦しむ。
本稿では,タスク適応型低ランク表現(TA-LoRA)を提案する。
16のタスクの実験では、TA-LoRAがフルデータおよび少数ショット設定で最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-04-20T06:33:19Z) - Task Tokens: A Flexible Approach to Adapting Behavior Foundation Models [45.12916211850169]
行動基盤モデル(BFM)は、ヒューマノイドエージェントのマルチモーダル、ヒューマンライクな制御を可能にする。
タスクトークン(Task Tokens)は、BFMを柔軟性を維持しつつ、特定のタスクに効果的に調整する方法である。
タスクトークンは,その一般化能力を維持しつつ,特定の制御タスクにBFMを適用する上で有望なアプローチであることを示す。
論文 参考訳(メタデータ) (2025-03-28T21:28:13Z) - Layer-Aware Task Arithmetic: Disentangling Task-Specific and Instruction-Following Knowledge [12.367471198090655]
Task Arithmetic (TA)は、微調整から派生したタスクベクトルを組み合わせることで、マルチタスク学習とタスク忘れを可能にするが、一般的な指示追従行動からタスク固有の知識を分離するのに苦労する。
本稿では,命令フォローやタスク固有のコンポーネントとのアライメントに基づいて,階層固有の重みをタスクベクトルに割り当てる新しい手法であるLayer-Aware Task Arithmetic (LATA)を提案する。
論文 参考訳(メタデータ) (2025-02-27T15:22:14Z) - Guiding Multi-agent Multi-task Reinforcement Learning by a Hierarchical Framework with Logical Reward Shaping [16.5526277899717]
本研究の目的は,論理報酬形成を伴う多エージェント協調アルゴリズムを設計することである。
Minecraftのような環境下で様々な種類のタスクで実験が行われてきた。
論文 参考訳(メタデータ) (2024-11-02T09:03:23Z) - Supervised Fine-Tuning Achieve Rapid Task Adaption Via Alternating Attention Head Activation Patterns [47.57912649802414]
本研究では,SFTプロセスがLLMを下流タスクに適応させるプロセスについて,注意パターンの観点から検討する。
LLMは、SFT中にタスク固有のアテンションヘッドを選択的に活性化し、(2)複雑なタスクのアクティベーションパターンは基本的なタスクパターンの組み合わせであり、(3)少数のパラメータの変化は、少数のサンプル上でSFT後のアクティベーションパターンに大きな影響を与える。
論文 参考訳(メタデータ) (2024-09-24T07:34:50Z) - TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。
具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z) - CL-MAE: Curriculum-Learned Masked Autoencoders [49.24994655813455]
本稿では,自己指導型再建作業の複雑さを継続的に増大させるために,マスキング戦略を更新するカリキュラム学習手法を提案する。
我々は、ImageNet上でCL-MAE(Curriculum-Learned Masked Autoencoder)をトレーニングし、MAEよりも優れた表現学習能力を示すことを示す。
論文 参考訳(メタデータ) (2023-08-31T09:13:30Z) - Plan, Eliminate, and Track -- Language Models are Good Teachers for
Embodied Agents [99.17668730578586]
事前訓練された大言語モデル(LLM)は、世界に関する手続き的な知識をキャプチャする。
Plan, Eliminate, and Track (PET)フレームワークはタスク記述をハイレベルなサブタスクのリストに変換する。
PETフレームワークは、人間の目標仕様への一般化のために、SOTAよりも15%改善されている。
論文 参考訳(メタデータ) (2023-05-03T20:11:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。