論文の概要: A Goal-Set Characterization of Task Composition in the Boolean Task Algebra
- arxiv url: http://arxiv.org/abs/2606.04053v1
- Date: Tue, 02 Jun 2026 09:33:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.271247
- Title: A Goal-Set Characterization of Task Composition in the Boolean Task Algebra
- Title(参考訳): ブールタスク代数におけるタスク構成のゴールセット評価
- Authors: Eduardo Terrés-Caballero, Herke van Hoof,
- Abstract要約: 最適拡張Q値関数の空間における崩壊を形式化する。
決定論的 MDP では、すべてのそのような関数は普遍的および空のタスクによって完全に決定される。
本稿では,ゴールセット上で論理演算を行うゴールセットベース合成手法を提案する。
- 参考スコア(独自算出の注目度): 11.652221710150824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Boolean Task Algebra (BTA) provides a principled framework for zero-shot task composition in reinforcement learning by equipping goal-reaching tasks with Boolean operations. We revisit its structural assumptions and formalize a collapse in the space of optimal extended Q-value functions: in deterministic MDPs, every such function is fully determined by the universal and empty tasks. This makes the logarithmic set of base tasks proposed in the original BTA formulation redundant. Building on this observation, we introduce a goal-set-based composition method that performs logical operations on goal sets and reconstructs composed value functions by selecting slices from the universal and empty value functions. This reduces learning costs for standard BTA and reduces composition time for both BTA and Skill Machines, while preserving policy performance. Experiments across tabular, visual, function-approximation, and continuous-control domains show that learning additional base tasks does not yield better performance. Finally, we study the stochastic setting and provide a counterexample showing that this collapse need not hold, that is, optimal composition may require accounting for exponentially many policies in the number of goals. Code is available at https://github.com/EduardoTerres/bta_paper.
- Abstract(参考訳): Boolean Task Algebra (BTA)は、Boolean操作にゴール取得タスクを組み込むことにより、強化学習におけるゼロショットタスク構成のための原則化されたフレームワークを提供する。
我々は、その構造的仮定を再検討し、最適拡張Q値関数の空間における崩壊を定式化する:決定論的 MDP において、そのような関数はすべて、普遍的かつ空のタスクによって完全に決定される。
これにより、元のBTAの定式化で提案された基本タスクの対数的集合は冗長となる。
本研究では,ゴールセット上で論理演算を行うゴールセット型合成法を導入し,共通値関数と空値関数からスライスを選択することで合成値関数を再構成する。
これにより、標準BTAの学習コストが削減され、BTAとスキルマシンの両方の合成時間も短縮され、ポリシー性能が保たれる。
表、視覚、関数近似、連続制御ドメインにわたる実験は、追加のベースタスクを学習してもパフォーマンスが向上しないことを示している。
最後に、確率的設定について検討し、この崩壊を抑える必要がなく、すなわち最適な構成では、ゴール数において指数関数的に多くのポリシーを考慮に入れる必要があることを示す反例を示す。
コードはhttps://github.com/EduardoTerres/bta_paper.comで入手できる。
関連論文リスト
- BOTS: A Unified Framework for Bayesian Online Task Selection in LLM Reinforcement Finetuning [82.925106913459]
強化微調整(Reinforcement Finetuning, RFT)は、大規模言語モデル(LLM)を人間の嗜好と整合させ、推論を強化するための重要な手法である。
RFT強化微調整におけるベイズオンラインタスク選択のための統合フレームワークBOTSを紹介する。
論文 参考訳(メタデータ) (2025-10-30T11:15:23Z) - Variational Task Vector Composition [53.476598858325985]
本稿では,構成係数を潜在変数とみなし,ベイズ推定フレームワークで推定する変動タスクベクトル合成を提案する。
タスクベクトルにおける構造的冗長性の観測に動機付けられ,空間性を促進するスパイク・アンド・スラブ前処理を導入する。
本研究では, 構成係数を不確実性と重要度の両方に基づいてフィルタすることにより, 制御可能な後部構造を構築するゲートサンプリング機構を開発した。
論文 参考訳(メタデータ) (2025-09-21T02:46:02Z) - Task Vector Bases: A Unified and Scalable Framework for Compressed Task Arithmetic [24.40854328492979]
本稿では,タスク演算の機能を維持しつつ,$T$タスクベクトルを$M T$ベースベクトルに圧縮するフレームワークであるTask Vector Basesを提案する。
各タスクベクトルを基底原子の構造的線形結合として表現することにより、より高度な算術演算だけでなく、加算や否定といった標準的な演算もサポートする。
論文 参考訳(メタデータ) (2025-02-03T03:18:26Z) - Binning as a Pretext Task: Improving Self-Supervised Learning in Tabular Domains [0.565395466029518]
そこで本研究では,古典的ビンニング手法に基づく新しいプレテキストタスクを提案する。
その考え方は単純で、元の値ではなく、binインデックス(順序またはクラス)を再構築する。
我々の実証調査では、ビンニングの利点がいくつか確認されている。
論文 参考訳(メタデータ) (2024-05-13T01:23:14Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Learning Rational Subgoals from Demonstrations and Instructions [71.86713748450363]
本稿では,新しい目標を達成するための効率的な長期計画を支援する有用なサブゴール学習フレームワークを提案する。
我々のフレームワークの中核は合理的なサブゴール(RSG)の集合であり、基本的には環境状態上の二項分類器である。
目標記述が与えられた場合、学習したサブゴールと派生した依存関係は、A*やRTといった既成の計画アルゴリズムを促進する。
論文 参考訳(メタデータ) (2023-03-09T18:39:22Z) - Goal Kernel Planning: Linearly-Solvable Non-Markovian Policies for Logical Tasks with Goal-Conditioned Options [54.40780660868349]
我々はLinearly-Solvable Goal Kernel Dynamic Programming (LS-GKDP)と呼ばれる合成フレームワークを導入する。
LS-GKDPは、Linearly-Solvable Markov Decision Process (LMDP)形式とOptions Framework of Reinforcement Learningを組み合わせたものである。
本稿では,目標カーネルを持つLMDPが,タスク接地によって定義された低次元部分空間におけるメタポリティシの効率的な最適化を実現する方法を示す。
論文 参考訳(メタデータ) (2020-07-06T05:13:20Z) - A Boolean Task Algebra for Reinforcement Learning [14.731788603429774]
タスクの論理的構成をブール代数として定式化する。
目標志向の値関数を学習することで,エージェントが新たなタスクを学習せずに解決できることが示される。
論文 参考訳(メタデータ) (2020-01-06T04:46:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。