論文の概要: Identifying Selections for Unsupervised Subtask Discovery
- arxiv url: http://arxiv.org/abs/2410.21616v1
- Date: Mon, 28 Oct 2024 23:47:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:41:22.862659
- Title: Identifying Selections for Unsupervised Subtask Discovery
- Title(参考訳): 教師なしサブタスク発見のための選択の特定
- Authors: Yiwen Qiu, Yujia Zheng, Kun Zhang,
- Abstract要約: 我々は、データ中の選択変数の存在を識別し、検証する理論と実験を提供する。
これらの選択はサブタスクとガイドポリシーを示すサブゴールとして機能する。
このアイデアを踏まえて、これらのサブゴールを学習し、意味のある振る舞いパターンをサブタスクとして抽出するシーケンシャルな非負行列分解法(seq-NMF)を開発した。
- 参考スコア(独自算出の注目度): 12.22188797558089
- License:
- Abstract: When solving long-horizon tasks, it is intriguing to decompose the high-level task into subtasks. Decomposing experiences into reusable subtasks can improve data efficiency, accelerate policy generalization, and in general provide promising solutions to multi-task reinforcement learning and imitation learning problems. However, the concept of subtasks is not sufficiently understood and modeled yet, and existing works often overlook the true structure of the data generation process: subtasks are the results of a $\textit{selection}$ mechanism on actions, rather than possible underlying confounders or intermediates. Specifically, we provide a theory to identify, and experiments to verify the existence of selection variables in such data. These selections serve as subgoals that indicate subtasks and guide policy. In light of this idea, we develop a sequential non-negative matrix factorization (seq- NMF) method to learn these subgoals and extract meaningful behavior patterns as subtasks. Our empirical results on a challenging Kitchen environment demonstrate that the learned subtasks effectively enhance the generalization to new tasks in multi-task imitation learning scenarios. The codes are provided at https://anonymous.4open.science/r/Identifying\_Selections\_for\_Unsupervised\_Subtask\_Discovery/REA DME.md.
- Abstract(参考訳): 長期タスクを解く際には、ハイレベルタスクをサブタスクに分解することに興味がある。
再利用可能なサブタスクに経験を分解することは、データの効率を改善し、ポリシーの一般化を加速し、一般にマルチタスク強化学習と模倣学習問題に対する有望な解決策を提供する。
しかし、サブタスクの概念はまだ十分に理解されておらず、モデル化されておらず、既存の研究はしばしばデータ生成プロセスの真の構造を見落としている: サブタスクは、基礎となる共同設立者や中間者ではなく、アクションに対する$\textit{selection}$のメカニズムの結果である。
具体的には、そのようなデータにおける選択変数の存在を識別し、検証するための理論と実験を提供する。
これらの選択はサブタスクとガイドポリシーを示すサブゴールとして機能する。
このアイデアを踏まえて、これらのサブゴールを学習し、意味のある振る舞いパターンをサブタスクとして抽出するシーケンシャルな非負行列分解法(seq-NMF)を開発した。
学習したサブタスクがマルチタスク模倣学習シナリオにおける新しいタスクの一般化を効果的に促進することを示す。
コードはhttps://anonymous.4open.science/r/Identifying\_Selections\_for\_Unsupervised\_Subtask\_Discovery/REA DME.mdで提供されている。
関連論文リスト
- SMAUG: A Sliding Multidimensional Task Window-Based MARL Framework for
Adaptive Real-Time Subtask Recognition [11.236363226878975]
サブタスクベースのマルチエージェント強化学習(MARL)手法により、エージェントは異なるサブタスクに対処する方法を学ぶことができる。
textbfSliding textbfMultidimensional ttextbfAsk window based mtextbfUti-agent reinforcement learnintextbfG framework (SMAUG) を提案する。
StarCraft IIの実験では、SMAUGはすべてのベースラインと比較してパフォーマンス上の優位性を示すだけでなく、より顕著で迅速な報酬の上昇を示す。
論文 参考訳(メタデータ) (2024-03-04T08:04:41Z) - Active Instruction Tuning: Improving Cross-Task Generalization by
Training on Prompt Sensitive Tasks [101.40633115037983]
インストラクションチューニング(IT)は,大規模言語モデル(LLM)を命令付き多種多様なタスクで訓練することにより,印象的なゼロショット一般化を実現する。
ITモデルの性能と一般化性を改善するために、新しいタスクをどのように選択するかは、未解決の問題である。
本稿では,情報的タスクを識別する新しいフレームワークである即時不確実性に基づくアクティブな指導チューニングを提案し,選択したタスク上でモデルをアクティブにチューニングする。
論文 参考訳(メタデータ) (2023-11-01T04:40:05Z) - Identification of Negative Transfers in Multitask Learning Using
Surrogate Models [29.882265735630046]
マルチタスク学習は、複数の関連するソースタスクで強化することで、低リソースのターゲットタスクのトレーニングに広く使用されている。
マルチタスク学習における重要な問題は、ターゲットタスクに利益をもたらすソースタスクのサブセットを特定することである。
本稿では,サロゲートモデルを用いてこの問題に対処する効率的な手法を提案する。
論文 参考訳(メタデータ) (2023-03-25T23:16:11Z) - Task Compass: Scaling Multi-task Pre-training with Task Prefix [122.49242976184617]
既存の研究では、大規模教師付きタスクによるマルチタスク学習がタスク間の負の効果に悩まされていることが示されている。
タスク間の関係を探索するために,タスクプレフィックスガイド付きマルチタスク事前学習フレームワークを提案する。
我々のモデルは、幅広いタスクの強力な基盤バックボーンとして機能するだけでなく、タスク関係を分析するための探索ツールとしても実現可能である。
論文 参考訳(メタデータ) (2022-10-12T15:02:04Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - LDSA: Learning Dynamic Subtask Assignment in Cooperative Multi-Agent
Reinforcement Learning [122.47938710284784]
協調型MARLにおける動的サブタスク代入(LDSA)を学習するための新しいフレームワークを提案する。
エージェントを異なるサブタスクに合理的に割り当てるために,能力に基づくサブタスク選択戦略を提案する。
LDSAは、より優れたコラボレーションのために、合理的で効果的なサブタスクの割り当てを学習していることを示す。
論文 参考訳(メタデータ) (2022-05-05T10:46:16Z) - Learning Task Decomposition with Ordered Memory Policy Network [73.3813423684999]
OMPN(Ordered Memory Policy Network)を提案し、デモから学習することでサブタスク階層を発見する。
ompnは部分的に観測可能な環境に適用でき、高いタスク分解性能を達成できる。
私たちの視覚化は、サブタスク階層がモデルに出現できることを確認します。
論文 参考訳(メタデータ) (2021-03-19T18:13:35Z) - Hierarchical Reinforcement Learning as a Model of Human Task
Interleaving [60.95424607008241]
我々は、強化学習によって駆動される監督制御の階層モデルを開発する。
このモデルは、タスクインターリービングの既知の経験的効果を再現する。
その結果、階層的RLがタスクインターリービングのもっともらしいモデルとして支持された。
論文 参考訳(メタデータ) (2020-01-04T17:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。