論文の概要: PRISE: Learning Temporal Action Abstractions as a Sequence Compression
Problem
- arxiv url: http://arxiv.org/abs/2402.10450v1
- Date: Fri, 16 Feb 2024 04:55:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 17:44:34.999402
- Title: PRISE: Learning Temporal Action Abstractions as a Sequence Compression
Problem
- Title(参考訳): prise: シーケンス圧縮問題としての時間行動抽象化の学習
- Authors: Ruijie Zheng, Ching-An Cheng, Hal Daum\'e III, Furong Huang, Andrey
Kolobov
- Abstract要約: 時間的行動抽象化は、信念状態表現とともに、シーケンシャルな意思決定のための強力な知識共有メカニズムである。
本稿では,時間的動作の抽象化をシーケンス圧縮問題として扱う新しい視点を提案する。
本稿では,連続的なアクション量子化とバイトペア符号化を組み合わせて,強力なアクション抽象化を学習するアプローチを提案する。
- 参考スコア(独自算出の注目度): 42.48407749973668
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal action abstractions, along with belief state representations, are a
powerful knowledge sharing mechanism for sequential decision making. In this
work, we propose a novel view that treats inducing temporal action abstractions
as a sequence compression problem. To do so, we bring a subtle but critical
component of LLM training pipelines -- input tokenization via byte pair
encoding (BPE) -- to the seemingly distant task of learning skills of variable
time span in continuous control domains. We introduce an approach called
Primitive Sequence Encoding (PRISE) that combines continuous action
quantization with BPE to learn powerful action abstractions. We empirically
show that high-level skills discovered by PRISE from a multitask set of robotic
manipulation demonstrations significantly boost the performance of both
multitask imitation learning as well as few-shot imitation learning on unseen
tasks. Our code will be released at https://github.com/FrankZheng2022/PRISE.
- Abstract(参考訳): 時間的行動抽象化は、信念状態表現とともに、シーケンシャルな意思決定のための強力な知識共有メカニズムである。
本研究では,時間的動作の抽象化をシーケンス圧縮問題として扱う新しい視点を提案する。
そのため、連続制御ドメインに分散した可変時間の学習スキルのように見えるタスクに、LLMトレーニングパイプラインの微妙ながら重要なコンポーネント -- バイトペアエンコーディング(BPE)による入力トークン化 -- を導入しています。
PRISE(Primitive Sequence Encoding)と呼ばれる手法を導入し、連続的なアクション量子化とBPEを組み合わせて強力なアクション抽象化を学習する。
PRISEがマルチタスクのロボット操作デモから発見したハイレベルスキルは、マルチタスクの模倣学習と、目に見えないタスクにおける数発の模倣学習の両方のパフォーマンスを大幅に向上させる。
私たちのコードはhttps://github.com/FrankZheng2022/PRISEでリリースされます。
関連論文リスト
- Reinforcement Learning with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する新しいRLアルゴリズムを提案する。
提案アルゴリズムは,現在および将来の一連の行動の実行結果を学習するために値関数を明示的に訓練することにより,ノイズのある軌道から有用な値関数を学習することができる。
論文 参考訳(メタデータ) (2024-11-19T01:23:52Z) - Bidirectional Decoding: Improving Action Chunking via Closed-Loop Resampling [51.38330727868982]
双方向デコーディング(BID)は、クローズドループ操作で動作チャンキングをブリッジするテスト時間推論アルゴリズムである。
BIDは、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させることを示す。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - Less is more: Summarizing Patch Tokens for efficient Multi-Label Class-Incremental Learning [38.36863497458095]
我々は, pAtch tokeN Embeddings (MULTI-LANE) を要約したクラス増分学習手法を提案する。
提案手法は, pAtch tokeN Embeddings (MULTI-LANE) を要約したマルチラベルクラスインクリメンタルラーニングであり, 高速な推論を実現するとともに, MLCILにおける非絡合タスク固有表現の学習を可能にする。
論文 参考訳(メタデータ) (2024-05-24T15:18:27Z) - Premier-TACO is a Few-Shot Policy Learner: Pretraining Multitask Representation via Temporal Action-Driven Contrastive Loss [61.355272240758]
Premier-TACOはマルチタスクの特徴表現学習手法である。
シーケンシャルな意思決定タスクにおいて、数ショットのポリシー学習効率を改善するように設計されている。
論文 参考訳(メタデータ) (2024-02-09T05:04:40Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。
このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。
マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z) - Discrete State-Action Abstraction via the Successor Representation [3.453310639983932]
抽象化(Abstraction)は、エージェントに潜伏空間の遷移に固有の報酬を与えるアプローチである。
私たちのアプローチは、基盤となる環境の離散的な抽象化を自動的に学習する最初のものです。
提案アルゴリズムであるDSAA(Disdisrete State-Action Abstraction)は,これらのオプションのトレーニングと,それを用いて環境のより効率的な探索を行う。
論文 参考訳(メタデータ) (2022-06-07T17:37:30Z) - Augmenting Reinforcement Learning with Behavior Primitives for Diverse
Manipulation Tasks [17.13584584844048]
本研究では,MAnipulation Primitive-augmented reinforcement LEarning (MAPLE)を導入した。
我々は、プリミティブを巻き込み、それらの実行を入力パラメータでインスタンス化する階層的なポリシーを開発する。
我々は、MAPLEが、シミュレーション操作タスクのスイートにおいて、ベースラインアプローチをかなりのマージンで上回ることを示す。
論文 参考訳(メタデータ) (2021-10-07T17:44:33Z) - Augmenting Policy Learning with Routines Discovered from a Demonstration [86.9307760606403]
日常的な政策学習(RAPL)を提案する。
RAPLは1つのデモから原始的なアクションからなるルーチンを発見する。
RAPLが最先端の模倣学習方法SQILと強化学習方法A2Cを改善することを示した。
論文 参考訳(メタデータ) (2020-12-23T03:15:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。