Fugu-MT 論文翻訳(概要): PRISE: Learning Temporal Action Abstractions as a Sequence Compression Problem

論文の概要: PRISE: Learning Temporal Action Abstractions as a Sequence Compression Problem

arxiv url: http://arxiv.org/abs/2402.10450v1
Date: Fri, 16 Feb 2024 04:55:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-19 17:44:34.999402
Title: PRISE: Learning Temporal Action Abstractions as a Sequence Compression Problem
Title（参考訳）: prise: シーケンス圧縮問題としての時間行動抽象化の学習
Authors: Ruijie Zheng, Ching-An Cheng, Hal Daum\'e III, Furong Huang, Andrey Kolobov
Abstract要約: 時間的行動抽象化は、信念状態表現とともに、シーケンシャルな意思決定のための強力な知識共有メカニズムである。本稿では,時間的動作の抽象化をシーケンス圧縮問題として扱う新しい視点を提案する。本稿では,連続的なアクション量子化とバイトペア符号化を組み合わせて,強力なアクション抽象化を学習するアプローチを提案する。
参考スコア（独自算出の注目度）: 42.48407749973668
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Temporal action abstractions, along with belief state representations, are a powerful knowledge sharing mechanism for sequential decision making. In this work, we propose a novel view that treats inducing temporal action abstractions as a sequence compression problem. To do so, we bring a subtle but critical component of LLM training pipelines -- input tokenization via byte pair encoding (BPE) -- to the seemingly distant task of learning skills of variable time span in continuous control domains. We introduce an approach called Primitive Sequence Encoding (PRISE) that combines continuous action quantization with BPE to learn powerful action abstractions. We empirically show that high-level skills discovered by PRISE from a multitask set of robotic manipulation demonstrations significantly boost the performance of both multitask imitation learning as well as few-shot imitation learning on unseen tasks. Our code will be released at https://github.com/FrankZheng2022/PRISE.
Abstract（参考訳）: 時間的行動抽象化は、信念状態表現とともに、シーケンシャルな意思決定のための強力な知識共有メカニズムである。本研究では,時間的動作の抽象化をシーケンス圧縮問題として扱う新しい視点を提案する。そのため、連続制御ドメインに分散した可変時間の学習スキルのように見えるタスクに、LLMトレーニングパイプラインの微妙ながら重要なコンポーネント -- バイトペアエンコーディング(BPE)による入力トークン化 -- を導入しています。 PRISE(Primitive Sequence Encoding)と呼ばれる手法を導入し、連続的なアクション量子化とBPEを組み合わせて強力なアクション抽象化を学習する。 PRISEがマルチタスクのロボット操作デモから発見したハイレベルスキルは、マルチタスクの模倣学習と、目に見えないタスクにおける数発の模倣学習の両方のパフォーマンスを大幅に向上させる。私たちのコードはhttps://github.com/FrankZheng2022/PRISEでリリースされます。

関連論文リスト

Reinforcement Learning with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する新しいRLアルゴリズムを提案する。提案アルゴリズムは,現在および将来の一連の行動の実行結果を学習するために値関数を明示的に訓練することにより,ノイズのある軌道から有用な値関数を学習することができる。
論文参考訳（メタデータ） (2024-11-19T01:23:52Z)
Bidirectional Decoding: Improving Action Chunking via Closed-Loop Resampling [51.38330727868982]
双方向デコーディング(BID)は、クローズドループ操作で動作チャンキングをブリッジするテスト時間推論アルゴリズムである。 BIDは、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させることを示す。
論文参考訳（メタデータ） (2024-08-30T15:39:34Z)
Less is more: Summarizing Patch Tokens for efficient Multi-Label Class-Incremental Learning [38.36863497458095]
我々は, pAtch tokeN Embeddings (MULTI-LANE) を要約したクラス増分学習手法を提案する。提案手法は, pAtch tokeN Embeddings (MULTI-LANE) を要約したマルチラベルクラスインクリメンタルラーニングであり, 高速な推論を実現するとともに, MLCILにおける非絡合タスク固有表現の学習を可能にする。
論文参考訳（メタデータ） (2024-05-24T15:18:27Z)
Premier-TACO is a Few-Shot Policy Learner: Pretraining Multitask Representation via Temporal Action-Driven Contrastive Loss [61.355272240758]
Premier-TACOはマルチタスクの特徴表現学習手法である。シーケンシャルな意思決定タスクにおいて、数ショットのポリシー学習効率を改善するように設計されている。
論文参考訳（メタデータ） (2024-02-09T05:04:40Z)
Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文参考訳（メタデータ） (2023-10-14T22:24:58Z)
Iterative Forward Tuning Boosts In-Context Learning in Language Models [88.25013390669845]
本研究では,大規模言語モデル(LLM)における文脈内学習を促進する新しい2段階フレームワークを提案する。具体的には、当社のフレームワークでは、ICLプロセスをDeep-ThinkingとTest Stageの2つの別々のステージに分類しています。ディープシンキング段階にはユニークな注意機構、すなわち反復的な注意強化機構が組み込まれており、複数の情報の蓄積を可能にしている。
論文参考訳（メタデータ） (2023-05-22T13:18:17Z)
Discrete State-Action Abstraction via the Successor Representation [3.453310639983932]
抽象化(Abstraction)は、エージェントに潜伏空間の遷移に固有の報酬を与えるアプローチである。私たちのアプローチは、基盤となる環境の離散的な抽象化を自動的に学習する最初のものです。提案アルゴリズムであるDSAA(Disdisrete State-Action Abstraction)は,これらのオプションのトレーニングと,それを用いて環境のより効率的な探索を行う。
論文参考訳（メタデータ） (2022-06-07T17:37:30Z)
Learning Sensorimotor Primitives of Sequential Manipulation Tasks from Visual Demonstrations [13.864448233719598]
本稿では,低レベルポリシーと高レベルポリシーを同時に学習するニューラルネットワークベースの新しいフレームワークについて述べる。提案手法の重要な特徴は、これらのポリシーがタスクデモの生のビデオから直接学習されることである。ロボットアームを用いた物体操作タスクの実証実験の結果,提案するネットワークは実際の視覚的な実演から効率よく学習し,タスクを実行することができることがわかった。
論文参考訳（メタデータ） (2022-03-08T01:36:48Z)
Augmenting Reinforcement Learning with Behavior Primitives for Diverse Manipulation Tasks [17.13584584844048]
本研究では,MAnipulation Primitive-augmented reinforcement LEarning (MAPLE)を導入した。我々は、プリミティブを巻き込み、それらの実行を入力パラメータでインスタンス化する階層的なポリシーを開発する。我々は、MAPLEが、シミュレーション操作タスクのスイートにおいて、ベースラインアプローチをかなりのマージンで上回ることを示す。
論文参考訳（メタデータ） (2021-10-07T17:44:33Z)
Augmenting Policy Learning with Routines Discovered from a Demonstration [86.9307760606403]
日常的な政策学習(RAPL)を提案する。 RAPLは1つのデモから原始的なアクションからなるルーチンを発見する。 RAPLが最先端の模倣学習方法SQILと強化学習方法A2Cを改善することを示した。
論文参考訳（メタデータ） (2020-12-23T03:15:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。