Fugu-MT 論文翻訳(概要): Sparse Diffusion Policy: A Sparse, Reusable, and Flexible Policy for Robot Learning

論文の概要: Sparse Diffusion Policy: A Sparse, Reusable, and Flexible Policy for Robot Learning

arxiv url: http://arxiv.org/abs/2407.01531v1
Date: Mon, 1 Jul 2024 17:59:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-03 20:11:58.680894
Title: Sparse Diffusion Policy: A Sparse, Reusable, and Flexible Policy for Robot Learning
Title（参考訳）: スパース拡散政策 : ロボット学習のためのスパース・リユースブル・フレキシブル・ポリシー
Authors: Yixiao Wang, Yifei Zhang, Mingxiao Huo, Ran Tian, Xiang Zhang, Yichen Xie, Chenfeng Xu, Pengliang Ji, Wei Zhan, Mingyu Ding, Masayoshi Tomizuka,
Abstract要約: 我々はスパース・リユース・フレキシブル・ポリシー、スパース・ディフュージョン・ポリシー(SDP)を導入する。 SDPは、エキスパートとスキルを選択的に活性化し、モデル全体をトレーニングすることなく、効率的でタスク固有の学習を可能にする。デモとコードはhttps://forrest-110.io/sparse_diffusion_policy/にある。
参考スコア（独自算出の注目度）: 61.294110816231886
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The increasing complexity of tasks in robotics demands efficient strategies for multitask and continual learning. Traditional models typically rely on a universal policy for all tasks, facing challenges such as high computational costs and catastrophic forgetting when learning new tasks. To address these issues, we introduce a sparse, reusable, and flexible policy, Sparse Diffusion Policy (SDP). By adopting Mixture of Experts (MoE) within a transformer-based diffusion policy, SDP selectively activates experts and skills, enabling efficient and task-specific learning without retraining the entire model. SDP not only reduces the burden of active parameters but also facilitates the seamless integration and reuse of experts across various tasks. Extensive experiments on diverse tasks in both simulations and real world show that SDP 1) excels in multitask scenarios with negligible increases in active parameters, 2) prevents forgetting in continual learning of new tasks, and 3) enables efficient task transfer, offering a promising solution for advanced robotic applications. Demos and codes can be found in https://forrest-110.github.io/sparse_diffusion_policy/.
Abstract（参考訳）: ロボット工学におけるタスクの複雑さの増大は、マルチタスクと継続的な学習のための効率的な戦略を要求する。従来のモデルは一般に全てのタスクに対して普遍的なポリシーに依存しており、計算コストの高騰や、新しいタスクを学ぶ際の破滅的な忘れ込みといった課題に直面している。これらの課題に対処するため,スパース拡散政策 (SDP) を導入する。トランスフォーマーベースの拡散ポリシーにMixture of Experts(MoE)を採用することにより、SDPはエキスパートとスキルを選択的に活性化し、モデル全体をトレーニングすることなく、効率的かつタスク固有の学習を可能にする。 SDPは、アクティブパラメータの負担を軽減するだけでなく、さまざまなタスクにわたる専門家のシームレスな統合と再利用を促進する。シミュレーションと実世界における多種多様な課題に関する大規模な実験により、SDPが証明された。 1) アクティブパラメータの無視可能な増加を伴うマルチタスクシナリオにおいて優れる。 2)新しいタスクの継続的な学習における忘れを防ぎ、 3) 効率的なタスク転送を可能にし、高度なロボットアプリケーションに有望なソリューションを提供する。デモとコードはhttps://forrest-110.github.io/sparse_diffusion_policy/にある。

関連論文リスト

Bigger, Regularized, Categorical: High-Capacity Value Functions are Efficient Multi-Task Learners [60.75160178669076]
オンライン強化学習におけるタスク干渉の問題に対して,クロスエントロピーを用いて訓練し,学習可能なタスク埋め込みを条件とした高容量値モデルの使用が課題であることを示す。 280以上のユニークなタスクを持つ7つのマルチタスクベンチマークで、高い自由度ヒューマノイド制御と離散視覚ベースのRLにまたがるアプローチを検証した。
論文参考訳（メタデータ） (2025-05-29T06:41:45Z)
SwitchMT: An Adaptive Context Switching Methodology for Scalable Multi-Task Learning in Intelligent Autonomous Agents [5.343921650701002]
自律エージェントにおけるRLに基づくマルチタスク学習のための適応型タスクスイッチング手法を提案する。 SwitchMTは、アクティブなデンドライトとデュエル構造を備えたDeep Spiking Q-Networkを使用して、特別なサブネットワークを作成する。最先端の手法に比べてマルチタスク学習において優れた性能を発揮する。
論文参考訳（メタデータ） (2025-04-18T08:12:59Z)
Learning Policy Committees for Effective Personalization in MDPs with Diverse Tasks [40.2989900672992]
本稿では,実行中に発生するタスクの確率の高い,少なくとも1つの準最適政策を含む政策委員会を学習するための新しいアプローチを提案する。 MuJoCo と Meta-World に関する実験により,提案手法は,訓練,一般化,少数ショット学習において,最先端のマルチタスク,メタ,タスククラスタリングベースラインより優れていることが示された。
論文参考訳（メタデータ） (2025-02-26T22:45:25Z)
Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T18:49:25Z)
STRAP: Robot Sub-Trajectory Retrieval for Augmented Policy Learning [8.860366821983211]
STRAPは、トレーニング済みの視覚基盤モデルと動的時間ワープを利用して、大規模なトレーニングコーパスからトラジェクトリのサブシーケンスを堅牢に検索する技術である。本研究では、事前学習された視覚基盤モデルと動的時間ワープを活用して、大規模学習コーパスからのトラジェクトリのサブシーケンスをロバストに検索するSTRAPを提案する。
論文参考訳（メタデータ） (2024-12-19T18:54:06Z)
Active Fine-Tuning of Multi-Task Policies [54.65568433408307]
AMF(Active Multi-task Fine-tuning)を提案する。我々は,AMFの性能保証を規則性仮定で導き,複雑・高次元環境における実験的有効性を示す。
論文参考訳（メタデータ） (2024-10-07T13:26:36Z)
EquiBot: SIM(3)-Equivariant Diffusion Policy for Generalizable and Data Efficient Learning [36.0274770291531]
本研究では,ロボット操作タスク学習のための頑健で,データ効率が高く,汎用的なアプローチであるEquibotを提案する。提案手法は,SIM(3)等価なニューラルネットワークアーキテクチャと拡散モデルを組み合わせたものである。本手法は,5分間の人間による実演から学ぶことで,新しい物体やシーンに容易に一般化できることが示唆された。
論文参考訳（メタデータ） (2024-07-01T17:09:43Z)
GenSim: Generating Robotic Simulation Tasks via Large Language Models [34.79613485106202]
GenSimは、リッチなシミュレーション環境とエキスパートのデモを自動的に生成することを目指している。既存のベンチマークを10倍から100以上のタスクに拡張するために、GPT4を使用します。最小限のsim-to-real適応により、GPT4生成したシミュレーションタスクで事前訓練されたマルチタスクポリシーは、現実世界で目に見えないロングホライゾンタスクへのより強力な転送を示す。
論文参考訳（メタデータ） (2023-10-02T17:23:48Z)
Meta-Reinforcement Learning Based on Self-Supervised Task Representation Learning [23.45043290237396]
MoSSは、自己監督型タスク表現学習に基づくコンテキストベースメタ強化学習アルゴリズムである。 MuJoCoとMeta-Worldのベンチマークでは、MoSSはパフォーマンス、サンプル効率(3-50倍高速)、適応効率、一般化の点で先行して性能が向上している。
論文参考訳（メタデータ） (2023-04-29T15:46:19Z)
Controllable Dynamic Multi-Task Architectures [92.74372912009127]
本稿では,そのアーキテクチャと重みを動的に調整し,所望のタスク選択とリソース制約に適合させる制御可能なマルチタスクネットワークを提案する。本稿では,タスク親和性と分岐正規化損失を利用した2つのハイパーネットの非交互トレーニングを提案し,入力の嗜好を取り入れ,適応重み付き木構造モデルを予測する。
論文参考訳（メタデータ） (2022-03-28T17:56:40Z)
Discovery of Options via Meta-Learned Subgoals [59.2160583043938]
オプションの形での時間的抽象化は、強化学習(RL)エージェントの学習の高速化に役立つことが示されている。マルチタスクRL環境で有用なオプションを発見するための新しいメタグラデーションアプローチを紹介します。
論文参考訳（メタデータ） (2021-02-12T19:50:40Z)
Learn Dynamic-Aware State Embedding for Transfer Learning [0.8756822885568589]
報酬機能以外のすべてのタスク(MDP)が同じ環境を動的に共有する設定を検討します。この設定では、MDPのダイナミクスは、一様ランダムなポリシーによって推測できる、転送のよい知識である。我々は、一様ランダムポリシーの必要性を避けるため、任意のポリシーの軌跡からバイナリMDPのダイナミクスを推定できることを観察する。
論文参考訳（メタデータ） (2021-01-06T19:07:31Z)
Reparameterizing Convolutions for Incremental Multi-Task Learning without Task Interference [75.95287293847697]
マルチタスクモデルを開発する際の2つの一般的な課題は、しばしば文献で見過ごされる。まず、モデルを本質的に漸進的に可能にし、以前に学んだことを忘れずに新しいタスクから情報を継続的に取り入れる(インクリメンタルラーニング)。第二に、タスク間の有害な相互作用を排除し、マルチタスク設定(タスク干渉)においてシングルタスクのパフォーマンスを著しく低下させることが示されている。
論文参考訳（メタデータ） (2020-07-24T14:44:46Z)
HyperGrid: Efficient Multi-Task Transformers with Grid-wise Decomposable Hyper Projections [96.64246471034195]
我々は,マルチタスク学習を効果的に行う新しいアプローチであるtextscHyperGridを提案する。本手法は,微調整とマルチタスク学習のギャップを埋めるのに役立つ。
論文参考訳（メタデータ） (2020-07-12T02:49:16Z)
Multi-Task Reinforcement Learning with Soft Modularization [25.724764855681137]
マルチタスク学習は強化学習において非常に難しい問題である。この最適化問題を緩和するために,ポリシー表現に明示的なモジュール化手法を導入する。提案手法は,強いベースライン上でのサンプリング効率と性能を,大きなマージンで向上することを示す。
論文参考訳（メタデータ） (2020-03-30T17:47:04Z)
Meta Reinforcement Learning with Autonomous Inference of Subtask Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文参考訳（メタデータ） (2020-01-01T17:34:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。