Fugu-MT 論文翻訳(概要): Merging Decision Transformers: Weight Averaging for Forming Multi-Task Policies

論文の概要: Merging Decision Transformers: Weight Averaging for Forming Multi-Task Policies

arxiv url: http://arxiv.org/abs/2303.07551v3
Date: Fri, 22 Sep 2023 19:24:19 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-27 03:30:44.977673
Title: Merging Decision Transformers: Weight Averaging for Forming Multi-Task Policies
Title（参考訳）: マージ決定トランスフォーマー:マルチタスクポリシー形成のための重み平均化
Authors: Daniel Lawson, Ahmed H. Qureshi
Abstract要約: 異なるMuJoCoロコモーション問題に基づいて訓練されたパラメータ空間における決定変換器のマージ(平均化)および決定変換器のサブセットについて予備的なステップを踏む。一般的に、この方向の研究は、マルチタスクロボットポリシーを形成するプロセスの民主化と配布に役立つと信じている。
参考スコア（独自算出の注目度）: 2.7195102129095003
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent work has shown the promise of creating generalist, transformer-based, models for language, vision, and sequential decision-making problems. To create such models, we generally require centralized training objectives, data, and compute. It is of interest if we can more flexibly create generalist policies by merging together multiple, task-specific, individually trained policies. In this work, we take a preliminary step in this direction through merging, or averaging, subsets of Decision Transformers in parameter space trained on different MuJoCo locomotion problems, forming multi-task models without centralized training. We also demonstrate the importance of various methodological choices when merging policies, such as utilizing common pre-trained initializations, increasing model capacity, and utilizing Fisher information for weighting parameter importance. In general, we believe research in this direction could help democratize and distribute the process that forms multi-task robotics policies. Our implementation is available at https://github.com/daniellawson9999/merging-decision-transformers.
Abstract（参考訳）: 近年の研究では、ジェネラリスト、トランスフォーマーベース、言語モデル、ビジョンモデル、シーケンシャルな意思決定問題の作成が期待されている。このようなモデルを作成するには、一般的に集中的なトレーニング目標、データ、計算が必要です。複数のタスク固有の個別に訓練されたポリシーを組み合わせることで、より柔軟にジェネラリストポリシーを作成できれば、それは興味深いことです。本研究では,異なるムジョコロコモーション問題に対して学習したパラメータ空間における決定トランスフォーマーのサブセットをマージし,平均化することにより,マルチタスクモデルを構築することにより,この方向への予備的な一歩を踏み出す。また,事前学習した共通初期化の活用,モデル容量の増大,重み付けパラメータの重要性に対するフィッシャー情報の利用など,政策統合における様々な方法論的選択の重要性を実証する。一般的に、この方向の研究は、マルチタスクロボットポリシーを形成するプロセスの民主化と配布に役立つと信じている。我々の実装はhttps://github.com/daniellawson9999/merging-decision-transformersで利用可能です。

関連論文リスト

Multi-Modal Manipulation via Multi-Modal Policy Consensus [62.49978559936122]
本稿では,ロボット操作のための多様な感覚モダリティを統合するための新しいアプローチを提案する。提案手法は,それぞれが単一の表現に特化している拡散モデルの集合にポリシーを分解する。我々は、RLBenchにおけるシミュレーション操作タスクと、隠蔽対象のピック、手作業のスプーン再配向、パズル挿入といった実世界のタスクについて評価した。
論文参考訳（メタデータ） (2025-09-27T19:43:04Z)
ImaginationPolicy: Towards Generalizable, Precise and Reliable End-to-End Policy for Robotic Manipulation [46.06124092071133]
ロボット操作のための新しい動き指向キーポイント(CoMOK)の定式化を提案する。私たちの定式化は、エンドツーエンドでトレーニング可能なニューラルポリシーのアクション表現として使用されます。
論文参考訳（メタデータ） (2025-09-25T07:29:07Z)
Model Evolution Framework with Genetic Algorithm for Multi-Task Reinforcement Learning [85.91908329457081]
マルチタスク強化学習は、様々なシナリオにまたがって一般化可能なエージェントを開発することを目的として、様々なタスクを完遂するために単一のポリシーを採用する。既存のアプローチでは、ルーティングネットワークを使用して各タスクの特定のルートを生成し、モジュールのセットをさまざまなモデルに再構築し、複数のタスクを同時に完了させるのが一般的である。本稿では,遺伝的アルゴリズム(MEGA)を用いたモデル進化フレームワークを提案する。
論文参考訳（メタデータ） (2025-02-19T09:22:34Z)
Solving Multi-Goal Robotic Tasks with Decision Transformer [0.0]
ロボット工学におけるオフラインマルチゴール強化学習のための決定変換器アーキテクチャの新しい適応法を提案する。われわれのアプローチでは、ゴール固有の情報を意思決定変換器に統合し、オフライン環境で複雑なタスクを処理できる。
論文参考訳（メタデータ） (2024-10-08T20:35:30Z)
Merging Multi-Task Models via Weight-Ensembling Mixture of Experts [64.94129594112557]
異なるタスクでトレーニングされたTransformerベースのモデルを単一の統一モデルにマージすることで、すべてのタスクを同時に実行できる。従来の手法は、タスク演算によって例示され、効率的かつスケーラブルであることが証明されている。本稿では,Transformer層をMoEモジュールにアップスケーリングしながら,ほとんどのパラメータをマージすることを提案する。
論文参考訳（メタデータ） (2024-02-01T08:58:57Z)
FedYolo: Augmenting Federated Learning with Pretrained Transformers [61.56476056444933]
本研究では,デバイス上での学習目標を達成するための事前学習型トランスフォーマー(PTF)について検討する。大規模化により,代替手法間の精度ギャップが小さくなり,ロバスト性も向上することを示す。最後に、クライアントは単一のPTFを使用して複数の無関係なタスクを同時に解決できる。
論文参考訳（メタデータ） (2023-07-10T21:08:52Z)
An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文参考訳（メタデータ） (2023-04-28T15:43:21Z)
eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文参考訳（メタデータ） (2023-03-20T19:20:34Z)
Meta-Reinforcement Learning for Adaptive Control of Second Order Systems [3.131740922192114]
プロセス制御では、多くのシステムは類似しており、よく理解されているダイナミクスを持ち、メタ学習を通じて一般化可能なコントローラを作成することは可能であることを示唆している。本稿では,メタ強化学習(meta-RL)制御戦略を定式化し,モデル構造などのトレーニングにおいて,既知のオフライン情報を活用する。重要な設計要素は、トレーニング中にモデルベースの情報をオフラインで利用し、新しい環境と対話するためのモデルフリーのポリシー構造を維持することである。
論文参考訳（メタデータ） (2022-09-19T18:51:33Z)
Bayesian Meta-Learning for Few-Shot Policy Adaptation Across Robotic Platforms [60.59764170868101]
強化学習手法は、重要な性能を達成できるが、同じロボットプラットフォームで収集される大量のトレーニングデータを必要とする。私たちはそれを、さまざまなロボットプラットフォームで共有される共通の構造を捉えるモデルを見つけることを目標とする、数ショットのメタラーニング問題として定式化します。我々は,400個のロボットを用いて,実ロボットピッキング作業とシミュレーションリーチの枠組みを実験的に評価した。
論文参考訳（メタデータ） (2021-03-05T14:16:20Z)
UPDeT: Universal Multi-agent Reinforcement Learning via Policy Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文参考訳（メタデータ） (2021-01-20T07:24:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。