論文の概要: Knowledge Diversion for Efficient Morphology Control and Policy Transfer
- arxiv url: http://arxiv.org/abs/2512.09796v1
- Date: Wed, 10 Dec 2025 16:11:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.590156
- Title: Knowledge Diversion for Efficient Morphology Control and Policy Transfer
- Title(参考訳): 効率的な形態制御と政策伝達のための知識変換
- Authors: Fu Feng, Ruixiao Shi, Yucheng Xie, Jianlu Shen, Jing Wang, Xin Geng,
- Abstract要約: DivMorphは、知識の変換を利用して分解可能なコントローラを学ぶ訓練パラダイムである。
最先端のパフォーマンスを実現し、クロスタスク転送のための直接微調整よりも3$times$のサンプル効率の向上を実現している。
- 参考スコア(独自算出の注目度): 28.603795868856036
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Universal morphology control aims to learn a universal policy that generalizes across heterogeneous agent morphologies, with Transformer-based controllers emerging as a popular choice. However, such architectures incur substantial computational costs, resulting in high deployment overhead, and existing methods exhibit limited cross-task generalization, necessitating training from scratch for each new task. To this end, we propose \textbf{DivMorph}, a modular training paradigm that leverages knowledge diversion to learn decomposable controllers. DivMorph factorizes randomly initialized Transformer weights into factor units via SVD prior to training and employs dynamic soft gating to modulate these units based on task and morphology embeddings, separating them into shared \textit{learngenes} and morphology- and task-specific \textit{tailors}, thereby achieving knowledge disentanglement. By selectively activating relevant components, DivMorph enables scalable and efficient policy deployment while supporting effective policy transfer to novel tasks. Extensive experiments demonstrate that DivMorph achieves state-of-the-art performance, achieving a 3$\times$ improvement in sample efficiency over direct finetuning for cross-task transfer and a 17$\times$ reduction in model size for single-agent deployment.
- Abstract(参考訳): ユニバーサルモルフォロジー制御は、トランスフォーマーベースのコントローラが一般的な選択肢として登場し、異種エージェントモルフォロジーを一般化する普遍的なポリシーを学ぶことを目的としている。
しかし、そのようなアーキテクチャは相当な計算コストを伴い、デプロイオーバーヘッドが高くなり、既存の手法ではクロスタスクの一般化が制限され、新しいタスクごとにスクラッチからトレーニングを行う必要がある。
この目的のために,知識の変換を利用して分解可能なコントローラを学習するモジュール型トレーニングパラダイムである‘textbf{DivMorph} を提案する。
DivMorphは、ランダムに初期化されたトランスフォーマー重みをSVDを介して因子単位に分解し、これらの単位をタスクとモルフォロジーの埋め込みに基づいて動的柔らかいゲーティングを用いて調整し、それらを共有された \textit{learngenes} と、共有された \textit{learngenes} とタスク固有の \textit{tailors} に分離し、知識の分散を達成する。
関連するコンポーネントを選択的に活性化することにより、新しいタスクへの効果的なポリシ転送をサポートしながら、スケーラブルで効率的なポリシデプロイメントを可能にします。
大規模な実験により、DivMorphは最先端のパフォーマンスを実現し、クロスタスク転送の直接微調整よりも3$\times$のサンプル効率の向上と、単一エージェントデプロイメントのモデルサイズ削減の17$\times$を実現している。
関連論文リスト
- Dynamic Context-oriented Decomposition for Task-aware Low-rank Adaptation with Less Forgetting and Faster Convergence [131.41894248194995]
タスク認識方式でアダプタを初期化する新しい手法であるコンテキスト指向分解適応(CorDA)を提案する。
本手法は,タスク認識により,知識保存モード (KPM) と命令レビューモード (IPM) の2つのオプション適応モードを実現する。
論文 参考訳(メタデータ) (2025-06-16T07:55:14Z) - Transition Transfer $Q$-Learning for Composite Markov Decision Processes [6.337133205762491]
本稿では,高次元遷移力学を共有構造を表す低ランク成分の和としてモデル化した新しい複合MDPフレームワークを提案する。
これは純粋に低ランクな遷移モデルの一般的な仮定を緩和する。
UCB-TQLは、複数のタスクがコア線形MDPダイナミクスを共有するが、スパース次元に沿って分散するRLシナリオを転送するために設計されている。
論文 参考訳(メタデータ) (2025-02-01T19:22:00Z) - Transforming Vision Transformer: Towards Efficient Multi-Task Asynchronous Learning [59.001091197106085]
Vision TransformerのためのMulti-Task Learning (MTL)は、複数のタスクを同時に処理することでモデル能力を向上させることを目的としている。
最近の研究は、Mixture-of-Experts(MoE)構造の設計とローランド適応(LoRA)によるマルチタスク学習の効率化に重点を置いている。
本稿では,事前学習した視覚変換器を効率的なマルチタスク学習器に変換することで,EMTAL(Efficient Multi-Task Learning)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-12T17:41:23Z) - Transformer-Squared: Self-adaptive LLMs [29.1326358746118]
そこで我々はTransformer-Squaredという新しい自己適応フレームワークを紹介した。
提案手法は,LoRAなどのユビキタスな手法よりもパラメータが少なく,効率も向上する。
Transformer-Squaredは、LLMの適応性とタスク固有のパフォーマンスを向上させる、スケーラブルで効率的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-01-09T01:19:21Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - FedYolo: Augmenting Federated Learning with Pretrained Transformers [61.56476056444933]
本研究では,デバイス上での学習目標を達成するための事前学習型トランスフォーマー(PTF)について検討する。
大規模化により,代替手法間の精度ギャップが小さくなり,ロバスト性も向上することを示す。
最後に、クライアントは単一のPTFを使用して複数の無関係なタスクを同時に解決できる。
論文 参考訳(メタデータ) (2023-07-10T21:08:52Z) - Modular Transformers: Compressing Transformers into Modularized Layers
for Flexible Efficient Inference [83.01121484432801]
本稿では,フレキシブルシーケンス・ツー・シーケンス・モデル圧縮のためのモジュール化エンコーダ・デコーダ・フレームワークであるModular Transformersを紹介する。
単一のトレーニングフェーズの後、Modular Transformerは1.1xから6xまでのフレキシブルな圧縮比を、相対的な相対的な性能低下の少ない状態で達成することができる。
論文 参考訳(メタデータ) (2023-06-04T15:26:28Z) - UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文 参考訳(メタデータ) (2021-01-20T07:24:24Z) - Generalized Hidden Parameter MDPs Transferable Model-based RL in a
Handful of Trials [13.051708608864539]
一般化隠れMDP(英: Generalized Hidden MDPs、GHP-MDPs)は、タスクによって異なる隠れパラメータの関数として、力学と報酬の両方が変化するMDPのファミリーを指す。
我々は、報酬空間と動的潜伏空間を用いた新しい課題である MuJoCo タスクに対して、最先端性能とサンプル効率を実験的に実証した。
論文 参考訳(メタデータ) (2020-02-08T02:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。