Fugu-MT 論文翻訳(概要): Efficient Morphology-Aware Policy Transfer to New Embodiments

論文の概要: Efficient Morphology-Aware Policy Transfer to New Embodiments

arxiv url: http://arxiv.org/abs/2508.03660v1
Date: Tue, 05 Aug 2025 17:15:35 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-06 18:18:56.095182
Title: Efficient Morphology-Aware Policy Transfer to New Embodiments
Title（参考訳）: 新しい身体への効率的な形態認識政策の移転
Authors: Michael Przystupa, Hongyao Tang, Martin Jagersand, Santiago Miret, Mariano Phielipp, Matthew E. Taylor, Glen Berseth,
Abstract要約: 形態認識型政策学習は、複数のエージェントからのデータを集約することで、政策サンプルの効率を高める手段である。これらのポリシーは、デプロイメント時のモルフォロジーをエンドツーエンドで微調整するのに比べて、最適化されたゼロショットのパフォーマンスが低い。形態素認識の事前学習とパラメータ効率のよい微調整(PEFT)技術を組み合わせることで,形態素認識のポリシーを目的の具体化に専門化するのに必要な学習可能なパラメータを削減できる。
参考スコア（独自算出の注目度）: 22.324413478280675
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Morphology-aware policy learning is a means of enhancing policy sample efficiency by aggregating data from multiple agents. These types of policies have previously been shown to help generalize over dynamic, kinematic, and limb configuration variations between agent morphologies. Unfortunately, these policies still have sub-optimal zero-shot performance compared to end-to-end finetuning on morphologies at deployment. This limitation has ramifications in practical applications such as robotics because further data collection to perform end-to-end finetuning can be computationally expensive. In this work, we investigate combining morphology-aware pretraining with parameter efficient finetuning (PEFT) techniques to help reduce the learnable parameters necessary to specialize a morphology-aware policy to a target embodiment. We compare directly tuning sub-sets of model weights, input learnable adapters, and prefix tuning techniques for online finetuning. Our analysis reveals that PEFT techniques in conjunction with policy pre-training generally help reduce the number of samples to necessary to improve a policy compared to training models end-to-end from scratch. We further find that tuning as few as less than 1% of total parameters will improve policy performance compared the zero-shot performance of the base pretrained a policy.
Abstract（参考訳）: 形態認識型政策学習は,複数のエージェントからのデータを集約することで,政策サンプルの効率を向上させる手段である。これらのポリシーは、エージェント形態の間の動的、運動的、および四肢構成のバリエーションを一般化するのに役立つことが以前は示されていた。残念なことに、これらのポリシーはデプロイメント時のモルフォロジーをエンドツーエンドで微調整するのに比べ、まだ準最適ゼロショットのパフォーマンスが保たれている。この制限は、ロボット工学のような実践的な応用において、エンド・ツー・エンドの微調整を行うためのさらなるデータ収集が計算コストのかかる可能性があるため、影響がある。本研究は,形態素認識事前学習とパラメータ効率的な微調整(PEFT)技術を組み合わせることで,形態素認識ポリシーを目的の実施形態に専門化するのに必要な学習可能なパラメータを減らすことを目的とする。モデル重みのサブセットの直接チューニング,入力可能なアダプタ,オンラインファインタニングのためのプレフィックスチューニング技術を比較した。分析の結果,PEFTとポリシ事前学習の併用により,エンドツーエンドのトレーニングモデルと比較して,政策改善に必要なサンプル数を削減できることが判明した。さらに,全パラメータの1%未満のチューニングが,事前訓練された基本のゼロショット性能と比較して,ポリシー性能を向上させることが判明した。

関連論文リスト

ADORA: Training Reasoning Models with Dynamic Advantage Estimation on Reinforcement Learning [32.8666744273094]
textbfOnline textbfRollout textbfAdaptation, textbfADORA (textbfAdvantage textbfDynamics via textbfOnline textbfRollout textbfAdaptation)を導入する。
論文参考訳（メタデータ） (2026-02-10T17:40:39Z)
Elastic ViTs from Pretrained Models without Retraining [74.5386166956142]
ビジョンファウンデーションモデルは優れたパフォーマンスを達成するが、事前決定されたサイズの限られたセットでしか利用できない。本稿では, プルーニングされた視覚変換器のためのシングルショットネットワーク近似であるSnapViTを紹介する。提案手法は,進化的アルゴリズムを用いて近似した勾配情報とクロスネットワーク構造相関を効率的に結合する。
論文参考訳（メタデータ） (2025-10-20T16:15:03Z)
Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文参考訳（メタデータ） (2025-10-01T12:29:32Z)
Relative Entropy Pathwise Policy Optimization [56.86405621176669]
そこで本研究では,Q値モデルをオンラインデータから純粋にトレーニング可能な,価値段階駆動型オンデマンドアルゴリズムの構築方法について述べる。本稿では,パスワイズポリシー勾配のサンプル効率と,標準的なオンライン学習の単純さと最小限のメモリフットプリントを組み合わせた,効率的なオンライン学習アルゴリズムであるRelative Entropy Pathwise Policy Optimization (REPPO)を提案する。
論文参考訳（メタデータ） (2025-07-15T06:24:07Z)
Optimization-Inspired Few-Shot Adaptation for Large Language Models [25.439708260502556]
LLM(Large Language Models)は、現実世界のアプリケーションで顕著な性能を示している。 LLMを微調整によって新しいタスクに適応させるには、数ショットのシナリオでは実行不可能な、実質的なトレーニングデータと計算資源が必要となることが多い。既存のアプローチ、例えば、コンテキスト内学習や。 PEFT(Efficient Fine-Tuning)は、重要な制限に直面している。
論文参考訳（メタデータ） (2025-05-25T11:54:23Z)
Distilling Reinforcement Learning Algorithms for In-Context Model-Based Planning [39.53836535326121]
In-context Model-based RL frameworkであるDistillation for In-Context Planning (DICP)を提案する。以上の結果から,DICPはベースラインよりも環境相互作用を著しく少なく抑えながら,最先端の性能を実現することが示唆された。
論文参考訳（メタデータ） (2025-02-26T10:16:57Z)
ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文参考訳（メタデータ） (2024-12-11T12:31:30Z)
Parameter-Efficient Fine-Tuning With Adapters [5.948206235442328]
本研究では,UniPELTフレームワークをベースとした新しい適応手法を提案する。提案手法では, ベースモデルパラメータの最小限の再学習を行うことなく, 事前学習したモデルを新しいタスクに効率的に転送できるアダプタを用いる。
論文参考訳（メタデータ） (2024-05-09T01:40:38Z)
Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文参考訳（メタデータ） (2024-05-03T16:45:15Z)
Data-Efficient Task Generalization via Probabilistic Model-based Meta Reinforcement Learning [58.575939354953526]
PACOH-RLはメタ強化学習(Meta-RL)アルゴリズムである。既存のMeta-RLメソッドは豊富なメタ学習データを必要とし、ロボット工学などの設定で適用性を制限する。実験の結果,PACOH-RLはモデルベースRLおよびモデルベースMeta-RLベースラインよりも高い性能を示し,新しい動的条件に適応することがわかった。
論文参考訳（メタデータ） (2023-11-13T18:51:57Z)
Statistically Efficient Variance Reduction with Double Policy Estimation for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。 D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文参考訳（メタデータ） (2023-08-28T20:46:07Z)
Online Weighted Q-Ensembles for Reduced Hyperparameter Tuning in Reinforcement Learning [0.38073142980732994]
強化学習はロボット制御を学ぶための有望なパラダイムであり、ダイナミックスモデルを必要とせずに複雑な制御ポリシーを学習することができる。本稿では,複数の強化学習エージェントのアンサンブルを用いて,それぞれ異なるパラメータの集合と,最適な演奏セットを選択するメカニズムを提案する。オンライン重み付きQ-アンサンブルは,q平均アンサンブルと比較した場合,全体の低分散と優れた結果を示した。
論文参考訳（メタデータ） (2022-09-29T19:57:43Z)
Model Generation with Provable Coverability for Offline Reinforcement Learning [14.333861814143718]
動的対応ポリシーによるオフライン最適化は、ポリシー学習とアウト・オブ・ディストリビューションの一般化の新しい視点を提供する。しかし、オフライン環境での制限のため、学習したモデルは実際のダイナミクスを十分に模倣することができず、信頼性の高いアウト・オブ・ディストリビューション探索をサポートできなかった。本研究では,実力学のカバレッジを最適化するモデルを生成するアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-06-01T08:34:09Z)
ParticleAugment: Sampling-Based Data Augmentation [80.44268663372233]
モデルトレーニング中に最適な拡張ポリシーとスケジュールを求めるために,粒子フィルタリングの定式化を提案する。 CIFAR-10, CIFAR-100, ImageNetデータセットにおいて, 自動拡張のための定式化が有望な結果に達することを示す。
論文参考訳（メタデータ） (2021-06-16T10:56:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。