Fugu-MT 論文翻訳(概要): Unified Policy Value Decomposition for Rapid Adaptation

論文の概要: Unified Policy Value Decomposition for Rapid Adaptation

arxiv url: http://arxiv.org/abs/2603.17947v1
Date: Wed, 18 Mar 2026 17:19:56 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-19 18:32:57.848332
Title: Unified Policy Value Decomposition for Rapid Adaptation
Title（参考訳）: 迅速適応のための統一政策価値分解
Authors: Cristiano Capone, Luca Falorsi, Andrea Ciardiello, Luca Manneschi,
Abstract要約: ポリシーと値関数は、タスクのアイデンティティをキャプチャする低次元係数ベクトル(ゴール埋め込み)を共有する。我々は,MuJoCo Ant環境上でソフトアクター・クライブエージェントを多目的に訓練し,連続目標ベクトルとして指定された8方向を歩かなければならない。この結果から,共有低次元目標埋め込みは,高次元制御における高速かつ構造化された適応の一般的なメカニズムをもたらすことが示唆された。
参考スコア（独自算出の注目度）: 1.3649494534428745
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Rapid adaptation in complex control systems remains a central challenge in reinforcement learning. We introduce a framework in which policy and value functions share a low-dimensional coefficient vector - a goal embedding - that captures task identity and enables immediate adaptation to novel tasks without retraining representations. During pretraining, we jointly learn structured value bases and compatible policy bases through a bilinear actor-critic decomposition. The critic factorizes as Q = sum_k G_k(g) y_k(s,a), where G_k(g) is a goal-conditioned coefficient vector and y_k(s,a) are learned value basis functions. This multiplicative gating - where a context signal scales a set of state-dependent bases - is reminiscent of gain modulation observed in Layer 5 pyramidal neurons, where top-down inputs modulate the gain of sensory-driven responses without altering their tuning. Building on Successor Features, we extend the decomposition to the actor, which composes a set of primitive policies weighted by the same coefficients G_k(g). At test time the bases are frozen and G_k(g) is estimated zero-shot via a single forward pass, enabling immediate adaptation to novel tasks without any gradient update. We train a Soft Actor-Critic agent on the MuJoCo Ant environment under a multi-directional locomotion objective, requiring the agent to walk in eight directions specified as continuous goal vectors. The bilinear structure allows each policy head to specialize to a subset of directions, while the shared coefficient layer generalizes across them, accommodating novel directions by interpolating in goal embedding space. Our results suggest that shared low-dimensional goal embeddings offer a general mechanism for rapid, structured adaptation in high-dimensional control, and highlight a potentially biologically plausible principle for efficient transfer in complex reinforcement learning systems.
Abstract（参考訳）: 複雑な制御系における迅速な適応は、強化学習における中心的な課題である。政策と価値関数が低次元係数ベクトル(ゴール埋め込み)を共有し、タスクのアイデンティティをキャプチャし、表現を再訓練することなく、新しいタスクへの即時適応を可能にするフレームワークを導入する。事前学習中に、両線形アクター-批判的分解を通して構造化された値ベースと互換性のあるポリシーベースを共同で学習する。 Q = sum_k G_k(g) y_k(s,a) ここで、G_k(g) は目標条件係数ベクトル、y_k(s,a) は学習値基底関数である。この乗法的ゲーティング(英: multiplicative gating)は、コンテキスト信号が状態依存基底の集合をスケールするものであり、レイヤー5の錐体ニューロンで観測される利得変調を連想させるものであり、トップダウン入力は、チューニングを変更することなく感覚駆動応答の利得を調節する。継承的特徴に基づいて分解をアクターに拡張し、同じ係数 G_k(g) で重み付けされた原始的なポリシーのセットを構成する。テスト時にベースは凍結され、G_k(g)は単一のフォワードパスを介してゼロショットと推定され、勾配更新なしで新規タスクへの即時適応を可能にする。我々は,MuJoCo Ant環境におけるソフトアクター・クライブエージェントを多方向移動目標の下で訓練し,連続目標ベクトルとして指定された8方向を歩かなければならない。両線形構造により、各ポリシーヘッドは方向のサブセットに特化でき、一方、共有係数層はそれらを一般化し、ゴール埋め込み空間に補間することで新しい方向を調節する。以上の結果から,共有低次元目標埋め込みは高次元制御における高速かつ構造化された適応の一般的なメカニズムであり,複雑な強化学習システムにおける効率的な伝達のための生物学的に妥当な原理である可能性が示唆された。

関連論文リスト

Integrating Diverse Assignment Strategies into DETRs [61.61489761918158]
ラベル割り当ては、特にDETRスタイルのフレームワークにおいて、オブジェクト検出器において重要なコンポーネントである。我々は,任意のDETR型検出器に多様な割り当て戦略をシームレスに統合する,フレキシブルで軽量なフレームワークであるLoRA-DETRを提案する。
論文参考訳（メタデータ） (2026-01-14T07:28:54Z)
ImplicitRDP: An End-to-End Visual-Force Diffusion Policy with Structural Slow-Fast Learning [52.86018040861575]
本稿では,単一のネットワークに視覚計画と反応力制御を統合した,一貫したエンドツーエンドの視覚力拡散政策を提案する。本稿では,非同期な視覚と力のトークンを同時に処理するための因果的注意力を利用した構造的スローフォールストラーニングを紹介する。コンタクトリッチタスクの実験では、ImplicitRDPは視覚のみのベースラインと階層的なベースラインの両方で著しく優れていた。
論文参考訳（メタデータ） (2025-12-11T18:59:46Z)
On Geometric Structures for Policy Parameterization in Continuous Control [7.056222499095849]
本稿では,単位多様体上での演算による構造的利点を保った,計算効率の良いアクション生成パラダイムを提案する。本手法は,動作を決定論的方向ベクトルと学習可能な濃度に分解し,目標方向と一様雑音との効率性を実現する。実証的に、我々の手法は標準的な連続制御ベンチマークで最先端の手法と一致するか超えている。
論文参考訳（メタデータ） (2025-11-11T13:32:38Z)
Coordination Requires Simplification: Thermodynamic Bounds on Multi-Objective Compromise in Natural and Artificial Intelligence [0.0]
コーディネート・フォーカスポイントとして機能する最大効用を持つ解は、精度よりもエージェント間で発見可能な選択圧力がはるかに高いことを示す。この枠組みを熱力学的コーディネート理論 (TCT) と呼び、協調には急進的な情報損失が必要であることを示す。
論文参考訳（メタデータ） (2025-09-27T06:16:56Z)
Dynamic Context-oriented Decomposition for Task-aware Low-rank Adaptation with Less Forgetting and Faster Convergence [131.41894248194995]
タスク認識方式でアダプタを初期化する新しい手法であるコンテキスト指向分解適応(CorDA)を提案する。本手法は,タスク認識により,知識保存モード (KPM) と命令レビューモード (IPM) の2つのオプション適応モードを実現する。
論文参考訳（メタデータ） (2025-06-16T07:55:14Z)
A Unified Theory of Compositionality, Modularity, and Interpretability in Markov Decision Processes [1.3044677039636754]
我々は、新しい報酬のないマルコフ決定プロセスのためのオプションカーネルベルマン方程式(OKBE)を紹介する。 OKBEは、状態時オプションカーネル(STOK)と呼ばれる予測マップを直接構築し、最適化し、ゴールを達成する確率を最大化する。我々は、報酬-最大化は構成性、モジュラリティ、解釈可能性の性質と矛盾していると主張する。
論文参考訳（メタデータ） (2025-06-11T08:21:22Z)
Feudal Graph Reinforcement Learning [18.069747511100132]
グラフに基づく表現とメッセージパッシングモジュールポリシーは、強化学習(RL)における構成可能な制御問題に対処するための顕著なアプローチである本稿では,階層的RLとピラミッド型メッセージパッシングアーキテクチャを頼りに,このような課題に対処する新しい手法であるFeudal Graph Reinforcement Learning (FGRL)を提案する。特に、FGRLは階層化されたグラフ構造を通して、階層の上部から上位のコマンドが伝播するポリシーの階層を定義している。
論文参考訳（メタデータ） (2023-04-11T09:51:13Z)
Interpretable Reinforcement Learning with Multilevel Subgoal Discovery [77.34726150561087]
離散環境のための新しい強化学習モデルを提案する。モデルでは、エージェントは確率的ルールの形で環境に関する情報を学習する。学習には報酬関数は不要であり、エージェントは達成するための第一の目標のみを与える必要がある。
論文参考訳（メタデータ） (2022-02-15T14:04:44Z)
X-volution: On the unification of convolution and self-attention [52.80459687846842]
本稿では,畳み込み操作と自己注意操作の両方からなるマルチブランチ基本モジュールを提案する。提案したX-進化は、非常に競争力のある視覚的理解の改善を実現する。
論文参考訳（メタデータ） (2021-06-04T04:32:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。