論文の概要: Matrix-Space Reinforcement Learning for Reusing Local Transition Geometry
- arxiv url: http://arxiv.org/abs/2605.14304v1
- Date: Thu, 14 May 2026 03:12:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.596521
- Title: Matrix-Space Reinforcement Learning for Reusing Local Transition Geometry
- Title(参考訳): 局所遷移幾何学の再利用のための行列空間強化学習
- Authors: Zuyuan Zhang, Carlee Joe-Wong, Tian Lan,
- Abstract要約: 行列空間強化学習(英: Matrix-Space Reinforcement Learning、MSRL)は、正の半定値行列記述子による軌跡セグメントを表す幾何学的抽象化である。
MSRLは0.73で、MSRLをゼロ(0.65)、TD-MPC-PT+FT(0.63)、TD-MPC(0.57)で上回っている。
- 参考スコア(独自算出の注目度): 25.028581947543277
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Compositional generalization in sequential decision-making requires identifying which parts of prior rollouts remain useful for new tasks. Existing methods reuse skills or predictive models, but often overlook rich local transition geometry and dynamics. We propose Matrix-Space Reinforcement Learning (MSRL), a geometric abstraction that represents trajectory segments through positive semidefinite matrix descriptors aggregating first- and second-order statistics of lifted one-step transitions. These descriptors expose shared hidden structure, support algebraic composition in an abstract matrix space, and reveal opportunities for transfer. We prove that the descriptor is well defined up to coordinate gauge, complete for the induced low-order additive signal class, additive under valid segment composition, and minimally sufficient among admissible additive descriptors. We further show that conditioning value functions on the trajectory-segment matrix yields a first-order smooth approximation of action values, enabling source-learned matrix-to-value mappings to bootstrap learning in new tasks. MSRL is plug-in compatible with standard model-free and model-based methods, while obstruction filtering rejects implausible compositions. Empirically, MSRL achieves the best average finite-budget target AUC of 0.73, outperforming MSRL from scratch (0.65), TD-MPC-PT+FT (0.63), and TD-MPC (0.57).
- Abstract(参考訳): シーケンシャルな意思決定における構成的一般化は、以前のロールアウトのどの部分が新しいタスクに有用かを特定する必要がある。
既存の手法はスキルや予測モデルを再利用するが、しばしばリッチな局所遷移幾何学やダイナミクスを見落としている。
本稿では,一段階遷移の1次統計と2次統計を集約した正の半定値行列記述子によるトラジェクトリセグメントを表す幾何学的抽象化である,行列空間強化学習(MSRL)を提案する。
これらの記述子は共有された構造を公開し、抽象行列空間における代数的合成をサポートし、転送の機会を明らかにする。
我々は、デクリプタが座標ゲージまで十分に定義されており、誘導された低次加法信号クラス、有効なセグメント構成の下での加法、許容可能な加法デクリプタの中では最小限に十分であることを証明した。
さらに、トラジェクトリ・セグメント行列上の条件付け値関数は、アクション値の1次スムーズな近似をもたらすことを示し、新しいタスクにおけるブートストラップ学習のためのソース学習行列-値マッピングを可能にする。
MSRLは標準のモデルフリーおよびモデルベースメソッドとプラグイン互換である。
経験的に、MSRLは0.73の平均有限予算目標AUCを達成し、MSRLをスクラッチ(0.65)、TD-MPC-PT+FT(0.63)、TD-MPC(0.57)で上回る。
関連論文リスト
- LLM-Driven Performance-Space Augmentation for Meta-Learning-Based Algorithm Selection [0.0]
永続的な制限は、キュレートされた実世界のデータセットの数が少ないため、スパースメタデータセットが生成されることである。
メタデータセットを大言語モデル(LLM)を用いて生成した合成回帰データセットで拡張することでこの問題に対処する。
本研究では,(1)合成データセットを性能空間に分散する一様サンプリングと,(2)決定境界付近に集中するマージンベースサンプリングの2つを比較した。
論文 参考訳(メタデータ) (2026-05-10T13:00:43Z) - Inverting Self-Organizing Maps: A Unified Activation-Based Framework [39.146761527401424]
我々は,SOMの活性化パターンを逆転させて,微妙な幾何学的条件下での正確な入力を復元できることを示す。
我々は,MUSIC (Manifold-Aware Unified SOM Inversion and Control) 更新ルールを導入する。
合成ガウス混合系, MNIST と Faces in the Wild を用いたアプローチを検証した。
論文 参考訳(メタデータ) (2026-01-20T11:02:54Z) - Compress to Impress: Efficient LLM Adaptation Using a Single Gradient Step on 100 Samples [57.67658635348395]
LASERの網羅的で、マトリクスごとの探索は、迅速な展開には実用的ではない。
これらの結果を組み合わせることで、下流タスクに対する高速で堅牢な適応アルゴリズムが得られることを示す。
論文 参考訳(メタデータ) (2025-10-23T17:58:01Z) - Efficient Adaptation of Pre-trained Vision Transformer underpinned by Approximately Orthogonal Fine-Tuning Strategy [57.54306942529943]
約直交微調整(AOFT)による低ランク重量行列の表現法を提案する。
本手法は,下流画像分類タスクにおける競合性能を実現する。
論文 参考訳(メタデータ) (2025-07-17T16:09:05Z) - Spectral Entry-wise Matrix Estimation for Low-Rank Reinforcement
Learning [53.445068584013896]
低ランク構造を持つ強化学習(RL)における行列推定問題について検討した。
低ランク帯では、回収される行列は期待される腕の報酬を指定し、低ランクマルコフ決定プロセス(MDP)では、例えばMDPの遷移カーネルを特徴付ける。
簡単なスペクトルベースの行列推定手法は,行列の特異部分空間を効率よく復元し,ほぼ最小の入力誤差を示すことを示す。
論文 参考訳(メタデータ) (2023-10-10T17:06:41Z) - Mode-wise Principal Subspace Pursuit and Matrix Spiked Covariance Model [13.082805815235975]
行列データに対して行次元と列次元の両方に隠れたバリエーションを抽出するために,モードワイド・プリンシパル・サブスペース・スーツ (MOP-UP) と呼ばれる新しいフレームワークを導入する。
提案フレームワークの有効性と実用性は、シミュレーションと実データの両方の実験を通して実証される。
論文 参考訳(メタデータ) (2023-07-02T13:59:47Z) - Semi-Supervised Subspace Clustering via Tensor Low-Rank Representation [64.49871502193477]
本稿では,初期監視情報を同時に拡張し,識別親和性行列を構築することのできる,新しい半教師付きサブスペースクラスタリング手法を提案する。
6つの一般的なベンチマークデータセットの総合的な実験結果から,本手法が最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-21T01:47:17Z) - FLAMBE: Structural Complexity and Representation Learning of Low Rank
MDPs [53.710405006523274]
この研究は、表現学習の問題に焦点を当てている。
基礎となる(未知の)力学が低階遷移行列に対応するという仮定の下で、表現学習問題と特定の非線形行列分解問題との関連性を示す。
低階遷移モデルにおけるRLの探索と表現学習を行うFLAMBEを開発した。
論文 参考訳(メタデータ) (2020-06-18T19:11:18Z) - Robust Locality-Aware Regression for Labeled Data Classification [5.432221650286726]
本稿では,ロバスト局所性認識回帰(RLAR)という特徴抽出フレームワークを提案する。
本モデルでは,クラス間の平均差を使わずに,適応的に境界表現学習を行うために再ターゲット回帰を導入する。
外れ値の乱れを緩和し、過度な適合を防止するため、L2,1ノルムによる正規化項とともに回帰項と局所性を考慮した項を計測する。
論文 参考訳(メタデータ) (2020-06-15T11:36:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。