論文の概要: The Laplacian Keyboard: Beyond the Linear Span
- arxiv url: http://arxiv.org/abs/2602.07730v1
- Date: Sat, 07 Feb 2026 23:25:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.78002
- Title: The Laplacian Keyboard: Beyond the Linear Span
- Title(参考訳): Laplacianのキーボード:リニアスパンの向こう側
- Authors: Siddarth Chandrasekar, Marlos C. Machado,
- Abstract要約: 線形スパンを超える階層的なフレームワークであるLaplacian Keyboard (LK)を紹介します。
LKはこれらの固有ベクトルからタスクに依存しない選択肢のライブラリを構築し、最適なポリシーを含むことが保証される行動基盤を形成する。
メタ政治は、これらのオプションを動的に縫い合わせることを学び、元の線形制約の外のポリシーの効率的な学習を可能にします。
- 参考スコア(独自算出の注目度): 18.389494660457903
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Across scientific disciplines, Laplacian eigenvectors serve as a fundamental basis for simplifying complex systems, from signal processing to quantum mechanics. In reinforcement learning (RL), these eigenvectors provide a natural basis for approximating reward functions; however, their use is typically limited to their linear span, which restricts expressivity in complex environments. We introduce the Laplacian Keyboard (LK), a hierarchical framework that goes beyond the linear span. LK constructs a task-agnostic library of options from these eigenvectors, forming a behavior basis guaranteed to contain the optimal policy for any reward within the linear span. A meta-policy learns to stitch these options dynamically, enabling efficient learning of policies outside the original linear constraints. We establish theoretical bounds on zero-shot approximation error and demonstrate empirically that LK surpasses zero-shot solutions while achieving improved sample efficiency compared to standard RL methods.
- Abstract(参考訳): 科学の分野では、ラプラシア固有ベクトルは信号処理から量子力学まで複雑なシステムを単純化する基礎となる。
強化学習(RL)において、これらの固有ベクトルは報酬関数を近似するための自然な基礎を提供するが、それらの使用は通常、複雑な環境における表現性を制限する線形スパンに限られる。
線形スパンを超える階層的なフレームワークであるLaplacian Keyboard (LK)を紹介します。
LKはこれらの固有ベクトルからオプションのタスクに依存しないライブラリを構築し、線形スパン内の任意の報酬に対して最適なポリシーを含むことが保証される行動基盤を形成する。
メタ政治は、これらのオプションを動的に縫い合わせることを学び、元の線形制約の外のポリシーの効率的な学習を可能にします。
我々はゼロショット近似誤差の理論的境界を確立し、LKが標準RL法よりも改善されたサンプル効率を達成しつつゼロショット解を超えることを実証的に実証した。
関連論文リスト
- Revisiting LLM Reasoning via Information Bottleneck [57.519119962528166]
大規模言語モデル(LLM)は、最近、検証可能な報酬付き強化学習(RLVR)を通じて推論能力の顕著な進歩を示した。
本稿では,情報ボトルネック(IB)の原理に基づくLLM推論の理論的特徴について述べる。
IB対応推論最適化(IBRO)を提案する。
論文 参考訳(メタデータ) (2025-07-24T13:14:25Z) - Generalized Linear Markov Decision Process [9.219628236765933]
一般化線形モデル(GLM)を用いた一般化線形MDP(GLMDP)フレームワークモデル報酬
一般化悲観的値イテレーション(GPEVI)と半教師付き変種(SS-GPEVI)の2つのオフラインRLアルゴリズムを開発した。
提案アルゴリズムは,政策準最適性に関する理論的保証を達成し,報酬ラベルが高価あるいは制限された設定におけるサンプル効率の向上を実証する。
論文 参考訳(メタデータ) (2025-06-01T03:50:41Z) - On the Role of Transformer Feed-Forward Layers in Nonlinear In-Context Learning [31.908611830179108]
トランスフォーマーベースのモデルは、パラメータを更新せずに、いくつかのプロンプト例から目に見えないタスクに適応できる、コンテキスト内学習(ICL)の驚くべき能力を示す。
最近の研究は、トランスフォーマーがICLを実行する方法を示し、最適線形自己アテンション(LSA)機構が線形最小二乗目的に対して勾配勾配の1ステップを実現できることを示した。
論文 参考訳(メタデータ) (2025-01-30T07:41:20Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - Policy Gradient for Reinforcement Learning with General Utilities [50.65940899590487]
強化学習(Reinforcement Learning, RL)では、エージェントの目標は、期待される累積報酬を最大化する最適なポリシーを見つけることである。
教師なしと教師なしのRL問題の多くは、LLフレームワークには含まれていない。
一般ユーティリティによるRLのポリシー勾配定理を導出する。
論文 参考訳(メタデータ) (2022-10-03T14:57:46Z) - Sample Efficient Reinforcement Learning In Continuous State Spaces: A
Perspective Beyond Linearity [50.38337893712897]
線形性を仮定しないMDP上の構造条件であるEPW(Effective Planning Window)条件を導入する。
EPW条件は、この条件を満たすMDPを確実に解くアルゴリズムを提供することで、サンプル効率のよいRLを許容することを示した。
また, EPW のような条件の必要性も示し, わずかに非線形な単純な MDP を効率的にサンプリングできないことを示した。
論文 参考訳(メタデータ) (2021-06-15T00:06:59Z) - Sample-Efficient Reinforcement Learning Is Feasible for Linearly
Realizable MDPs with Limited Revisiting [60.98700344526674]
線形関数表現のような低複雑度モデルがサンプル効率のよい強化学習を可能にする上で重要な役割を果たしている。
本稿では,オンライン/探索的な方法でサンプルを描画するが,制御不能な方法で以前の状態をバックトラックし,再訪することができる新しいサンプリングプロトコルについて検討する。
この設定に合わせたアルゴリズムを開発し、特徴次元、地平線、逆の準最適ギャップと実際にスケールするサンプル複雑性を実現するが、状態/作用空間のサイズではない。
論文 参考訳(メタデータ) (2021-05-17T17:22:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。