論文の概要: Free Random Projection for In-Context Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2504.06983v1
- Date: Wed, 09 Apr 2025 15:38:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 13:07:04.120641
- Title: Free Random Projection for In-Context Reinforcement Learning
- Title(参考訳): 文脈強化学習のための自由ランダム投影
- Authors: Tomohiro Hayase, Benoît Collins, Nakamasa Inoue,
- Abstract要約: 自由確率論に基づく入力写像である自由ランダム射影を導入する。
フリーランダムプロジェクションは、既存のコンテキスト内強化学習フレームワークにシームレスに統合される。
マルチ環境ベンチマークの実証結果は、自由乱射影が標準乱射影よりも一貫して優れていることを示している。
- 参考スコア(独自算出の注目度): 10.638263204563657
- License:
- Abstract: Hierarchical inductive biases are hypothesized to promote generalizable policies in reinforcement learning, as demonstrated by explicit hyperbolic latent representations and architectures. Therefore, a more flexible approach is to have these biases emerge naturally from the algorithm. We introduce Free Random Projection, an input mapping grounded in free probability theory that constructs random orthogonal matrices where hierarchical structure arises inherently. The free random projection integrates seamlessly into existing in-context reinforcement learning frameworks by encoding hierarchical organization within the input space without requiring explicit architectural modifications. Empirical results on multi-environment benchmarks show that free random projection consistently outperforms the standard random projection, leading to improvements in generalization. Furthermore, analyses within linearly solvable Markov decision processes and investigations of the spectrum of kernel random matrices reveal the theoretical underpinnings of free random projection's enhanced performance, highlighting its capacity for effective adaptation in hierarchically structured state spaces.
- Abstract(参考訳): 階層的帰納バイアスは、明示的な双曲的潜在表現やアーキテクチャによって示されるように、強化学習における一般化可能なポリシーを促進すると仮定される。
したがって、より柔軟なアプローチは、これらのバイアスをアルゴリズムから自然に発生させることである。
フリーランダム射影(Free Random Projection)は、階層構造が本質的に生じるランダム直交行列を構成する自由確率理論に基づく入力写像である。
自由ランダムプロジェクションは、明示的なアーキテクチャ変更を必要とせず、入力空間内の階層的な組織を符号化することで、既存のコンテキスト内強化学習フレームワークにシームレスに統合する。
マルチ環境ベンチマークの実証的な結果は、自由乱射影が標準のランダム射影よりも一貫して優れており、一般化の改善につながっていることを示している。
さらに、線形可解マルコフ決定過程の解析とカーネルランダム行列のスペクトルの研究により、自由乱射影の強化された性能の理論的基盤が明らかとなり、階層的に構造化された状態空間における有効適応の能力が強調された。
関連論文リスト
- A Unified Regularization Approach to High-Dimensional Generalized Tensor Bandits [16.06016915165857]
意思決定シナリオは、高次元かつ文脈情報に富んだデータを含むことが多い。
これらの課題に対処するために,一般化線形テンソルバンド幅アルゴリズムを提案する。
私たちのフレームワークは、より良いバウンダリを提供するだけでなく、より広範な適用性も提供しています。
論文 参考訳(メタデータ) (2025-01-18T10:46:12Z) - Distributed Markov Chain Monte Carlo Sampling based on the Alternating
Direction Method of Multipliers [143.6249073384419]
本論文では,乗算器の交互方向法に基づく分散サンプリング手法を提案する。
我々は,アルゴリズムの収束に関する理論的保証と,その最先端性に関する実験的証拠の両方を提供する。
シミュレーションでは,線形回帰タスクとロジスティック回帰タスクにアルゴリズムを配置し,その高速収束を既存の勾配法と比較した。
論文 参考訳(メタデータ) (2024-01-29T02:08:40Z) - Bayesian Nonparametrics Meets Data-Driven Distributionally Robust Optimization [29.24821214671497]
機械学習と統計モデルのトレーニングは、しばしばデータ駆動型リスク基準の最適化を伴う。
ベイズ的非パラメトリック(ディリクレ過程)理論と、スムーズなあいまいさ-逆選好の最近の決定論的モデルを組み合わせた、新しいロバストな基準を提案する。
実用的な実装として、よく知られたディリクレプロセスの表現に基づいて、評価基準の抽出可能な近似を提案し、研究する。
論文 参考訳(メタデータ) (2024-01-28T21:19:15Z) - Consciousness-Inspired Spatio-Temporal Abstractions for Better Generalization in Reinforcement Learning [83.41487567765871]
Skipperはモデルベースの強化学習フレームワークである。
これは、与えられたタスクをより小さく、より管理しやすいサブタスクに自動的に一般化する。
環境の関連部分には、スパースな意思決定と集中した抽象化を可能にする。
論文 参考訳(メタデータ) (2023-09-30T02:25:18Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - Dynamic selection of p-norm in linear adaptive filtering via online
kernel-based reinforcement learning [8.319127681936815]
本研究は, 線形適応フィルタリングにおいて, 最適p-ノルムが外れ値と競合する問題に対して, 動的に選択する問題に対処する。
オンラインおよびデータ駆動型フレームワークはカーネルベース強化学習(KBRL)によって設計される
論文 参考訳(メタデータ) (2022-10-20T14:49:39Z) - Spectral Decomposition Representation for Reinforcement Learning [100.0424588013549]
本稿では, スペクトル分解表現法(SPEDER)を提案する。この手法は, データ収集ポリシーに急激な依存を生じさせることなく, ダイナミックスから状態-作用の抽象化を抽出する。
理論的解析により、オンライン設定とオフライン設定の両方において提案アルゴリズムのサンプル効率が確立される。
実験により、いくつかのベンチマークで現在の最先端アルゴリズムよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-08-19T19:01:30Z) - Risk Bounds for Learning via Hilbert Coresets [1.0312968200748116]
複素仮説クラスに対する密接かつ有意義な境界を明示的に計算する。
我々は、教師付き分類タスクの完全なサンプルリスクに対する上限を構築するためのフォーマリズムを開発する。
論文 参考訳(メタデータ) (2021-03-29T12:39:48Z) - Refined bounds for randomized experimental design [7.899055512130904]
実験的な設計は与えられた基準のための最もよい推定器を得るために与えられたセット間のサンプルを選ぶためのアプローチです。
EおよびG最適化設計におけるランダム化戦略の理論的保証を提案する。
論文 参考訳(メタデータ) (2020-12-22T20:37:57Z) - A General Framework for Consistent Structured Prediction with Implicit
Loss Embeddings [113.15416137912399]
構造化予測のための理論的・アルゴリズム的な枠組みを提案し,解析する。
問題に対して適切な幾何を暗黙的に定義する、損失関数の大規模なクラスについて検討する。
出力空間を無限の濃度で扱うとき、推定子の適切な暗黙の定式化が重要であることが示される。
論文 参考訳(メタデータ) (2020-02-13T10:30:04Z) - Target-Embedding Autoencoders for Supervised Representation Learning [111.07204912245841]
本稿では,対象空間が高次元な純粋教師付き環境における一般化の枠組みを解析する。
我々は、教師付き予測のための目標埋め込みオートエンコーダ(TEA)の一般的なフレームワークのモチベーションと形式化を行い、特徴とターゲットの予測の両方から予測可能なように最適化された中間潜在表現を学習する。
論文 参考訳(メタデータ) (2020-01-23T02:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。