論文の概要: Gradient Free Deep Reinforcement Learning With TabPFN
- arxiv url: http://arxiv.org/abs/2509.11259v1
- Date: Sun, 14 Sep 2025 13:09:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.001346
- Title: Gradient Free Deep Reinforcement Learning With TabPFN
- Title(参考訳): TabPFNによるグラディエントフリーディープ強化学習
- Authors: David Schiff, Ofir Lindenbaum, Yonathan Efroni,
- Abstract要約: 本稿では,Q関数近似器としてメタトレーニングされた変換器TabPFNを再利用した勾配自由深度RLフレームワークTabPFN RLを提案する。
我々はTabPFNを用いて推論のみを使用してQ値を予測する。
その結果,TabPFN などの既設ネットワークを高速かつ計算効率のよい RL の基盤として確立し,大規模な事前学習型トランスフォーマーによる勾配自由 RL の新たな方向性を開拓した。
- 参考スコア(独自算出の注目度): 23.140580395364207
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gradient based optimization is fundamental to most modern deep reinforcement learning algorithms, however, it introduces significant sensitivity to hyperparameters, unstable training dynamics, and high computational costs. We propose TabPFN RL, a novel gradient free deep RL framework that repurposes the meta trained transformer TabPFN as a Q function approximator. Originally developed for tabular classification, TabPFN is a transformer pre trained on millions of synthetic datasets to perform inference on new unseen datasets via in context learning. Given an in context dataset of sample label pairs and new unlabeled data, it predicts the most likely labels in a single forward pass, without gradient updates or task specific fine tuning. We use TabPFN to predict Q values using inference only, thereby eliminating the need for back propagation at both training and inference. To cope with the model's fixed context budget, we design a high reward episode gate that retains only the top 5% of trajectories. Empirical evaluations on the Gymnasium classic control suite demonstrate that TabPFN RL matches or surpasses Deep Q Network on CartPole v1, MountainCar v0, and Acrobot v1, without applying gradient descent or any extensive hyperparameter tuning. We discuss the theoretical aspects of how bootstrapped targets and non stationary visitation distributions violate the independence assumptions encoded in TabPFN's prior, yet the model retains a surprising generalization capacity. We further formalize the intrinsic context size limit of in context RL algorithms and propose principled truncation strategies that enable continual learning when the context is full. Our results establish prior fitted networks such as TabPFN as a viable foundation for fast and computationally efficient RL, opening new directions for gradient free RL with large pre trained transformers.
- Abstract(参考訳): 勾配に基づく最適化は、現代のディープ強化学習アルゴリズムの基本であるが、ハイパーパラメータに対する大きな感度、不安定なトレーニングダイナミクス、高い計算コストをもたらす。
本稿では,Q関数近似器としてメタトレーニングされた変換器TabPFNを再利用した,新しい勾配自由深度RLフレームワークTabPFN RLを提案する。
TabPFNはもともと表の分類のために開発されたもので、数百万の合成データセットで事前訓練されたトランスフォーマーで、文脈学習を通じて新しい未知のデータセットの推論を実行する。
サンプルラベルペアと新しいラベル付きデータのコンテキストデータセットが与えられた場合、勾配更新やタスク固有の微調整なしで、単一のフォワードパスにおける最も可能性の高いラベルを予測する。
我々はTabPFNを用いて推論のみを使用してQ値を予測する。
モデルの固定されたコンテキスト予算に対処するために,軌道の上位5%しか保持しない高報酬エピソードゲートを設計する。
Gymnasiumの古典的な制御スイートに関する実証的な評価は、TabPFN RLがCartPole v1、MountainCar v0、Acrobot v1のDeep Q Networkと一致するか、あるいは上回っていることを示している。
本稿では,TabPFN の先行する独立性仮定に自己資金による目標と非定常訪問分布がどのように違反するかという理論的側面について論じるが,そのモデルは驚くべき一般化能力を維持している。
さらに、コンテキストRLアルゴリズムの固有コンテキストサイズ制限を定式化し、コンテキストが満ちている場合に連続学習を可能にする原則的トランケーション戦略を提案する。
その結果,TabPFN などの既設ネットワークを高速かつ計算効率のよい RL の基盤として確立し,大規模な事前学習型トランスフォーマーによる勾配自由 RL の新たな方向性を開拓した。
関連論文リスト
- PACE: Marrying generalization in PArameter-efficient fine-tuning with Consistency rEgularization [35.922096876707975]
PACE は PArameter- efficient fine-tuning with Consistency rEgularization の一般化である。
拡張一般化のための勾配を暗黙的に正規化するが、知識を保持するために微調整されたモデルや事前訓練されたモデルも暗黙的に整列する。
また、テキスト分類(GLUE)や数学的推論においてLoRAを改善している。
論文 参考訳(メタデータ) (2024-09-25T17:56:00Z) - Tokenize features, enhancing tables: the FT-TABPFN model for tabular classification [13.481699494376809]
FT-TabPFNはTabPFNの拡張版で、分類機能をよりよく扱うための新しい機能トークン化レイヤを含んでいる。
私たちの完全なソースコードは、コミュニティの利用と開発に利用可能です。
論文 参考訳(メタデータ) (2024-06-11T02:13:46Z) - On Mesa-Optimization in Autoregressively Trained Transformers: Emergence and Capability [34.43255978863601]
いくつかの説では、トランスフォーマーはオートレアトレーニング中にmesa-optimizerを学習する。
データモーメントに関する強い仮定は、学習されたメザ最適化器が実行可能な十分な必要条件であることを示す。
論文 参考訳(メタデータ) (2024-05-27T05:41:06Z) - TuneTables: Context Optimization for Scalable Prior-Data Fitted Networks [90.00817095558094]
事前データ対応ネットワーク(PFN)は、事前学習とコンテキスト内学習を利用して、1つのフォワードパスで新しいタスクの強力なパフォーマンスを実現する。
我々は、大規模なデータセットをより小さな学習コンテキストに圧縮するPFNのパラメータ効率の良い微調整戦略であるTuneTablesを紹介した。
我々は、TuneTablesを解釈可能性ツールとして使用することができ、公平性目標を最適化することでバイアスを軽減することができることを示した。
論文 参考訳(メタデータ) (2024-02-17T00:02:23Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Scalable Real-Time Recurrent Learning Using Columnar-Constructive
Networks [19.248060562241296]
リアルタイム反復学習をスケーラブルにする2つの制約を提案する。
ネットワークを独立したモジュールに分解するか、段階的にネットワークを学習することで、RTRLをパラメータ数と線形にスケールできることを示す。
本稿では,動物学習とアタリ2600ゲームに対する事前学習ポリシーのポリシー評価により,Trncated-BPTTに対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2023-01-20T23:17:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。