論文の概要: Can Tabular Foundation Models Guide Exploration in Robot Policy Learning?
- arxiv url: http://arxiv.org/abs/2604.27667v1
- Date: Thu, 30 Apr 2026 10:04:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:54.034108
- Title: Can Tabular Foundation Models Guide Exploration in Robot Policy Learning?
- Title(参考訳): タブラル基礎モデルはロボット政策学習における探索をガイドできるか?
- Authors: Buqing Ou, Frederike Dümbgen,
- Abstract要約: ロボット工学における高次元連続制御の政策最適化は依然として難しい問題である。
TFM-S3は,ロボットポリシー学習におけるグローバルな探索を,ロールアウトコストの制限で改善するためのハイブリッドなローカル・グローバルな手法である。
連続制御ベンチマーク実験により、TFM-S3は、TD3や人口ベースラインと比較して、常に早期収束を加速し、最終性能を向上させることが示された。
- 参考スコア(独自算出の注目度): 2.964978357715084
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Policy optimization in high-dimensional continuous control for robotics remains a challenging problem. Predominant methods are inherently local and often require extensive tuning and carefully chosen initial guesses for good performance, whereas more global and less initialization-sensitive search methods typically incur high rollout costs. We propose TFM-S3, a tabular hybrid local-global method for improving global exploration in robot policy learning with limited rollout cost. We interleave high-frequency local updates with intermittent rounds of global search. In each search round, we construct a dynamically updated low-dimensional policy subspace via SVD and perform iterative surrogate-guided refinement within this space. A pretrained tabular foundation model predicts candidate returns from a small context set, enabling large-scale screening with limited rollout cost. Experiments on continuous control benchmarks show that TFM-S3 consistently accelerates early-stage convergence and improves final performance compared to TD3 and population-based baselines under an identical rollout budget. These results demonstrate that foundation models are a powerful new tool for creating sample-efficient policy learning methods for continuous control in robotics.
- Abstract(参考訳): ロボット工学における高次元連続制御の政策最適化は依然として難しい問題である。
優先的な手法は本質的に局所的であり、多くの場合、優れたパフォーマンスのために広範囲なチューニングと慎重に選択された初期推定を必要とするが、よりグローバルで、より初期化に敏感な探索手法は、通常、高いロールアウトコストを発生させる。
限定的なロールアウトコストでロボットポリシー学習におけるグローバル探索を改善するための表型ハイブリッドローカル・グローバル手法であるFM-S3を提案する。
我々は、断続的なグローバル検索のラウンドで、高周波ローカル更新をインターリーブする。
各サーチラウンドにおいて、SVDを介して動的に更新された低次元ポリシー部分空間を構築し、この空間内で反復的な代理誘導精製を行う。
事前訓練された表形式の基礎モデルは、小さなコンテキストセットから候補を返すことを予測し、ロールアウトコストが制限された大規模スクリーニングを可能にする。
連続制御ベンチマークの実験では、TFM-S3は早期収束を継続的に加速し、TD3や人口ベースラインと比べて最終性能を向上させる。
これらの結果は,ロボット工学における継続的制御のための,サンプル効率のよいポリシー学習手法を構築するための,基礎モデルが強力な新しいツールであることを示す。
関連論文リスト
- Hi-WM: Human-in-the-World-Model for Scalable Robot Post-Training [54.896907620476675]
本稿では,学習世界モデルを用いた学習後学習フレームワークを提案する。
Hi-WMは中間状態をキャッシュし、ロールバックとブランチをサポートする。
我々は、剛性と変形性のあるオブジェクト相互作用と2つのポリシーバックボーンにまたがる3つの実世界の操作タスクについて、Hi-WMを評価する。
論文 参考訳(メタデータ) (2026-04-23T14:42:54Z) - Deep Dense Exploration for LLM Reinforcement Learning via Pivot-Driven Resampling [13.584783462913535]
Deep Dense Exploration (DDE) は、$textitpivots$-deep、リカバリ可能な状態を軌道上で探索する戦略である。
我々の手法はGRPOや木に基づく手法、その他の強力なベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2026-02-15T14:44:15Z) - Slow-Fast Policy Optimization: Reposition-Before-Update for LLM Reasoning [45.51804571136028]
強化学習(RL)は、大規模言語モデル(LLM)における推論の強化の中心となっている。
Slow-Fast Policy Optimization (SFPO)は,各ステップを3段階に分解することで,これらの制限に対処する,シンプルかつ効率的なフレームワークである。
SFPOは安定性を継続的に改善し、ロールアウトを低減し、推論RLトレーニングの収束を加速する。
論文 参考訳(メタデータ) (2025-10-05T07:22:54Z) - Not All Rollouts are Useful: Down-Sampling Rollouts in LLM Reinforcement Learning [55.15106182268834]
検証可能な報奨付き強化学習(RLVR)が,大規模言語モデルにおける推論能力向上のための主要なアプローチとして登場した。
ロールアウト生成は恥ずかしく並列であり、メモリライトであるのに対して、ポリシー更新は通信量が多く、メモリ集約的である。
PODS(Policy Optimization with Down-Sampling)を導入し、戦略的に選択されたロールアウトサブセットでのみトレーニングすることで、ポリシー更新からロールアウト生成を分離する。
論文 参考訳(メタデータ) (2025-04-18T17:49:55Z) - Scalable Online Exploration via Coverability [45.66375686120087]
探索は、特に関数近似を必要とする高次元領域において、強化学習において大きな課題である。
従来の探索手法を一般化し,3つの基本デシラタをサポートする新しい目的である$L_Coverageを導入する。
$L_Coverageは、カバー可能性の低いMDPにおけるオンライン(リワードフリーまたは報酬駆動)強化学習のための、最初の計算効率のよいモデルベースおよびモデルフリーのアルゴリズムを可能にする。
論文 参考訳(メタデータ) (2024-03-11T10:14:06Z) - Reinforcement Learning from Human Feedback with Active Queries [59.855433734053555]
現在の強化学習アプローチは、多くの場合、大量の人間による嗜好データを必要とする。
本稿では,能動学習の成功に触発された問合せ効率の高いRLHF手法を提案する。
実験の結果,ADPOは人間の好みに対するクエリの約半分しか作成していないが,最先端のDPO法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2024-02-14T18:58:40Z) - Confidence-Controlled Exploration: Efficient Sparse-Reward Policy Learning for Robot Navigation [72.24964965882783]
強化学習(RL)はロボットナビゲーションにおいて有望なアプローチであり、ロボットは試行錯誤を通じて学習することができる。
現実世界のロボットタスクは、しばしばまばらな報酬に悩まされ、非効率な探索と準最適政策に繋がる。
本稿では,RLに基づくロボットナビゲーションにおいて,報酬関数を変更せずにサンプル効率を向上させる新しい手法であるConfidence-Controlled Exploration (CCE)を紹介する。
論文 参考訳(メタデータ) (2023-06-09T18:45:15Z) - Exploration via Planning for Information about the Optimal Trajectory [67.33886176127578]
我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。
本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2022-10-06T20:28:55Z) - Tightly Coupled Learning Strategy for Weakly Supervised Hierarchical
Place Recognition [0.09558392439655011]
本稿では,三重項モデルを学習するための密結合学習(TCL)戦略を提案する。
グローバルデクリプタとローカルデクリプタを組み合わせて、共同最適化を行う。
我々の軽量統一モデルは、いくつかの最先端手法よりも優れている。
論文 参考訳(メタデータ) (2022-02-14T03:20:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。