論文の概要: Optimistic Transfer under Task Shift via Bellman Alignment
- arxiv url: http://arxiv.org/abs/2601.21924v1
- Date: Thu, 29 Jan 2026 16:16:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.979645
- Title: Optimistic Transfer under Task Shift via Bellman Alignment
- Title(参考訳): ベルマンアライメントによるタスクシフト時の最適移動
- Authors: Jinhang Chai, Enpei Zhang, Elynn Chen, Yujun Yan,
- Abstract要約: マルコフ決定過程におけるオンライン転送強化学習(RL)について検討した。
オンラインRLにおける転送の正しい抽象化として,一段階のベルマンアライメントを同定する。
本稿では、継続値を再ターゲットとし、遷移ミスマッチを補償する演算子レベルの補正である、再重み付きターゲティング(RWT)を提案する。
- 参考スコア(独自算出の注目度): 5.192817801536311
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study online transfer reinforcement learning (RL) in episodic Markov decision processes, where experience from related source tasks is available during learning on a target task. A fundamental difficulty is that task similarity is typically defined in terms of rewards or transitions, whereas online RL algorithms operate on Bellman regression targets. As a result, naively reusing source Bellman updates introduces systematic bias and invalidates regret guarantees. We identify one-step Bellman alignment as the correct abstraction for transfer in online RL and propose re-weighted targeting (RWT), an operator-level correction that retargets continuation values and compensates for transition mismatch via a change of measure. RWT reduces task mismatch to a fixed one-step correction and enables statistically sound reuse of source data. This alignment yields a two-stage RWT $Q$-learning framework that separates variance reduction from bias correction. Under RKHS function approximation, we establish regret bounds that scale with the complexity of the task shift rather than the target MDP. Empirical results in both tabular and neural network settings demonstrate consistent improvements over single-task learning and naïve pooling, highlighting Bellman alignment as a model-agnostic transfer principle for online RL.
- Abstract(参考訳): 本稿では,マルコフ決定過程におけるオンライン伝達強化学習(RL)について検討する。
根本的な困難は、タスクの類似性が典型的には報酬や遷移の観点で定義されるのに対して、オンラインRLアルゴリズムはベルマン回帰ターゲットで動作することである。
その結果、ネギリユースソースのBellmanアップデートは、体系的なバイアスを導入し、後悔の保証を無効にする。
我々は、オンラインRLにおける転送の正しい抽象化としてワンステップベルマンアライメントを特定し、継続値の再ターゲティングと遷移ミスマッチの補償を行う演算子レベルの修正である、再重み付きターゲティング(RWT)を提案する。
RWTは、タスクミスマッチを固定されたワンステップ補正に還元し、ソースデータの統計的再利用を可能にする。
このアライメントは、2段階のRWT$Q$-learningフレームワークをもたらし、分散還元とバイアス補正を分離する。
RKHS関数近似の下では、ターゲットのMDPではなくタスクシフトの複雑さとスケールする後悔境界を確立する。
表とニューラルネットワークの設定における実証的な結果は、シングルタスク学習とナイーブプーリングよりも一貫した改善を示し、オンラインRLのモデルに依存しない転送原則としてベルマンのアライメントを強調している。
関連論文リスト
- Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - Omni-Thinker: Scaling Multi-Task RL in LLMs with Hybrid Reward and Task Scheduling [66.0871543682453]
我々はOmni-Thinkerについて紹介する。Omni-Thinkerは多種多様なタスクにわたって大きな言語モデルをスケールする統合強化学習フレームワークである。
我々のスケジューラは,BWTに基づいてタスクを順序付けし,マルチタスク性能を向上する。
論文 参考訳(メタデータ) (2025-07-20T01:50:16Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Revisiting the Robustness of the Minimum Error Entropy Criterion: A
Transfer Learning Case Study [16.07380451502911]
本稿では,非ガウス雑音に対処する最小誤差エントロピー基準のロバスト性を再考する。
本稿では,分散シフトが一般的である実生活伝達学習回帰タスクの実現可能性と有用性について検討する。
論文 参考訳(メタデータ) (2023-07-17T15:38:11Z) - Transfer Q-learning [46.69861865164196]
時間不均一な有限水平マルコフ決定過程 (MDP) は動的処理系における意思決定のモデル化によく用いられる。
これらの分野、特に医療とビジネスは、高次元状態空間やMDPプロセスの時間的不均一性といった課題に直面していることが多い。
対象のRLタスクと関連する複数のソースタスクからのデータを活用することにより,時間的不均一な有限水平MDP内の知識伝達について検討する。
論文 参考訳(メタデータ) (2022-02-09T20:08:19Z) - The Common Intuition to Transfer Learning Can Win or Lose: Case Studies for Linear Regression [26.5147705530439]
本稿では,学習対象パラメータと学習対象パラメータとの距離を正規化した線形回帰最適化として,対象タスクへの伝達学習アプローチを定義する。
十分関連するタスクに対して、最適に調整された転送学習手法が最適に調整されたリッジ回帰法より優れていることを示す。
論文 参考訳(メタデータ) (2021-03-09T18:46:01Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。