Fugu-MT 論文翻訳(概要): Position: Deployed Reinforcement Learning should be Continual

論文の概要: Position: Deployed Reinforcement Learning should be Continual

arxiv url: http://arxiv.org/abs/2606.04029v2
Date: Sat, 06 Jun 2026 23:43:36 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-09 14:42:04.881968
Title: Position: Deployed Reinforcement Learning should be Continual
Title（参考訳）: ポジション: デプロイされた強化学習は継続されるべきである
Authors: Parnian Behdin, Kevin Roice, Golnaz Mesbahi,
Abstract要約: 最適性に欠けるエージェントをデプロイすることは、本質的に連続的なRL問題である、と我々は主張する。デプロイ後、絶え間ない学習を必要とする4つの非定常性ソースを特定し、最高のデプロイエージェントが適応をやめない理由を強調します。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement Learning (RL) has received increasing attention and adoption in real-world use cases. Most of these systems follow a train-then-fix paradigm, where trained agents do not learn while interacting with the world until performance degrades and retraining becomes necessary. In this position paper, we argue that deploying an agent that is incapable of optimality, but receives an evaluative reward signal, is inherently a continual RL problem. We identify four sources of non-stationarity after deployment that necessitate never-ending learning, and highlight why the best deployed agents never stop adapting. We analyze successful examples of continual RL in the real world, and present the community with the advantages and measures to move away from the current train-then-fix paradigm.
Abstract（参考訳）: 強化学習(Reinforcement Learning, RL)は、現実世界のユースケースにおいて注目を集め、採用されている。トレーニングされたエージェントは、パフォーマンスの低下と再トレーニングが必要とされるようになるまで、世界と対話しながら学習しない。本稿では,最適性に欠けるエージェントを配置することは本質的に連続的なRL問題である,と論じる。最終学習を必要とするデプロイ後の非定常性の4つのソースを特定し、最高のデプロイエージェントが適応をやめない理由を強調します。実世界における連続RLの成功例を分析し,現行の列車運行パラダイムから脱却するための利点と対策をコミュニティに提示する。

関連論文リスト

What and When to Distill: Selective Hindsight Distillation for Multi-Turn Agents [70.6980022118038]
強化学習は、緩やかなタスク報酬からLLMエージェントを訓練することができるが、長期的なクレジット割り当ては依然として困難である。既存の方法は、ステップごとの環境フィードバックを完全に活用することなく、軌道レベルの報酬やプロキシ信号に依存している。環境重み付け学習フレームワークであるSERLを紹介する。
論文参考訳（メタデータ） (2026-05-19T07:00:55Z)
On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models [73.10315509190623]
最近の強化学習技術は、言語モデルにおいて顕著な推論改善をもたらした。ポストトレーニングが、事前トレーニング中に取得したものを超えて、モデルの推論能力を真に拡張するかどうかは不明だ。プレトレーニング,ミッドトレーニング,およびRLベースのポストトレーニングの因果的貢献を分離する,完全に制御された実験フレームワークを開発した。
論文参考訳（メタデータ） (2025-12-08T18:12:10Z)
Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文参考訳（メタデータ） (2025-09-23T16:15:42Z)
Learning to Stabilize Online Reinforcement Learning in Unbounded State Spaces [13.544995860887298]
多くの強化学習(RL)応用において、我々は望ましい状態に到達し、制御されたシステムを許容範囲内に維持する政策を望んでいる。本研究では,オンライントレーニング中の所望状態への距離を直接最小化する深いRLアルゴリズムが,しばしば不安定なポリシーをもたらすことを発見した。 1)リアプノフに基づくコスト形成手法と,2)非有界状態空間への状態変換の2つの考え方に基づくアプローチを導入する。
論文参考訳（メタデータ） (2023-06-02T20:01:09Z)
When Learning Is Out of Reach, Reset: Generalization in Autonomous Visuomotor Reinforcement Learning [10.469509984098705]
エピソードトレーニング(英: Episodic training)とは、エージェントの環境が成功や失敗の度にリセットされ、強化学習(RL)エージェントを訓練する際のデファクトスタンダードである。この研究では、視覚エージェントを構築しながら、リセットを完全に排除するのではなく、最小限にしたいと考えています。提案手法は, 先行のエピソード, リセットフリー, リセット最小化アプローチよりも高い成功率を達成することができる。
論文参考訳（メタデータ） (2023-03-30T17:59:26Z)
Dynamics Generalization via Information Bottleneck in Deep Reinforcement Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文参考訳（メタデータ） (2020-08-03T02:24:20Z)
Transient Non-Stationarity and Generalisation in Deep Reinforcement Learning [67.34810824996887]
非定常性は、静止環境においても強化学習(Reinforcement Learning, RL)において生じることがある。深部RLエージェントの一般化を改善するため,ITER(Iterated Relearning)を提案する。
論文参考訳（メタデータ） (2020-06-10T13:26:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。