論文の概要: Can We Really Learn One Representation to Optimize All Rewards?
- arxiv url: http://arxiv.org/abs/2602.11399v1
- Date: Wed, 11 Feb 2026 22:06:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.555181
- Title: Can We Really Learn One Representation to Optimize All Rewards?
- Title(参考訳): すべてのリワードを最適化するために1つの表現を本当に学べるか?
- Authors: Chongyi Zheng, Royina Karegoudra Jayanth, Benjamin Eysenbach,
- Abstract要約: 我々は、前向きの表現学習は、さらなる微調整をすることなく任意の報酬に対する最適な制御を可能にすると論じている。
本分析は、最適制御を可能とせず、政策改善の一段階を遂行する強化学習のための教師なし事前学習の簡易化を示唆する。
ドクティカル設定の実験、および状態ベースとイメージベースの連続制御ドメインの10ドルの実験は、ワンステップFBが105ドルの小さなエラーに収束し、ゼロショットのパフォーマンスを平均で24%以上改善することを示した。
- 参考スコア(独自算出の注目度): 31.057669391671144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As machine learning has moved towards leveraging large models as priors for downstream tasks, the community has debated the right form of prior for solving reinforcement learning (RL) problems. If one were to try to prefetch as much computation as possible, they would attempt to learn a prior over the policies for some yet-to-be-determined reward function. Recent work (forward-backward (FB) representation learning) has tried this, arguing that an unsupervised representation learning procedure can enable optimal control over arbitrary rewards without further fine-tuning. However, FB's training objective and learning behavior remain mysterious. In this paper, we demystify FB by clarifying when such representations can exist, what its objective optimizes, and how it converges in practice. We draw connections with rank matching, fitted Q-evaluation, and contraction mapping. Our analysis suggests a simplified unsupervised pre-training method for RL that, instead of enabling optimal control, performs one step of policy improvement. We call our proposed method $\textbf{one-step forward-backward representation learning (one-step FB)}$. Experiments in didactic settings, as well as in $10$ state-based and image-based continuous control domains, demonstrate that one-step FB converges to errors $10^5$ smaller and improves zero-shot performance by $+24\%$ on average. Our project website is available at https://chongyi-zheng.github.io/onestep-fb.
- Abstract(参考訳): 機械学習がダウンストリームタスクの先行として大きなモデルを活用する方向に進むにつれ、コミュニティは強化学習(RL)問題を解決するための事前の適切な形式について議論してきた。
もしできるだけ多くの計算をプリフェッチしようとすると、まだ決定されていない報酬関数のポリシーについて事前の学習を試みるだろう。
最近の研究(フォワード・バックワード(FB)表現学習)では、教師なしの表現学習手法により、さらなる微調整なしに任意の報酬を最適に制御できると主張している。
しかし、FBの訓練目標と学習行動は謎のままである。
本稿では,そのような表現がいつ存在するか,その目的が何を最適化するか,実際にどのように収束するかを明らかにすることでFBをデミストする。
我々は、ランクマッチング、適合Q評価、縮尺写像と接続する。
分析の結果,RLの教師なし事前学習の簡易化が示唆された。
我々は提案したメソッドを $\textbf{one-step forward-backward representation learning (one-step FB)}$ と呼ぶ。
ドクティカルな設定での実験や、状態ベースとイメージベースの連続制御ドメインでの実験では、ワンステップのFBが10^5$小さなエラーに収束し、ゼロショットのパフォーマンスを平均で+24\%以上向上することを示した。
プロジェクトのWebサイトはhttps://chongyi-zheng.github.io/onestep-fb.comで公開されている。
関連論文リスト
- What Can You Do When You Have Zero Rewards During RL? [3.0795668932789515]
結果に基づく報酬を伴う強化学習(RL)は、複雑な推論タスクにおいて大きな言語モデル(LLM)を改善するのに有効であることが証明されている。
本稿では,Bachmann et al. (2024) で導入されたグラフ検索タスクを通じて,このシナリオを検証し,望ましいコンポーネントを組み込んだ最近の手法を評価する。
トレーニングセットに簡単なサンプルを追加するという単純なデータ中心の介入によって、報酬のゼロから始まるにもかかわらず、モデルが最終的に元のハードタスクを解決できることが分かりました。
論文 参考訳(メタデータ) (2025-10-04T23:10:38Z) - Deep Reinforcement Learning with Gradient Eligibility Traces [28.93284550303061]
本稿では、$lambda$-returnに基づいて、一般化された$overlinetextPBE$目的を拡張し、マルチステップクレジット代入をサポートする。
我々は、経験的リプレイと互換性のあるフォワードビュー定式化と、ストリーミングアルゴリズムと互換性のある後方ビュー定式化の両方を提供する。
提案アルゴリズムは, MuJoCo 環境と MinAtar 環境においてPPO と StreamQ の両方より優れていることを示す。
論文 参考訳(メタデータ) (2025-07-12T00:12:05Z) - The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning [37.13807960501503]
検証可能な報酬を伴う強化学習(RLVR)は、言語モデル(LM)のトレーニングに有望なアプローチである
我々は学習信号を正しい応答の強化と正負の正負の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の
我々は、NSRが不正確な世代を抑え、確率質量を他の可算候補に向けて再分配することで、モデルの以前の信念に導かれることを示す。
論文 参考訳(メタデータ) (2025-06-02T06:10:54Z) - Highway Reinforcement Learning [35.980387097763035]
一連の政策によって収集された多段階のオフ政治データからの学習は、強化学習(RL)の中核的な問題である
我々は、過小評価問題を避け、最適なVFに収束する新しいISフリーマルチステップオフ政治手法を提案する。
これは、$n$が非常に大きい場合でも安全に学習する、新しい非政治的なRLアルゴリズムのファミリーを生み出します。
論文 参考訳(メタデータ) (2024-05-28T15:42:45Z) - Fast Propagation is Better: Accelerating Single-Step Adversarial
Training via Sampling Subnetworks [69.54774045493227]
逆行訓練の欠点は、逆行例の生成によって引き起こされる計算オーバーヘッドである。
モデルの内部構造ブロックを利用して効率を向上させることを提案する。
従来の手法と比較して,本手法はトレーニングコストを削減できるだけでなく,モデルの堅牢性も向上する。
論文 参考訳(メタデータ) (2023-10-24T01:36:20Z) - Task-Robust Pre-Training for Worst-Case Downstream Adaptation [62.05108162160981]
プレトレーニングは下流のタスクに移行することで大きな成功を収めた。
本稿では,下流タスクに対する一様性能を保証するモデルについて,事前学習について考察する。
論文 参考訳(メタデータ) (2023-06-21T07:43:23Z) - DPOK: Reinforcement Learning for Fine-tuning Text-to-Image Diffusion
Models [97.31200133440308]
我々は、オンライン強化学習を用いて、テキスト・ツー・イメージモデルを微調整する。
拡散モデルに焦点をあて、微調整タスクをRL問題として定義する。
我々のアプローチはDPOKと呼ばれ、政策最適化とKL正規化を統合している。
論文 参考訳(メタデータ) (2023-05-25T17:35:38Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - The Best of Both Worlds: Reinforcement Learning with Logarithmic Regret
and Policy Switches [84.54669549718075]
漸進的強化学習(RL)における後悔の最小化問題について検討する。
一般関数クラスと一般モデルクラスで学ぶことに集中する。
対数的後悔境界は$O(log T)$スイッチングコストのアルゴリズムによって実現可能であることを示す。
論文 参考訳(メタデータ) (2022-03-03T02:55:55Z) - Online Sub-Sampling for Reinforcement Learning with General Function
Approximation [111.01990889581243]
本稿では,RLアルゴリズムによって収集されたデータポイントの情報取得量を測定する,効率的なオンラインサブサンプリングフレームワークを確立する。
複雑性バウンド関数クラスを持つ値ベースのメソッドの場合、$proptooperatornamepolylog(K)$ timesに対してのみポリシーを更新する必要がある。
少なくとも$Omega(K)$倍のポリシーを更新する既存のアプローチとは対照的に、当社のアプローチはポリシーの解決における最適化コールの数を劇的に削減します。
論文 参考訳(メタデータ) (2021-06-14T07:36:25Z) - Learning One Representation to Optimize All Rewards [19.636676744015197]
我々は,報酬のないマルコフ決定プロセスのダイナミクスのフォワードバックワード(fb)表現を紹介する。
後尾に指定された報酬に対して、明確な準最適ポリシーを提供する。
これは任意のブラックボックス環境で制御可能なエージェントを学ぶためのステップです。
論文 参考訳(メタデータ) (2021-03-14T15:00:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。