論文の概要: Incoherence in goal-conditioned autoregressive models
- arxiv url: http://arxiv.org/abs/2510.06545v1
- Date: Wed, 08 Oct 2025 00:52:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.247731
- Title: Incoherence in goal-conditioned autoregressive models
- Title(参考訳): ゴール条件付き自己回帰モデルにおける非コヒーレンス
- Authors: Jacek Karwowski, Raymond Douglas,
- Abstract要約: 我々は、オンラインのRLを使って、オフラインで学習したポリシーを微調整する、独自のアクションでモデルを再学習するプロセスに焦点を当てる。
我々は、不整合を減少させ、見返りの改善につながることを証明し、政策の結果として生じる軌跡を特徴づけることを目指している。
- 参考スコア(独自算出の注目度): 0.7519872646378835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate mathematically the notion of incoherence: a structural issue with reinforcement learning policies derived by naive goal-conditioning of autoregressive models. We focus on the process of re-training models on their own actions, that is, fine-tuning offline-learned policies with online RL. We prove that it decreases incoherence and leads to an improvement in return, and we aim to characterize the resulting trajectory of policies. By re-framing standard notions of control-as-inference and soft Q learning, we establish a three-way correspondence with two other ways of understanding the iterative re-training process: as folding the posterior into the reward and, in the deterministic case, as decreasing the temperature parameter; the correspondence has computational content via the training-inference trade-off. Through soft-conditioning generative models, we discuss the link between incoherence and the effective horizon.
- Abstract(参考訳): 本研究では, 自己回帰モデルにおいて, 自己回帰モデルに対して, 目標条件を内在させることによる強化学習政策による構造的問題として, 不整合の概念を数学的に検討する。
我々は、オンラインのRLを使って、オフラインで学習したポリシーを微調整する、独自のアクションでモデルを再学習するプロセスに焦点を当てる。
我々は、不整合を減少させ、見返りの改善につながることを証明し、政策の結果として生じる軌跡を特徴づけることを目指している。
制御推論とソフトQ学習の標準概念を再フレーミングすることにより、報酬に後続を折り畳み、決定論的の場合、温度パラメータを減少させ、トレーニング推論トレードオフを介して計算内容を持つという、反復的再学習プロセスを理解するための2つの方法との3方向対応を確立する。
ソフトコンディショニング生成モデルを用いて,非コヒーレンスと有効地平線との関係を考察する。
関連論文リスト
- SAC Flow: Sample-Efficient Reinforcement Learning of Flow-Based Policies via Velocity-Reparameterized Sequential Modeling [9.936731043466699]
多段階アクションサンプリングプロセスの勾配が原因で,非政治強化学習による表現型フローベース政策の訓練が不安定であることが知られている。
フローロールアウトはリカレント計算に代数的に等価であり、RNNと同様の消滅や爆発的な勾配に影響を受けやすい。
我々は,これらのポリシーのエンドツーエンドのトレーニングを容易にする,ノイズ強化ロールアウトによって実現された実用的なSACベースのアルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-09-30T04:21:20Z) - Constrained Latent Action Policies for Model-Based Offline Reinforcement Learning [5.012314384895537]
オフラインの強化学習では、環境からの高価なフィードバックがなければ、静的なデータセットを使ってポリシーが学習される。
我々は,観察と行動の連関分布の生成モデルを学習する制約付き潜在行動ポリシー(C-LAP)を提案する。
論文 参考訳(メタデータ) (2024-11-07T09:35:22Z) - Learning a Diffusion Model Policy from Rewards via Q-Score Matching [93.0191910132874]
本稿では,拡散モデルポリシの構造を学習されたQ-関数に関連付ける理論的枠組みを提案する。
本稿では,この理論からQスコアマッチングを示す新しいポリシー更新手法を提案する。
論文 参考訳(メタデータ) (2023-12-18T23:31:01Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Offline Reinforcement Learning via High-Fidelity Generative Behavior
Modeling [34.88897402357158]
政策モデルの分布表現性に制限があるため,従来の手法はトレーニング中にも見つからない行動を選択する可能性がある。
我々は,学習方針を表現的生成行動モデルと行動評価モデルという2つの部分に分解して生成的アプローチを採用する。
提案手法は,最先端のオフラインRL法と比較して,競争力や優れた性能を実現する。
論文 参考訳(メタデータ) (2022-09-29T04:36:23Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。