論文の概要: Incoherence in goal-conditioned autoregressive models
- arxiv url: http://arxiv.org/abs/2510.06545v1
- Date: Wed, 08 Oct 2025 00:52:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.247731
- Title: Incoherence in goal-conditioned autoregressive models
- Title(参考訳): ゴール条件付き自己回帰モデルにおける非コヒーレンス
- Authors: Jacek Karwowski, Raymond Douglas,
- Abstract要約: 我々は、オンラインのRLを使って、オフラインで学習したポリシーを微調整する、独自のアクションでモデルを再学習するプロセスに焦点を当てる。
我々は、不整合を減少させ、見返りの改善につながることを証明し、政策の結果として生じる軌跡を特徴づけることを目指している。
- 参考スコア(独自算出の注目度): 0.7519872646378835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate mathematically the notion of incoherence: a structural issue with reinforcement learning policies derived by naive goal-conditioning of autoregressive models. We focus on the process of re-training models on their own actions, that is, fine-tuning offline-learned policies with online RL. We prove that it decreases incoherence and leads to an improvement in return, and we aim to characterize the resulting trajectory of policies. By re-framing standard notions of control-as-inference and soft Q learning, we establish a three-way correspondence with two other ways of understanding the iterative re-training process: as folding the posterior into the reward and, in the deterministic case, as decreasing the temperature parameter; the correspondence has computational content via the training-inference trade-off. Through soft-conditioning generative models, we discuss the link between incoherence and the effective horizon.
- Abstract(参考訳): 本研究では, 自己回帰モデルにおいて, 自己回帰モデルに対して, 目標条件を内在させることによる強化学習政策による構造的問題として, 不整合の概念を数学的に検討する。
我々は、オンラインのRLを使って、オフラインで学習したポリシーを微調整する、独自のアクションでモデルを再学習するプロセスに焦点を当てる。
我々は、不整合を減少させ、見返りの改善につながることを証明し、政策の結果として生じる軌跡を特徴づけることを目指している。
制御推論とソフトQ学習の標準概念を再フレーミングすることにより、報酬に後続を折り畳み、決定論的の場合、温度パラメータを減少させ、トレーニング推論トレードオフを介して計算内容を持つという、反復的再学習プロセスを理解するための2つの方法との3方向対応を確立する。
ソフトコンディショニング生成モデルを用いて,非コヒーレンスと有効地平線との関係を考察する。
関連論文リスト
- Alternating Reinforcement Learning for Rubric-Based Reward Modeling in Non-Verifiable LLM Post-Training [29.56905427210088]
Gragient-ARMは、好みのフィードバックから強化学習を使用するルーリックジェネレータとジャッジを共同で最適化するフレームワークである。
ベンチマークのベースライン間で、勾配-ARMは最先端のパフォーマンスを達成し、オフラインおよびオンラインの強化学習設定において、ダウンストリームポリシーアライメントを大幅に改善することを示す。
論文 参考訳(メタデータ) (2026-02-02T00:50:53Z) - Q-learning with Adjoint Matching [58.78551025170267]
本稿では,新しいTD-based reinforcement learning (RL)アルゴリズムであるAdjoint Matching (QAM) を用いたQ-learningを提案する。
QAMは、最近提案された生成モデリング手法であるadjoint matchingを活用することで、2つの課題を回避している。
オフラインとオフラインの両方のRLにおいて、ハードでスパースな報酬タスクに対する従来のアプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2026-01-20T18:45:34Z) - Generative Actor Critic [74.04971271003869]
Generative Actor Critic (GAC) は、軌道上での関節分布の生成モデル学習として、テキスト政治評価を反映して、シーケンシャルな意思決定を分離する新しいフレームワークである。
Gym-MuJoCoとMaze2Dベンチマークの実験では、GACの強いオフライン性能と、最先端の手法と比較してオフラインからオフラインへの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-12-25T06:31:11Z) - Model-Based Reinforcement Learning Under Confounding [3.5690236380446163]
文脈的マルコフ決定過程 (C-MDP) におけるモデルに基づく強化学習について検討し, 文脈が観測されず, オフラインデータセットのコンバウンディングを誘導する。
本研究では,代用変数の軽度可逆条件下での観測可能な状態-反応-逆軌道のみを用いて,共起型報酬期待を識別する近位オフポリシー評価手法を適用した。
提案した定式化により,コンテキスト情報が観測できない,利用できない,収集が不可能な,統合された環境下でのモデル学習と計画が可能である。
論文 参考訳(メタデータ) (2025-12-08T13:02:00Z) - SAC Flow: Sample-Efficient Reinforcement Learning of Flow-Based Policies via Velocity-Reparameterized Sequential Modeling [9.936731043466699]
多段階アクションサンプリングプロセスの勾配が原因で,非政治強化学習による表現型フローベース政策の訓練が不安定であることが知られている。
フローロールアウトはリカレント計算に代数的に等価であり、RNNと同様の消滅や爆発的な勾配に影響を受けやすい。
我々は,これらのポリシーのエンドツーエンドのトレーニングを容易にする,ノイズ強化ロールアウトによって実現された実用的なSACベースのアルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-09-30T04:21:20Z) - Neural Network Reprogrammability: A Unified Theme on Model Reprogramming, Prompt Tuning, and Prompt Instruction [57.19302613163439]
モデル適応のための統一フレームワークとして,ニューラルネットワークの再プログラム可能性を導入する。
本稿では,4つの重要な側面にまたがる情報操作アプローチを分類する分類法を提案する。
残る技術的課題や倫理的考察も分析する。
論文 参考訳(メタデータ) (2025-06-05T05:42:27Z) - Constrained Latent Action Policies for Model-Based Offline Reinforcement Learning [5.012314384895537]
オフラインの強化学習では、環境からの高価なフィードバックがなければ、静的なデータセットを使ってポリシーが学習される。
我々は,観察と行動の連関分布の生成モデルを学習する制約付き潜在行動ポリシー(C-LAP)を提案する。
論文 参考訳(メタデータ) (2024-11-07T09:35:22Z) - Learning a Diffusion Model Policy from Rewards via Q-Score Matching [93.0191910132874]
本稿では,拡散モデルポリシの構造を学習されたQ-関数に関連付ける理論的枠組みを提案する。
本稿では,この理論からQスコアマッチングを示す新しいポリシー更新手法を提案する。
論文 参考訳(メタデータ) (2023-12-18T23:31:01Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Offline Reinforcement Learning via High-Fidelity Generative Behavior
Modeling [34.88897402357158]
政策モデルの分布表現性に制限があるため,従来の手法はトレーニング中にも見つからない行動を選択する可能性がある。
我々は,学習方針を表現的生成行動モデルと行動評価モデルという2つの部分に分解して生成的アプローチを採用する。
提案手法は,最先端のオフラインRL法と比較して,競争力や優れた性能を実現する。
論文 参考訳(メタデータ) (2022-09-29T04:36:23Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。