Fugu-MT 論文翻訳(概要): Decision Stacks: Flexible Reinforcement Learning via Modular Generative Models

論文の概要: Decision Stacks: Flexible Reinforcement Learning via Modular Generative Models

arxiv url: http://arxiv.org/abs/2306.06253v2
Date: Sun, 29 Oct 2023 21:48:34 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-31 21:26:19.049944
Title: Decision Stacks: Flexible Reinforcement Learning via Modular Generative Models
Title（参考訳）: 決定スタック: モジュール生成モデルによる柔軟な強化学習
Authors: Siyan Zhao and Aditya Grover
Abstract要約: Decision Stacksは、ゴール条件付きポリシーエージェントを3つの生成モジュールに分解する生成フレームワークである。これらのモジュールは、教師の強制によって並列に学習できる独立した生成モデルを通じて、観察、報酬、行動の時間的進化をシミュレートする。我々のフレームワークは、アーキテクチャバイアス、最適化目標とダイナミクス、ドメイン間の転送可能性、推論速度といった重要な要素を考慮するために、個々のモジュールを設計する際の表現性と柔軟性の両方を保証します。
参考スコア（独自算出の注目度）: 37.79386205079626
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement learning presents an attractive paradigm to reason about several distinct aspects of sequential decision making, such as specifying complex goals, planning future observations and actions, and critiquing their utilities. However, the combined integration of these capabilities poses competing algorithmic challenges in retaining maximal expressivity while allowing for flexibility in modeling choices for efficient learning and inference. We present Decision Stacks, a generative framework that decomposes goal-conditioned policy agents into 3 generative modules. These modules simulate the temporal evolution of observations, rewards, and actions via independent generative models that can be learned in parallel via teacher forcing. Our framework guarantees both expressivity and flexibility in designing individual modules to account for key factors such as architectural bias, optimization objective and dynamics, transferrability across domains, and inference speed. Our empirical results demonstrate the effectiveness of Decision Stacks for offline policy optimization for several MDP and POMDP environments, outperforming existing methods and enabling flexible generative decision making.
Abstract（参考訳）: 強化学習は、複雑な目標の特定、将来の観察と行動の計画、ユーティリティの評価など、シーケンシャルな意思決定のいくつかの異なる側面を推論するための魅力的なパラダイムを提供する。しかし、これらの能力の統合は、効率的な学習と推論のためのモデリング選択の柔軟性を許容しながら、最大表現性を維持するためのアルゴリズム的課題を競合する。目標条件付きポリシーエージェントを3つの生成モジュールに分解する生成フレームワークであるDecision Stacksを提案する。これらのモジュールは、教師の強制によって並列に学習できる独立した生成モデルを通じて、観察、報酬、行動の時間的進化をシミュレートする。このフレームワークは、アーキテクチャバイアス、最適化目標とダイナミクス、ドメイン間の転送可能性、推論速度といった重要な要因を考慮して、個々のモジュールを設計する際の表現性と柔軟性の両方を保証します。実験の結果,いくつかのMDPおよびPMDP環境におけるオフラインポリシー最適化における決定スタックの有効性が実証された。

関連論文リスト

An Integrated Fusion Framework for Ensemble Learning Leveraging Gradient Boosting and Fuzzy Rule-Based Models [59.13182819190547]
ファジィ規則に基づくモデルは解釈可能性に優れ、様々な分野に広く応用されている。複雑な設計仕様や大規模データセットのスケーラビリティといった課題に直面している。本稿では,モデル性能と解釈可能性を高めるために,両パラダイムの強みを融合した統合統合フレームワークを提案する。
論文参考訳（メタデータ） (2025-11-11T10:28:23Z)
Efficient Solution and Learning of Robust Factored MDPs [57.2416302384766]
未知の環境との相互作用からr-MDPを学習することで、性能保証による堅牢なポリシーの合成が可能になる。本稿では,因子状態表現に基づくr-MDPの解法と学習法を提案する。
論文参考訳（メタデータ） (2025-08-01T15:23:15Z)
Learning Temporal Abstractions via Variational Homomorphisms in Option-Induced Abstract MDPs [17.335266921332092]
大規模言語モデル(LLMs)は、明示的なChain-of-Thoughtプロンプトを通じて、顕著な推論能力を示している。モデルがすべてのステップに対して明示的なテキストを生成することなく、潜在空間で"考え"する、効率的で暗黙的な推論のためのフレームワークを開発する。
論文参考訳（メタデータ） (2025-07-22T11:22:58Z)
Feature-Based vs. GAN-Based Learning from Demonstrations: When and Why [50.191655141020505]
この調査は、デモから学ぶ機能ベースのアプローチとGANベースのアプローチの比較分析を提供する。特徴に基づく手法とGANに基づく手法の2分法はますます曖昧になっていると我々は主張する。
論文参考訳（メタデータ） (2025-07-08T11:45:51Z)
Learning Dynamic Representations via An Optimally-Weighted Maximum Mean Discrepancy Optimization Framework for Continual Learning [16.10753846850319]
継続的な学習は、モデルを永続的に取得し、保持することを可能にする。悲惨な忘れ物はモデルパフォーマンスを著しく損なう本稿では,表現変更に対する罰則を課す,OPMMD(Optimally-Weighted Mean Discrepancy)と呼ばれる新しいフレームワークを紹介する。
論文参考訳（メタデータ） (2025-01-21T13:33:45Z)
Closed-form merging of parameter-efficient modules for Federated Continual Learning [9.940242741914748]
一度に1つのLoRA行列をトレーニングする交代最適化戦略であるLoRMを導入する。これにより、未知の変数を個別に解くことができ、ユニークな解を見つけることができる。本手法は,さまざまなFCILシナリオにおける最先端性能を示す。
論文参考訳（メタデータ） (2024-10-23T15:30:13Z)
On the Modeling Capabilities of Large Language Models for Sequential Decision Making [52.128546842746246]
大規模な事前訓練されたモデルでは、推論や計画タスクのパフォーマンスがますます向上している。我々は、直接的または間接的に、意思決定ポリシーを作成する能力を評価する。未知の力学を持つ環境において、合成データを用いた微調整LDMが報酬モデリング能力を大幅に向上させる方法について検討する。
論文参考訳（メタデータ） (2024-10-08T03:12:57Z)
Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。 HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。 HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文参考訳（メタデータ） (2024-06-12T08:48:06Z)
Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文参考訳（メタデータ） (2024-02-09T07:45:26Z)
Attitudes and Latent Class Choice Models using Machine learning [0.0]
LCCM (Latent Class Choice Models) の仕様において, 位置インジケータを効率的に組み込む手法を提案する。この定式化は、位置指標と決定選択との関係を探索する能力において構造方程式を克服する。我々は,デンマークのコペンハーゲンから,カーシェアリング(Car-Sharing, CS)サービスサブスクリプションの選択を推定するためのフレームワークをテストした。
論文参考訳（メタデータ） (2023-02-20T10:03:01Z)
Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-12-17T00:26:31Z)
Revisiting GANs by Best-Response Constraint: Perspective, Methodology, and Application [49.66088514485446]
ベストレスポンス制約(Best-Response Constraint、BRC)は、ジェネレータのディスクリミネータへの依存性を明示的に定式化する一般的な学習フレームワークである。モチベーションや定式化の相違があっても, フレキシブルBRC法により, 様々なGANが一様に改善できることが示される。
論文参考訳（メタデータ） (2022-05-20T12:42:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。