論文の概要: Diverse Transformer Decoding for Offline Reinforcement Learning Using Financial Algorithmic Approaches
- arxiv url: http://arxiv.org/abs/2502.10473v1
- Date: Thu, 13 Feb 2025 15:51:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:15:00.155344
- Title: Diverse Transformer Decoding for Offline Reinforcement Learning Using Financial Algorithmic Approaches
- Title(参考訳): 金融アルゴリズムを用いたオフライン強化学習のためのディバーストランスフォーマーデコーディング
- Authors: Dan Elbaz, Oren Salzman,
- Abstract要約: Portfolio Beam Search (PBS) はビームサーチ (BS) の簡便な代替手段である
我々は、推論時に逐次復号アルゴリズムに統合される不確実性を考慮した多様化機構を開発する。
D4RLベンチマークにおけるPBSの有効性を実証的に実証した。
- 参考スコア(独自算出の注目度): 4.364595470673757
- License:
- Abstract: Offline Reinforcement Learning (RL) algorithms learn a policy using a fixed training dataset, which is then deployed online to interact with the environment and make decisions. Transformers, a standard choice for modeling time-series data, are gaining popularity in offline RL. In this context, Beam Search (BS), an approximate inference algorithm, is the go-to decoding method. Offline RL eliminates the need for costly or risky online data collection. However, the restricted dataset induces uncertainty as the agent may encounter unfamiliar sequences of states and actions during execution that were not covered in the training data. In this context, BS lacks two important properties essential for offline RL: It does not account for the aforementioned uncertainty, and its greedy left-right search approach often results in sequences with minimal variations, failing to explore potentially better alternatives. To address these limitations, we propose Portfolio Beam Search (PBS), a simple-yet-effective alternative to BS that balances exploration and exploitation within a Transformer model during decoding. We draw inspiration from financial economics and apply these principles to develop an uncertainty-aware diversification mechanism, which we integrate into a sequential decoding algorithm at inference time. We empirically demonstrate the effectiveness of PBS on the D4RL locomotion benchmark, where it achieves higher returns and significantly reduces outcome variability.
- Abstract(参考訳): オフライン強化学習(RL)アルゴリズムは、固定トレーニングデータセットを使用してポリシーを学び、それをオンラインにデプロイして環境と対話し、意思決定する。
時系列データをモデリングするための標準選択であるTransformersは、オフラインRLで人気を集めている。
この文脈では、近似推論アルゴリズムであるビームサーチ (BS) がgo-to decoding法である。
オフラインRLは、コストやリスクの高いオンラインデータ収集の必要性を排除します。
しかし、制限されたデータセットは、エージェントがトレーニングデータに含まれていない実行中に、不慣れな状態や動作のシーケンスに遭遇する可能性があるため、不確実性を引き起こす。
この文脈では、BS はオフライン RL に不可欠な2つの重要な性質を欠いている: 上記の不確かさを考慮せず、その欲求的な左利きの探索アプローチは、しばしば最小のばらつきを持つ列をもたらし、潜在的により良い選択肢を探索することができない。
これらの制約に対処するため,Portfolio Beam Search (PBS) を提案する。
我々は、金融経済学からインスピレーションを得て、これらの原則を適用して、推論時に逐次復号アルゴリズムに統合する不確実性を考慮した多様化メカニズムを開発する。
D4RLロコモーションベンチマークにおけるPBSの有効性を実証的に実証した。
関連論文リスト
- Robust Offline Reinforcement Learning for Non-Markovian Decision Processes [48.9399496805422]
本研究では,ロバストな非マルコフRLの学習問題について検討する。
本研究では,不確実性セットの異なるタイプ下でのロバストな値に対して,新しいデータセット蒸留と低信頼境界(LCB)設計を導入する。
さらに、オフラインの低ランク非マルコフ決定プロセスに適した新しいI型集中係数を導入することにより、我々のアルゴリズムが$epsilon$-optimal robust policyを見つけることができることを証明した。
論文 参考訳(メタデータ) (2024-11-12T03:22:56Z) - Bridging Distributionally Robust Learning and Offline RL: An Approach to
Mitigate Distribution Shift and Partial Data Coverage [32.578787778183546]
オフライン強化学習(RL)アルゴリズムは、過去の(オフライン)データを用いて最適な警察を学習する。
オフラインRLの主な課題の1つは、分散シフトである。
分散ロバスト学習(DRL)フレームワークを用いた2つのオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-27T19:19:30Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Wall Street Tree Search: Risk-Aware Planning for Offline Reinforcement
Learning [8.089234432461804]
オフライン強化学習(RL)アルゴリズムは、追加のオンラインデータ収集を行うことなく、所定の固定トレーニングデータセットを使用して意思決定を学習する。
この問題は、以前収集したデータセットを環境とのコストやリスクのない相互作用なしに活用する、という約束があるからである。
オフラインRLのための簡易かつ高効率なリスク対応計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-06T07:42:24Z) - Pessimistic Bootstrapping for Uncertainty-Driven Offline Reinforcement
Learning [125.8224674893018]
オフライン強化学習(RL)は、環境を探索することなく、以前に収集したデータセットからポリシーを学ぶことを目的としている。
オフポリシーアルゴリズムをオフラインRLに適用することは、通常、オフ・オブ・ディストリビューション(OOD)アクションによって引き起こされる外挿エラーによって失敗する。
本稿では,PBRL(Pepsimistic Bootstrapping for offline RL)を提案する。
論文 参考訳(メタデータ) (2022-02-23T15:27:16Z) - The Least Restriction for Offline Reinforcement Learning [0.0]
我々は、創造的なオフライン強化学習フレームワーク、Least Restriction (LR)を提案する。
LRは、アクションを選択することを確率分布からサンプルを取るとみなす。
ランダムとサブ最適のデモを含む、さまざまなオフラインデータセットから堅牢に学習することができる。
論文 参考訳(メタデータ) (2021-07-05T01:50:40Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。