論文の概要: Adaptive Thompson Sampling Stacks for Memory Bounded Open-Loop Planning
- arxiv url: http://arxiv.org/abs/1907.05861v2
- Date: Thu, 28 Dec 2023 01:18:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-30 00:04:19.720602
- Title: Adaptive Thompson Sampling Stacks for Memory Bounded Open-Loop Planning
- Title(参考訳): メモリ有界開ループ計画のための適応トンプソンサンプリングスタック
- Authors: Thomy Phan, Thomas Gabor, Robert M\"uller, Christoph Roch, Claudia
Linnhoff-Popien
- Abstract要約: 本稿では,SYMBOL(Stable Yet Memory bounded Open-Loop)計画を提案する。
SYMBOLはトンプソンサンプリングバンディットの適応的なスタックを維持しており、そのサイズは計画的地平線によって制限され、生成モデルを超えた事前のドメイン知識なしに、基礎領域に従って自動的に適応することができる。
- 参考スコア(独自算出の注目度): 9.805886870200872
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Stable Yet Memory Bounded Open-Loop (SYMBOL) planning, a general
memory bounded approach to partially observable open-loop planning. SYMBOL
maintains an adaptive stack of Thompson Sampling bandits, whose size is bounded
by the planning horizon and can be automatically adapted according to the
underlying domain without any prior domain knowledge beyond a generative model.
We empirically test SYMBOL in four large POMDP benchmark problems to
demonstrate its effectiveness and robustness w.r.t. the choice of
hyperparameters and evaluate its adaptive memory consumption. We also compare
its performance with other open-loop planning algorithms and POMCP.
- Abstract(参考訳): 我々は,部分的に観測可能なオープンループ計画のための一般的なメモリバウンドアプローチである,安定でメモリバウンドなオープンループ計画(symbol planning)を提案する。
SYMBOLはトンプソンサンプリングバンディットの適応的なスタックを維持しており、そのサイズは計画的地平線によって制限され、生成モデルを超えた事前のドメイン知識なしに、基礎領域に従って自動的に適応することができる。
我々は、SYMBOLを4つの大きなPMDPベンチマーク問題で実証的にテストし、ハイパーパラメータの選択の有効性とロバスト性を実証し、適応メモリ消費を評価した。
また、その性能を他のオープンループ計画アルゴリズムやPOMCPと比較する。
関連論文リスト
- Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。
分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。
SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文 参考訳(メタデータ) (2024-10-22T17:59:30Z) - Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。
提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文 参考訳(メタデータ) (2024-10-02T08:46:34Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - Efficient Global Planning in Large MDPs via Stochastic Primal-Dual
Optimization [12.411844611718958]
提案手法は, 生成モデルに対する多数のクエリの後に, ほぼ最適ポリシーを出力することを示す。
提案手法は計算効率が高く,低次元パラメータベクトルでコンパクトに表現される単一のソフトマックスポリシーを出力する点が大きな利点である。
論文 参考訳(メタデータ) (2022-10-21T15:49:20Z) - Memory-Efficient Differentiable Programming for Quantum Optimal Control
of Discrete Lattices [1.5012666537539614]
量子最適制御問題は通常、GRAPEのような勾配に基づくアルゴリズムによって解決される。
QOCは、メモリ要件が大きなモデルや長時間のスパンをシミュレートする障壁であることを明らかにした。
我々は、適切な再計算コストでメモリ要求を大幅に削減する、非標準微分可能プログラミングアプローチを採用している。
論文 参考訳(メタデータ) (2022-10-15T20:59:23Z) - Dynamic Ensemble Size Adjustment for Memory Constrained Mondrian Forest [0.0]
本稿では,メモリ制約下では,木に基づくアンサンブル分類器のサイズを増大させることで,その性能が悪化することを示す。
データストリーム上でメモリバウンドのモンドリアン林に最適なアンサンブルサイズが存在することを実験的に示す。
本手法は,安定なデータセットに対して,最適な大きさのモンドリアン林の性能の最大95%を達成できると結論付けた。
論文 参考訳(メタデータ) (2022-10-11T18:05:58Z) - A Model or 603 Exemplars: Towards Memory-Efficient Class-Incremental
Learning [56.450090618578]
CIL(Class-Incremental Learning)は、この要件を満たすために、限られたメモリサイズでモデルをトレーニングすることを目的としている。
モデルサイズを総予算にカウントし,メモリサイズに整合する手法を比較すると,保存モデルは常に機能しないことを示す。
本稿では,メモリ効率のよい拡張可能なMOdelのための MEMO という,シンプルで効果的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-05-26T08:24:01Z) - Differentiable Random Access Memory using Lattices [0.0]
サイズに関係なく$O(1)$の異なるランダムアクセスメモリモジュールを導入する。
設計は選択された格子の点にエントリを格納し、対称性を利用して任意の点の最も近い近傍を効率的に計算する。
論文 参考訳(メタデータ) (2021-07-07T20:55:42Z) - Semantically Constrained Memory Allocation (SCMA) for Embedding in
Efficient Recommendation Systems [27.419109620575313]
ディープラーニングモデルの重要な課題は、数百万のカテゴリクラスやトークンを扱うことだ。
本稿では,記憶の共有を意味情報の重なりに比例して共有する,新しいメモリ共有埋め込み方式を提案する。
性能を維持しながらメモリフットプリントの大幅な削減を示す。
論文 参考訳(メタデータ) (2021-02-24T19:55:49Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。