論文の概要: Finite sample learning of moving targets
- arxiv url: http://arxiv.org/abs/2408.04406v1
- Date: Thu, 8 Aug 2024 12:15:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-09 15:38:36.176226
- Title: Finite sample learning of moving targets
- Title(参考訳): 移動目標の有限サンプル学習
- Authors: Nikolaus Vertovec, Kostas Margellos, Maria Prandini,
- Abstract要約: 対象のほぼ正しい推定値(PAC)を構築するのに必要なサンプル数に縛られた小説を導出する。
提案手法は,自律型緊急ブレーキへの応用について実証した。
- 参考スコア(独自算出の注目度): 1.6874375111244329
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider a moving target that we seek to learn from samples. Our results extend randomized techniques developed in control and optimization for a constant target to the case where the target is changing. We derive a novel bound on the number of samples that are required to construct a probably approximately correct (PAC) estimate of the target. Furthermore, when the moving target is a convex polytope, we provide a constructive method of generating the PAC estimate using a mixed integer linear program (MILP). The proposed method is demonstrated on an application to autonomous emergency braking.
- Abstract(参考訳): サンプルから学ぶための移動目標について検討する。
その結果,一定目標に対する制御と最適化のために開発されたランダム化手法を,目標が変化している場合に拡張した。
対象のほぼ正しい推定値(PAC)を構築するのに必要なサンプル数に縛られた小説を導出する。
さらに,移動対象が凸多面体である場合,混合整数線形プログラム(MILP)を用いてPAC推定を生成する構築的手法を提案する。
提案手法は,自律型緊急ブレーキへの応用について実証した。
関連論文リスト
- Truncating Trajectories in Monte Carlo Policy Evaluation: an Adaptive Approach [51.76826149868971]
モンテカルロシミュレーションによる政策評価は多くのMC強化学習(RL)アルゴリズムの中核にある。
本研究では,異なる長さの軌跡を用いた回帰推定器の平均二乗誤差のサロゲートとして品質指標を提案する。
本稿では,Robust and Iterative Data Collection Strategy Optimization (RIDO) という適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-17T11:47:56Z) - Differentiating Policies for Non-Myopic Bayesian Optimization [5.793371273485735]
本稿では,ロールアウト関数とその勾配を効率的に推定し,サンプリングポリシを実現する方法を示す。
本稿では,ロールアウト関数とその勾配を効率的に推定し,サンプリングポリシを実現する方法について述べる。
論文 参考訳(メタデータ) (2024-08-14T21:00:58Z) - Model-Free Active Exploration in Reinforcement Learning [53.786439742572995]
強化学習における探索問題について検討し,新しいモデルフリーソリューションを提案する。
我々の戦略は、最先端の探査アプローチよりも高速に効率的な政策を特定できる。
論文 参考訳(メタデータ) (2024-06-30T19:00:49Z) - A Practical Diffusion Path for Sampling [8.174664278172367]
拡散モデルは生成モデルにおいてランゲヴィン過程を導くスコアベクトルを推定するために用いられる。
従来のアプローチはモンテカルロ推定器に依存しており、計算的に計算量が多いか、サンプル非効率である。
そこで我々は,いわゆる拡張経路に依存して,クローズド形式で利用可能なスコアベクトルを生成する,計算的に魅力的な代替案を提案する。
論文 参考訳(メタデータ) (2024-06-20T07:00:56Z) - Adaptive importance sampling for heavy-tailed distributions via
$\alpha$-divergence minimization [2.879807093604632]
提案手法は,学生の提案分布からターゲットを近似するAISアルゴリズムを提案する。
我々は、目標と提案の護衛モーメントを一致させて、位置とスケールパラメータを適応させる。
これらの更新は、ターゲットと提案の間の$alpha$-divergenceを最小化し、変動推論と接続する。
論文 参考訳(メタデータ) (2023-10-25T14:07:08Z) - A PAC Learning Algorithm for LTL and Omega-regular Objectives in MDPs [5.946838062187346]
意思決定プロセス(MDP)におけるオメガ規則目的のためのモデルベース近似ほぼ正(PAC)学習アルゴリズムを提案する。
我々のアルゴリズムは、我々の理論を裏付ける実験を行うために、多くのサンプルしか必要としていないことを証明している。
論文 参考訳(メタデータ) (2023-10-18T18:33:41Z) - Self-Supervised Dataset Distillation for Transfer Learning [77.4714995131992]
ラベルなしデータセットを、効率的な自己教師付き学習(SSL)のための小さな合成サンプル群に蒸留する新しい問題を提案する。
両レベル最適化におけるSSL目標に対する合成サンプルの勾配は、データ拡張やマスキングから生じるランダム性から、テキストバイアスを受けていることを最初に証明する。
転送学習を含む様々な応用における本手法の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2023-10-10T10:48:52Z) - Conditional Sampling of Variational Autoencoders via Iterated
Approximate Ancestral Sampling [7.357511266926065]
変分オートエンコーダ(VAE)の条件付きサンプリングは、データ計算の欠如など、様々なアプリケーションで必要とされるが、計算上は難解である。
基本的条件付きサンプリングはMetropolis-within-Gibbs (MWG)である
論文 参考訳(メタデータ) (2023-08-17T16:08:18Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - Adversarial Intrinsic Motivation for Reinforcement Learning [60.322878138199364]
政策状態の訪問分布と目標分布とのワッサースタイン-1距離が強化学習タスクに有効に活用できるかどうかを検討する。
我々のアプローチは、AIM (Adversarial Intrinsic Motivation) と呼ばれ、このワッサーシュタイン-1距離をその双対目的を通して推定し、補足報酬関数を計算する。
論文 参考訳(メタデータ) (2021-05-27T17:51:34Z) - Sparse Feature Selection Makes Batch Reinforcement Learning More Sample
Efficient [62.24615324523435]
本稿では,スパース線形関数近似を用いた高次元バッチ強化学習(RL)の統計的解析を行う。
候補となる機能が多数存在する場合,提案手法がバッチRLをより効率的にサンプリングできるという事実に光を当てる。
論文 参考訳(メタデータ) (2020-11-08T16:48:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。