論文の概要: Online Residual Learning from Offline Experts for Pedestrian Tracking
- arxiv url: http://arxiv.org/abs/2409.04069v1
- Date: Fri, 6 Sep 2024 07:20:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-09 16:36:07.801654
- Title: Online Residual Learning from Offline Experts for Pedestrian Tracking
- Title(参考訳): 歩行者追跡のためのオフライン専門家からのオンライン残留学習
- Authors: Anastasios Vlachos, Anastasios Tsiamis, Aren Karapetyan, Efe C. Balta, John Lygeros,
- Abstract要約: オンライン適応とオフライン学習予測を組み合わせたオンライン残留学習(ORL)を提案する。
より低いレベルでは、予測水平線の前後で生成された複数のオフライン予測を用いる。
より高いレベルでは、強化された下位レベルの予測器を専門家として扱い、エキスパートアドバイザフレームワークによる予測を採用する。
- 参考スコア(独自算出の注目度): 5.047136039782827
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we consider the problem of predicting unknown targets from data. We propose Online Residual Learning (ORL), a method that combines online adaptation with offline-trained predictions. At a lower level, we employ multiple offline predictions generated before or at the beginning of the prediction horizon. We augment every offline prediction by learning their respective residual error concerning the true target state online, using the recursive least squares algorithm. At a higher level, we treat the augmented lower-level predictors as experts, adopting the Prediction with Expert Advice framework. We utilize an adaptive softmax weighting scheme to form an aggregate prediction and provide guarantees for ORL in terms of regret. We employ ORL to boost performance in the setting of online pedestrian trajectory prediction. Based on data from the Stanford Drone Dataset, we show that ORL can demonstrate best-of-both-worlds performance.
- Abstract(参考訳): 本稿では,未知のターゲットをデータから予測する問題について考察する。
オンライン適応とオフライン学習予測を組み合わせたオンライン残留学習(ORL)を提案する。
より低いレベルでは、予測水平線の前後で生成された複数のオフライン予測を用いる。
我々は、再帰的最小二乗アルゴリズムを用いて、真のターゲット状態に関する各残差をオンラインで学習することで、すべてのオフライン予測を増強する。
より高いレベルでは、強化された下位レベルの予測器を専門家として扱い、エキスパートアドバイザフレームワークによる予測を採用する。
我々は適応型ソフトマックス重み付け方式を用いて集合予測を行い、後悔の観点からORLの保証を行う。
我々は,オンライン歩行者軌道予測の設定における性能向上のためにORLを用いている。
スタンフォード大学のDrone Datasetのデータから、ORLは両世界の最高のパフォーマンスを示すことができることを示す。
関連論文リスト
- Online Bandit Learning with Offline Preference Data [15.799929216215672]
ノイズの多い選好フィードバックを持つオフラインデータセットでウォームスタートできるオンライン学習のための後部サンプリングアルゴリズムを提案する。
生成したエキスパートの“コンピテンス”をモデル化することで、そのようなデータセットを最も効果的に利用できることを示します。
論文 参考訳(メタデータ) (2024-06-13T20:25:52Z) - Discounted Adaptive Online Learning: Towards Better Regularization [5.5899168074961265]
敵対的非定常環境におけるオンライン学習について検討する。
適応的アルゴリズム(例:Optimal)を提案し,適応的でないベースラインを広く改良する。
また、(Gibbs and Candes, 2021)スタイルのオンライン共形予測問題についても検討する。
論文 参考訳(メタデータ) (2024-02-05T04:29:39Z) - GVFs in the Real World: Making Predictions Online for Water Treatment [23.651798878534635]
実際の飲料水処理プラントにおける強化学習に基づく予測手法の適用について検討する。
まず、このデータセットを説明し、季節性、非定常性、部分観測可能性といった課題を強調します。
オンラインで学習するTDエージェントに対してオンライン更新を行わずに、純粋にオフラインで訓練されたTDエージェントを比較して、デプロイメントにおける学習の重要性を示す。
論文 参考訳(メタデータ) (2023-12-04T04:49:10Z) - Pre-training on Synthetic Driving Data for Trajectory Prediction [61.520225216107306]
軌道予測におけるデータ不足の問題を緩和するパイプラインレベルのソリューションを提案する。
我々は、駆動データを生成するためにHDマップ拡張とトラジェクトリ合成を採用し、それらを事前学習することで表現を学習する。
我々は、データ拡張と事前学習戦略の有効性を実証するための広範な実験を行う。
論文 参考訳(メタデータ) (2023-09-18T19:49:22Z) - Prediction-Oriented Bayesian Active Learning [51.426960808684655]
予測情報ゲイン(EPIG)は、パラメータではなく予測空間における情報ゲインを測定する。
EPIGは、さまざまなデータセットやモデルにわたるBALDと比較して、予測パフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-04-17T10:59:57Z) - Bridging Imitation and Online Reinforcement Learning: An Optimistic Tale [27.02990488317357]
不完全な専門家によるオフラインのデモンストレーションデータセットを前提として、MDPのオンライン学習パフォーマンスをブートストラップする上で、それを活用するための最善の方法は何か?
Informed Posterior Sampling-based RL (iPSRL)アルゴリズムを最初に提案する。
このアルゴリズムは非現実的であるため、オンラインRLのためのRSVIアルゴリズムと模倣学習を組み合わせたiRLSVIアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-20T18:16:25Z) - Online TSP with Predictions [3.8411077568039866]
古典的オンライン旅行セールスマン問題(OLTSP)について検討する。
他の研究の予測モデルとは異なり、OLTSPの実際の要求はその到着時間と位置に関連しており、予測された要求と一致しないかもしれない。
我々の主な成果は、様々な予測モデルと設計アルゴリズムを研究し、異なる設定で最もよく知られた結果を改善することである。
論文 参考訳(メタデータ) (2022-06-30T15:35:53Z) - Test-time Collective Prediction [73.74982509510961]
マシンラーニングの複数のパーティは、将来のテストポイントを共同で予測したいと考えています。
エージェントは、すべてのエージェントの集合の集合的な専門知識の恩恵を受けることを望んでいるが、データやモデルパラメータを解放する意思はないかもしれない。
我々は、各エージェントの事前学習モデルを利用して、テスト時に集合的な予測を行う分散型メカニズムを探索する。
論文 参考訳(メタデータ) (2021-06-22T18:29:58Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - SLPC: a VRNN-based approach for stochastic lidar prediction and
completion in autonomous driving [63.87272273293804]
VRNN(Variiational Recurrent Neural Networks)と呼ばれる生成モデルに基づく新しいLiDAR予測フレームワークを提案する。
提案手法は,フレーム内の奥行きマップを空間的に塗り替えることで,スパースデータを扱う際の従来のビデオ予測フレームワークの限界に対処できる。
VRNNのスパースバージョンとラベルを必要としない効果的な自己監督型トレーニング方法を紹介します。
論文 参考訳(メタデータ) (2021-02-19T11:56:44Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。