論文の概要: Online GentleAdaBoost -- Technical Report
- arxiv url: http://arxiv.org/abs/2308.14004v1
- Date: Sun, 27 Aug 2023 04:41:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 17:35:32.562167
- Title: Online GentleAdaBoost -- Technical Report
- Title(参考訳): オンラインGentleAdaBoost -- テクニカルレポート
- Authors: Chapman Siu
- Abstract要約: 我々はGentleAdaboostのオンライン版について研究し、弱い学習者と強い学習者とをオンライン形式で組み合わせた。
線形探索による理論的正当化により,バッチアプローチをオンラインアプローチに拡張する手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the online variant of GentleAdaboost, where we combine a weak
learner to a strong learner in an online fashion. We provide an approach to
extend the batch approach to an online approach with theoretical justifications
through application of line search. Finally we compare our online boosting
approach with other online approaches across a variety of benchmark datasets.
- Abstract(参考訳): 我々はGentleAdaboostのオンライン版について研究し、弱い学習者と強い学習者とをオンライン形式で組み合わせた。
線形探索による理論的正当化により,バッチアプローチをオンラインアプローチに拡張する手法を提案する。
最後に、オンラインブースティングアプローチと、さまざまなベンチマークデータセットにわたる他のオンラインアプローチを比較します。
関連論文リスト
- Bayesian Design Principles for Offline-to-Online Reinforcement Learning [50.97583504192167]
オフラインからオンラインへの微調整は、探索にコストがかかる、あるいは安全でない、現実世界のアプリケーションにとって極めて重要です。
本稿では,オフラインからオフラインまでの微調整のジレンマに対処する:エージェントが悲観的のままであれば,より良いポリシーを習得できないかもしれないが,楽観的になった場合,性能が突然低下する可能性がある。
このようなジレンマを解決するにはベイズ設計の原則が不可欠であることを示す。
論文 参考訳(メタデータ) (2024-05-31T16:31:07Z) - Understanding the performance gap between online and offline alignment algorithms [63.137832242488926]
オフラインのアルゴリズムは、ペアの分類が得意になるようにポリシーを訓練し、オンラインのアルゴリズムは世代ごとに良いことを示しています。
このことは、識別能力と生成能力の間のユニークな相互作用を示唆しており、これはサンプリングプロセスに大きく影響している。
我々の研究は、AIアライメントにおけるオンラインサンプリングの重要な役割に光を当て、オフラインアライメントアルゴリズムのある種の根本的な課題を示唆している。
論文 参考訳(メタデータ) (2024-05-14T09:12:30Z) - Ensemble Successor Representations for Task Generalization in Offline-to-Online Reinforcement Learning [8.251711947874238]
オフラインRLは、オフラインポリシーを提供することによって、有望なソリューションを提供する。
既存の手法では,オフラインからオンラインへの適応におけるタスク一般化問題を考慮せずに,オフラインとオンラインの学習を同一タスクで行う。
本研究は、オンラインRLにおけるタスク一般化のための後継表現の探索を基盤とし、オフライン-オンライン学習を組み込むためのフレームワークを拡張した。
論文 参考訳(メタデータ) (2024-05-12T08:52:52Z) - Uni-O4: Unifying Online and Offline Deep Reinforcement Learning with Multi-Step On-Policy Optimization [24.969834057981046]
従来のアプローチでは、オフラインとオンラインの学習を別々の手順として扱い、冗長な設計と限られたパフォーマンスをもたらす。
オフライン学習とオンライン学習の両方に、政治上の目的を利用するUni-o4を提案する。
本手法は,オフラインとオフラインのファインチューニング学習の両方において,最先端の性能を実現することを実証する。
論文 参考訳(メタデータ) (2023-11-06T18:58:59Z) - ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [52.34951901588738]
我々はENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。
Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。
実験により,ENOTOは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-06-12T05:10:10Z) - Finetuning from Offline Reinforcement Learning: Challenges, Trade-offs
and Practical Solutions [30.050083797177706]
オフライン強化学習(RL)では、環境とのインタラクションなしに、オフラインデータセットから有能なエージェントをトレーニングすることができる。
このようなオフラインモデルのオンライン微調整により、パフォーマンスがさらに向上する。
より高速な改善のために、標準的なオンラインオフラインアルゴリズムを使用することが可能であることを示す。
論文 参考訳(メタデータ) (2023-03-30T14:08:31Z) - MOORe: Model-based Offline-to-Online Reinforcement Learning [26.10368749930102]
モデルに基づくオフライン強化学習(MOORe)アルゴリズムを提案する。
実験結果から,本アルゴリズムはオフラインからオンラインへの移行を円滑に行い,サンプル効率のよいオンライン適応を可能にした。
論文 参考訳(メタデータ) (2022-01-25T03:14:57Z) - Recursive Least-Squares Estimator-Aided Online Learning for Visual
Tracking [58.14267480293575]
オフライン学習を必要とせず、簡単な効果的なオンライン学習手法を提案する。
これは、モデルが以前見たオブジェクトに関する知識を記憶するための、内蔵されたメモリ保持メカニズムを可能にする。
我々は、RT-MDNetにおける多層パーセプトロンと、DiMPにおける畳み込みニューラルネットワークの追跡のためのオンライン学習ファミリーにおける2つのネットワークに基づくアプローチを評価する。
論文 参考訳(メタデータ) (2021-12-28T06:51:18Z) - Boosting for Online Convex Optimization [64.15578413206715]
多数の専門家とオンライン凸最適化の意思決定フレームワークを検討します。
弱学習アルゴリズムは、基本クラスの専門家に対するおよその後悔を保証するメカニズムとして定義します。
ベースクラスの凸船体に対するほぼ最適の後悔を保証する効率的なブースティングアルゴリズムを提供します。
論文 参考訳(メタデータ) (2021-02-18T12:30:49Z) - Online Multi-modal Person Search in Videos [74.75432003006432]
本研究では,映像中の人物をリアルタイムで認識するオンライン人物検索フレームワークを提案する。
大規模な映画データセットを用いた実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-08-08T15:48:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。