論文の概要: Statistical Context Detection for Deep Lifelong Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2405.19047v2
- Date: Tue, 3 Sep 2024 09:25:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-04 18:00:58.226603
- Title: Statistical Context Detection for Deep Lifelong Reinforcement Learning
- Title(参考訳): 深部強化学習における統計的文脈検出
- Authors: Jeffery Dick, Saptarshi Nath, Christos Peridis, Eseoghene Benjamin, Soheil Kolouri, Andrea Soltoggio,
- Abstract要約: オンライン体験からタスクラベルを推測することは難しい問題だ。
本稿では、オンラインの深層強化学習環境において、ポリシーとラベルの両方を学習するためのアプローチを提案する。
- 参考スコア(独自算出の注目度): 7.912786690714232
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Context detection involves labeling segments of an online stream of data as belonging to different tasks. Task labels are used in lifelong learning algorithms to perform consolidation or other procedures that prevent catastrophic forgetting. Inferring task labels from online experiences remains a challenging problem. Most approaches assume finite and low-dimension observation spaces or a preliminary training phase during which task labels are learned. Moreover, changes in the transition or reward functions can be detected only in combination with a policy, and therefore are more difficult to detect than changes in the input distribution. This paper presents an approach to learning both policies and labels in an online deep reinforcement learning setting. The key idea is to use distance metrics, obtained via optimal transport methods, i.e., Wasserstein distance, on suitable latent action-reward spaces to measure distances between sets of data points from past and current streams. Such distances can then be used for statistical tests based on an adapted Kolmogorov-Smirnov calculation to assign labels to sequences of experiences. A rollback procedure is introduced to learn multiple policies by ensuring that only the appropriate data is used to train the corresponding policy. The combination of task detection and policy deployment allows for the optimization of lifelong reinforcement learning agents without an oracle that provides task labels. The approach is tested using two benchmarks and the results show promising performance when compared with related context detection algorithms. The results suggest that optimal transport statistical methods provide an explainable and justifiable procedure for online context detection and reward optimization in lifelong reinforcement learning.
- Abstract(参考訳): コンテキスト検出では、オンラインデータストリームのセグメントを、異なるタスクに属するものとしてラベル付けする。
タスクラベルは、生涯学習アルゴリズムにおいて、破滅的な忘れ込みを防ぐ統合やその他の手順を実行するために使用される。
オンライン体験からタスクラベルを推測することは難しい問題だ。
ほとんどのアプローチでは、有限次元および低次元の観測空間や、タスクラベルが学習される予備的な訓練段階を仮定する。
さらに、遷移関数や報酬関数の変化はポリシーと組み合わせてのみ検出できるため、入力分布の変化よりも検出が難しい。
本稿では、オンラインの深層強化学習環境において、ポリシーとラベルの両方を学習するためのアプローチを提案する。
鍵となる考え方は、過去のデータポイントと現在のストリーム間の距離を測定するために、ワッサースタイン距離(Wasserstein distance)という最適な輸送方法によって得られる距離メトリクスを使用することである。
このような距離は、適応されたコルモゴロフ=スミルノフの計算に基づいて統計テストに使用でき、ラベルを経験の列に割り当てることができる。
複数のポリシーを学習するためにロールバック手順を導入し、適切なデータのみを使用して対応するポリシーをトレーニングする。
タスク検出とポリシー展開の組み合わせにより、タスクラベルを提供するオラクルなしで、生涯にわたる強化学習エージェントを最適化することができる。
この手法は2つのベンチマークを用いてテストし、関連するコンテキスト検出アルゴリズムと比較すると有望な性能を示す。
その結果, 最適輸送統計手法は, 生涯強化学習におけるオンライン文脈検出と報酬最適化のための説明可能な, 妥当な手順であることがわかった。
関連論文リスト
- Dense FixMatch: a simple semi-supervised learning method for pixel-wise
prediction tasks [68.36996813591425]
Dense FixMatchは,高密度かつ構造化された予測タスクのオンライン半教師付き学習のための簡易な手法である。
我々は、擬似ラベルにマッチング操作を追加することにより、画像分類を超えた半教師付き学習問題にFixMatchの適用を可能にする。
Dense FixMatchは、ラベル付きデータのみを使用して教師付き学習と比較すると、結果を著しく改善し、ラベル付きサンプルの1/4でそのパフォーマンスに近づいた。
論文 参考訳(メタデータ) (2022-10-18T15:02:51Z) - Wasserstein Task Embedding for Measuring Task Similarities [14.095478018850374]
異なるタスク間の類似度を測定することは、幅広い機械学習問題において重要である。
最適輸送理論を活用し、教師付き分類のための新しいタスク埋め込みを定義する。
提案手法の組込みは, 関連する手法と比較して, タスクの比較を著しく高速化することを示した。
論文 参考訳(メタデータ) (2022-08-24T18:11:04Z) - Robust Task Representations for Offline Meta-Reinforcement Learning via
Contrastive Learning [21.59254848913971]
オフラインメタ強化学習は、オフラインデータから学習して新しいタスクに適応する強化学習パラダイムである。
本稿では,学習・テストにおける行動方針の分布に頑健なタスク表現のための対照的な学習フレームワークを提案する。
様々なオフラインメタ強化学習ベンチマークの実験は,従来の手法よりも提案手法の利点を実証している。
論文 参考訳(メタデータ) (2022-06-21T14:46:47Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - ALLSH: Active Learning Guided by Local Sensitivity and Hardness [98.61023158378407]
本稿では,局所感度と硬度認識獲得機能を備えたラベル付きサンプルの検索を提案する。
本手法は,様々な分類タスクにおいてよく用いられるアクティブラーニング戦略よりも一貫した利得が得られる。
論文 参考訳(メタデータ) (2022-05-10T15:39:11Z) - Reinforced Meta Active Learning [11.913086438671357]
本稿では,データから直接情報提供度を学習する,オンラインストリームに基づくメタアクティブ学習手法を提案する。
本手法は、強化学習に基づいて、エピソードポリシー検索と文脈的バンディットアプローチを組み合わせたものである。
本研究では,本手法が既存の最先端手法よりも効率的にトレーニングサンプルを選択できることを実データで示す。
論文 参考訳(メタデータ) (2022-03-09T08:36:54Z) - BAMLD: Bayesian Active Meta-Learning by Disagreement [39.59987601426039]
本稿では,メタトレーニングタスクのラベル付け要求数を削減するための情報理論アクティブタスク選択機構を提案する。
本稿では,既存の取得メカニズムと比較した実験結果について報告する。
論文 参考訳(メタデータ) (2021-10-19T13:06:51Z) - Visual Transformer for Task-aware Active Learning [49.903358393660724]
プールベースのアクティブラーニングのための新しいパイプラインを提案する。
提案手法は,学習中に使用可能なアンラベリング例を利用して,ラベル付き例との相関関係を推定する。
ビジュアルトランスフォーマーは、ラベル付き例と非ラベル付き例の間の非ローカルビジュアル概念依存性をモデル化する。
論文 参考訳(メタデータ) (2021-06-07T17:13:59Z) - Semi-supervised Batch Active Learning via Bilevel Optimization [89.37476066973336]
両レベル最適化によるデータ要約問題として,本手法を定式化する。
本手法は,ラベル付きサンプルがほとんど存在しない場合,レジーム内のキーワード検出タスクにおいて極めて有効であることを示す。
論文 参考訳(メタデータ) (2020-10-19T16:53:24Z) - Adaptive Task Sampling for Meta-Learning [79.61146834134459]
数ショットの分類のためのメタラーニングの鍵となるアイデアは、テスト時に直面した数ショットの状況を模倣することである。
一般化性能を向上させるための適応型タスクサンプリング手法を提案する。
論文 参考訳(メタデータ) (2020-07-17T03:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。