論文の概要: A Taxonomy of Similarity Metrics for Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2103.04706v1
- Date: Mon, 8 Mar 2021 12:36:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-09 18:31:11.126768
- Title: A Taxonomy of Similarity Metrics for Markov Decision Processes
- Title(参考訳): マルコフ決定過程における類似度指標の分類
- Authors: \'Alvaro Vis\'us, Javier Garc\'ia and Fernando Fern\'andez
- Abstract要約: 近年、伝達学習は強化学習(RL)アルゴリズムをより効率的にすることに成功した。
本稿では,これらの指標を分類し,これまでに提案されている類似性の定義を分析する。
- 参考スコア(独自算出の注目度): 62.997667081978825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although the notion of task similarity is potentially interesting in a wide
range of areas such as curriculum learning or automated planning, it has mostly
been tied to transfer learning. Transfer is based on the idea of reusing the
knowledge acquired in the learning of a set of source tasks to a new learning
process in a target task, assuming that the target and source tasks are close
enough. In recent years, transfer learning has succeeded in making
Reinforcement Learning (RL) algorithms more efficient (e.g., by reducing the
number of samples needed to achieve the (near-)optimal performance). Transfer
in RL is based on the core concept of similarity: whenever the tasks are
similar, the transferred knowledge can be reused to solve the target task and
significantly improve the learning performance. Therefore, the selection of
good metrics to measure these similarities is a critical aspect when building
transfer RL algorithms, especially when this knowledge is transferred from
simulation to the real world. In the literature, there are many metrics to
measure the similarity between MDPs, hence, many definitions of similarity or
its complement distance have been considered. In this paper, we propose a
categorization of these metrics and analyze the definitions of similarity
proposed so far, taking into account such categorization. We also follow this
taxonomy to survey the existing literature, as well as suggesting future
directions for the construction of new metrics.
- Abstract(参考訳): タスクの類似性の概念は、カリキュラム学習や自動計画などの幅広い分野で興味深い可能性がありますが、それは主に移行学習に結び付けられています。
転送は、ソースタスクのセットの学習で得られた知識をターゲットタスクの新しい学習プロセスに再利用し、ターゲットタスクとソースタスクが十分に近いと仮定するという考えに基づいています。
近年、転送学習は強化学習(rl)アルゴリズムをより効率的にすることに成功した(例えば、(ほぼ)最適性能を達成するのに必要なサンプル数を減らす)。
rlにおける転送は、類似性の核となる概念に基づいている:タスクが類似している場合、転送された知識を再利用して目標のタスクを解決し、学習性能を大幅に向上させることができる。
したがって、これらの類似度を測定するための良いメトリクスの選択は、特にこの知識がシミュレーションから現実世界に転送される場合、転送RLアルゴリズムを構築する際の重要な側面です。
文献では,mdp間の類似度を測定する指標が多数存在し,類似度や相補距離の定義が多数検討されている。
本稿では,これらの指標を分類し,これまでの類似性の定義を分析し,その分類について考察する。
また,この分類に従い,既存の文献を調査し,新しい指標の構築に向けた今後の方向性を示唆した。
関連論文リスト
- Transferability Estimation Based On Principal Gradient Expectation [68.97403769157117]
クロスタスク転送性は、自己整合性を維持しながら転送結果と互換性がある。
既存の転送可能性メトリクスは、ソースとターゲットタスクを会話することで、特定のモデルに基づいて推定される。
本稿では,タスク間の転送可能性を評価するための簡易かつ効果的な手法であるPGEを提案する。
論文 参考訳(メタデータ) (2022-11-29T15:33:02Z) - NEVIS'22: A Stream of 100 Tasks Sampled from 30 Years of Computer Vision
Research [96.53307645791179]
我々は,100以上の視覚的分類タスクのストリームからなるベンチマークであるNever-Ending VIsual-classification Stream (NEVIS'22)を紹介する。
分類に制限されているにもかかわらず、OCR、テクスチャ分析、シーン認識など、様々なタスクが生成される。
NEVIS'22は、タスクの規模と多様性のために、現在のシーケンシャルな学習アプローチに対して前例のない課題を提起している。
論文 参考訳(メタデータ) (2022-11-15T18:57:46Z) - The Curse of Low Task Diversity: On the Failure of Transfer Learning to
Outperform MAML and Their Empirical Equivalence [20.965759895300327]
数ショットの学習ベンチマークでタスクの多様性を測定するための新しい指標である多様性係数を提案する。
多様性係数を用いて、人気の MiniImageNet と CIFAR-FS の少数ショット学習ベンチマークの多様性が低いことを示す。
論文 参考訳(メタデータ) (2022-08-02T15:49:11Z) - Structural Similarity for Improved Transfer in Reinforcement Learning [0.0]
本稿では,以前に開発された2つの有限MDPにおける状態の類似度を推定するアルゴリズムを提案する。
距離測定値の特性を満足し,Q-Learningエージェントの転送性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2022-07-27T22:21:38Z) - On Generalizing Beyond Domains in Cross-Domain Continual Learning [91.56748415975683]
ディープニューラルネットワークは、新しいタスクを学んだ後、これまで学んだ知識の破滅的な忘れ込みに悩まされることが多い。
提案手法は、ドメインシフト中の新しいタスクを精度良く学習することで、DomainNetやOfficeHomeといった挑戦的なデータセットで最大10%向上する。
論文 参考訳(メタデータ) (2022-03-08T09:57:48Z) - Automating Transfer Credit Assessment in Student Mobility -- A Natural
Language Processing-based Approach [5.947076788303102]
本稿では、自然言語処理(NLP)分野の進歩を利用してこのプロセスを効果的に自動化するモデルを特定することに焦点を当てる。
学習結果の分類学的類似度(los)を評価するために,知識に基づく意味的類似度尺度に基づくクラスタリングを応用したモデルを提案する。
los間の類似性はさらに集約され、コースの類似性を形成する。
論文 参考訳(メタデータ) (2021-04-05T15:14:59Z) - Dif-MAML: Decentralized Multi-Agent Meta-Learning [54.39661018886268]
我々は,MAML や Dif-MAML と呼ばれる協調型マルチエージェントメタ学習アルゴリズムを提案する。
提案手法により, エージェントの集合が線形速度で合意に達し, 集約MAMLの定常点に収束できることを示す。
シミュレーションの結果は従来の非協調的な環境と比較して理論的な結果と優れた性能を示している。
論文 参考訳(メタデータ) (2020-10-06T16:51:09Z) - Unsupervised Transfer Learning for Spatiotemporal Predictive Networks [90.67309545798224]
我々は、教師なし学習されたモデルの動物園から別のネットワークへ知識を伝達する方法を研究する。
私たちのモチベーションは、モデルは異なるソースからの複雑なダイナミクスを理解することが期待されていることです。
提案手法は,時間的予測のための3つのベンチマークで大幅に改善され,重要度が低いベンチマークであっても,ターゲットのメリットが得られた。
論文 参考訳(メタデータ) (2020-09-24T15:40:55Z) - Learning similarity measures from data [1.4766350834632755]
類似度尺度を定義することは、いくつかの機械学習手法の要件である。
データセットは通常、CBRや機械学習システムの構築の一部として収集される。
本研究の目的は,機械学習を用いて類似度を効果的に学習する方法を検討することである。
論文 参考訳(メタデータ) (2020-01-15T13:29:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。