論文の概要: Case-Based Inverse Reinforcement Learning Using Temporal Coherence
- arxiv url: http://arxiv.org/abs/2206.05827v1
- Date: Sun, 12 Jun 2022 19:51:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-15 04:33:36.443692
- Title: Case-Based Inverse Reinforcement Learning Using Temporal Coherence
- Title(参考訳): 時間的コヒーレンスを用いたケースベース逆強化学習
- Authors: Jonas N\"u{\ss}lein, Steffen Illium, Robert M\"uller, Thomas Gabor,
Claudia Linnhoff-Popien
- Abstract要約: 本稿では,専門家の行動レベルを模倣するだけでなく,専門家の高度な戦略を模倣するアルゴリズムを提案する。
我々のアルゴリズムはニューラルネットワークをトレーニングし、2つの状態が類似しているかどうかを予測する。
その結果,本手法は専門家データが少ない環境でも,ほぼ最適のポリシーを学習できることが示唆された。
- 参考スコア(独自算出の注目度): 10.09712608508383
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Providing expert trajectories in the context of Imitation Learning is often
expensive and time-consuming. The goal must therefore be to create algorithms
which require as little expert data as possible. In this paper we present an
algorithm that imitates the higher-level strategy of the expert rather than
just imitating the expert on action level, which we hypothesize requires less
expert data and makes training more stable. As a prior, we assume that the
higher-level strategy is to reach an unknown target state area, which we
hypothesize is a valid prior for many domains in Reinforcement Learning. The
target state area is unknown, but since the expert has demonstrated how to
reach it, the agent tries to reach states similar to the expert. Building on
the idea of Temporal Coherence, our algorithm trains a neural network to
predict whether two states are similar, in the sense that they may occur close
in time. During inference, the agent compares its current state with expert
states from a Case Base for similarity. The results show that our approach can
still learn a near-optimal policy in settings with very little expert data,
where algorithms that try to imitate the expert at the action level can no
longer do so.
- Abstract(参考訳): イミテーションラーニングの文脈で専門家の軌跡を提供することは、しばしば高価で時間を要する。
したがって、目的は可能な限り専門的なデータを必要とするアルゴリズムを作ることである。
本稿では,専門家の行動レベルを模倣するだけでなく,専門家の高度な戦略を模倣するアルゴリズムを提案する。
事前として,高レベルの戦略は未知の目標状態領域に到達することであり,強化学習における多くの領域において有効な事前条件であると仮定する。
対象の状態領域は不明だが、専門家が到達方法を示したため、エージェントは専門家と同じような状態に到達しようと試みる。
時間的コヒーレンス(Temporal Coherence)のアイデアに基づいて、我々のアルゴリズムはニューラルネットワークをトレーニングし、2つの状態が類似しているかどうかを予測する。
推論中、エージェントは現在の状態と、類似性のケースベースからのエキスパート状態を比較する。
その結果,行動レベルで専門家を模倣しようとするアルゴリズムがもはや実現できないような,ごくわずかな専門家データで,我々のアプローチは依然として最適に近いポリシーを学習できることがわかった。
関連論文リスト
- Enhancing Adversarial Robustness in Low-Label Regime via Adaptively
Weighted Regularization and Knowledge Distillation [1.675857332621569]
ラベル付きデータが少ない半教師付き対人訓練について検討した。
提案する正則化項と知識蒸留を組み合わせた半教師付き対角訓練アルゴリズムを開発した。
提案アルゴリズムは,既存のアルゴリズムと比較して,最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-08-08T05:48:38Z) - Active Ranking of Experts Based on their Performances in Many Tasks [72.96112117037465]
我々は、dタスクのパフォーマンスに基づいて、n名のエキスパートをランク付けする問題を考察する。
我々は,各専門家のペアに対して,各タスクにおいて他方よりも優れているという,単調な仮定を定めている。
論文 参考訳(メタデータ) (2023-06-05T06:55:39Z) - A Gold Standard Dataset for the Reviewer Assignment Problem [117.59690218507565]
類似度スコア(Similarity score)とは、論文のレビューにおいて、レビュアーの専門知識を数値で見積もるものである。
私たちのデータセットは、58人の研究者による477の自己申告された専門知識スコアで構成されています。
2つの論文をレビュアーに関連付けるタスクは、簡単なケースでは12%~30%、ハードケースでは36%~43%である。
論文 参考訳(メタデータ) (2023-03-23T16:15:03Z) - Hierarchical Skills for Efficient Exploration [70.62309286348057]
強化学習において、事前訓練された低レベルスキルは、探索を大幅に促進する可能性がある。
下流タスクの以前の知識は、スキルデザインにおける一般性(きめ細かい制御)と特異性(より高速な学習)の適切なバランスをとるために必要である。
教師なしの方法で様々な複雑さのスキルを習得する階層的スキル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:29:32Z) - Reannealing of Decaying Exploration Based On Heuristic Measure in Deep
Q-Network [82.20059754270302]
本稿では,再熱処理の概念に基づくアルゴリズムを提案し,必要なときにのみ探索を促進することを目的とする。
我々は、訓練を加速し、より良い政策を得る可能性を示す実証的なケーススタディを実施している。
論文 参考訳(メタデータ) (2020-09-29T20:40:00Z) - Latent Bandits Revisited [55.88616813182679]
潜伏盗賊問題は、学習エージェントが未知の離散潜伏状態に条件付けられた腕の報酬分布を知知する問題である。
本稿では, 上位信頼境界(UCB)とトンプソンサンプリング(Thompson sample)の両方に基づいて, この設定のための一般的なアルゴリズムを提案する。
我々はアルゴリズムの統一的な理論的解析を行い、遅延状態の数がアクションよりも小さい場合、古典的なバンディットポリシーよりも後悔度が低い。
論文 参考訳(メタデータ) (2020-06-15T19:24:02Z) - Active Imitation Learning with Noisy Guidance [6.832341432995627]
シミュレーション学習アルゴリズムは、多くの構造化予測タスクに対して最先端の結果を提供する。
このようなアルゴリズムは、任意のクエリ状態において最適なアクションを提供する専門家へのトレーニングタイムアクセスを前提としている。
我々は,学習アルゴリズムがノイズの多いガイダンスを提供するより安価なノイズにアクセスできるような,アクティブな学習環境を考える。
論文 参考訳(メタデータ) (2020-05-26T15:35:46Z) - Learning to Accelerate Heuristic Searching for Large-Scale Maximum
Weighted b-Matching Problems in Online Advertising [51.97494906131859]
バイパルタイトbマッチングはアルゴリズム設計の基本であり、経済市場や労働市場などに広く適用されている。
既存の正確で近似的なアルゴリズムは、通常そのような設定で失敗する。
我々は、以前の事例から学んだ知識を活用して、新しい問題インスタンスを解決するtextttNeuSearcherを提案する。
論文 参考訳(メタデータ) (2020-05-09T02:48:23Z) - No-Regret and Incentive-Compatible Online Learning [29.267666165169324]
本研究では,学習アルゴリズムの予測に対する影響を最大化するために,専門家が戦略的に行動するオンライン学習環境について検討する。
私たちは、学習アルゴリズムを、後見の最高の固定専門家に対して、不適切なものにしたいと考えています。
完全な情報設定と部分的な情報設定の両方について、専門家にとって後悔とインセンティブの相性のないアルゴリズムを提供する。
論文 参考訳(メタデータ) (2020-02-20T16:21:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。