論文の概要: Non-Markovian Reward Modelling from Trajectory Labels via Interpretable
Multiple Instance Learning
- arxiv url: http://arxiv.org/abs/2205.15367v1
- Date: Mon, 30 May 2022 18:20:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-02 10:17:34.152666
- Title: Non-Markovian Reward Modelling from Trajectory Labels via Interpretable
Multiple Instance Learning
- Title(参考訳): 解釈可能な多重インスタンス学習による軌道ラベルからの非マルコフ逆モデリング
- Authors: Joseph Early, Tom Bewley, Christine Evers, Sarvapali Ramchurn
- Abstract要約: 本稿では、RMをマルチインスタンス学習(MIL)問題として扱う方法について述べる。
ラベル付きトラジェクトリの時間依存性をキャプチャできる新しいMILモデルを開発した。
我々は、新しいMILモデルで報酬関数を高い精度で再構成できる様々なRLタスクを実証する。
- 参考スコア(独自算出の注目度): 10.724516317292924
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We generalise the problem of reward modelling (RM) for reinforcement learning
(RL) to handle non-Markovian rewards. Existing work assumes that human
evaluators observe each step in a trajectory independently when providing
feedback on agent behaviour. In this work, we remove this assumption, extending
RM to include hidden state information that captures temporal dependencies in
human assessment of trajectories. We then show how RM can be approached as a
multiple instance learning (MIL) problem, and develop new MIL models that are
able to capture the time dependencies in labelled trajectories. We demonstrate
on a range of RL tasks that our novel MIL models can reconstruct reward
functions to a high level of accuracy, and that they provide interpretable
learnt hidden information that can be used to train high-performing agent
policies.
- Abstract(参考訳): 非マルコフ的報酬を扱うために強化学習(rl)のための報酬モデル問題(rm)を一般化する。
既存の作業は、エージェントの振る舞いに対するフィードバックを提供する際に、人間の評価者が個々のステップを独立して観察することを前提としている。
本研究では,この仮定を取り除き,軌道評価における時間的依存性を捉えた隠れ状態情報を含むようにrmを拡張した。
次に、RMがマルチインスタンス学習(MIL)問題としてどのようにアプローチできるかを示し、ラベル付きトラジェクトリの時間依存性をキャプチャできる新しいMILモデルを開発する。
我々は、我々の新しいMILモデルが報酬関数を高い精度で再構成し、高いパフォーマンスのエージェントポリシーのトレーニングに使用できる解釈可能な学習情報を提供する、様々なRLタスクについて実証する。
関連論文リスト
- Reinforcement Learning from LLM Feedback to Counteract Goal
Misgeneralization [0.0]
強化学習(RL)における目標誤一般化に対処する手法を提案する。
目標の誤一般化は、エージェントがその能力のアウト・オブ・ディストリビューションを維持しながら、意図したものよりもプロキシを追求する場合に発生する。
本研究では,大規模言語モデルを用いてRLエージェントを効率的に監視する方法を示す。
論文 参考訳(メタデータ) (2024-01-14T01:09:48Z) - ReST meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent [50.508669199496474]
外部知識に基づいて推論と行動を行うReAct-style LLMエージェントを開発した。
エージェントをReSTライクな手法で改良し,従来の軌道上で反復的に訓練する。
引き起こされた大きなモデルから始まり、アルゴリズムのたった2イテレーションの後に、微調整された小さなモデルを生成することができる。
論文 参考訳(メタデータ) (2023-12-15T18:20:15Z) - Diffusion Model as Representation Learner [86.09969334071478]
Diffusion Probabilistic Models (DPMs) は、最近、様々な生成タスクにおいて顕著な結果を示した。
本稿では,DPMが獲得した知識を認識タスクに活用する新しい知識伝達手法を提案する。
論文 参考訳(メタデータ) (2023-08-21T00:38:39Z) - MA2CL:Masked Attentive Contrastive Learning for Multi-Agent
Reinforcement Learning [128.19212716007794]
我々はtextbfMulti-textbfAgent textbfMasked textbfAttentive textbfContrastive textbfLearning (MA2CL) という効果的なフレームワークを提案する。
MA2CLは、潜伏空間におけるマスクされたエージェント観察を再構築することにより、時間的およびエージェントレベルの予測の両方の学習表現を奨励する。
提案手法は,様々なMARLアルゴリズムの性能とサンプル効率を大幅に向上させ,様々な視覚的,状態的シナリオにおいて,他の手法よりも優れる。
論文 参考訳(メタデータ) (2023-06-03T05:32:19Z) - Self-Supervised Reinforcement Learning that Transfers using Random
Features [41.00256493388967]
本研究では,タスク間の行動の伝達を,報酬の異なる自己指導型強化学習手法を提案する。
我々の手法は、報奨ラベルなしでオフラインデータセットでトレーニングできるが、新しいタスクに素早くデプロイできるという自己教師型である。
論文 参考訳(メタデータ) (2023-05-26T20:37:06Z) - Leveraging Approximate Symbolic Models for Reinforcement Learning via
Skill Diversity [32.35693772984721]
シンボリックモデル指導強化学習を導入し,シンボルモデルと基礎となるMDPの関係を形式化する。
これらのモデルを使用して、タスクを分解するために使用されるハイレベルなランドマークを抽出します。
低レベルでは、ランドマークによって特定されるタスクのサブゴールごとに、さまざまなポリシーのセットを学びます。
論文 参考訳(メタデータ) (2022-02-06T23:20:30Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Soft Expert Reward Learning for Vision-and-Language Navigation [94.86954695912125]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従うことで、目に見えない環境で特定の場所を見つける必要がある。
本稿では,VLNタスクの工学的設計と一般化問題を克服するために,ソフトエキスパート・リワード・ラーニング(SERL)モデルを導入する。
論文 参考訳(メタデータ) (2020-07-21T14:17:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。