論文の概要: Motif: Intrinsic Motivation from Artificial Intelligence Feedback
- arxiv url: http://arxiv.org/abs/2310.00166v1
- Date: Fri, 29 Sep 2023 22:10:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 06:13:53.709193
- Title: Motif: Intrinsic Motivation from Artificial Intelligence Feedback
- Title(参考訳): Motif: 人工知能のフィードバックによる本質的な動機づけ
- Authors: Martin Klissarov, Pierluca D'Oro, Shagun Sodhani, Roberta Raileanu,
Pierre-Luc Bacon, Pascal Vincent, Amy Zhang, Mikael Henaff
- Abstract要約: 本稿では,大規模言語モデルからの事前知識をエージェントと対話する手法を提案する。
モティフは、一対のキャプションに対してLLMから好みを導き、本質的な報酬を構築し、強化学習でエージェントを訓練するために使用される。
モーティフは直感的な人間の行動がほとんどであり、即時的な修正によって容易に操縦できることを示す。
- 参考スコア(独自算出の注目度): 44.15805718898529
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Exploring rich environments and evaluating one's actions without prior
knowledge is immensely challenging. In this paper, we propose Motif, a general
method to interface such prior knowledge from a Large Language Model (LLM) with
an agent. Motif is based on the idea of grounding LLMs for decision-making
without requiring them to interact with the environment: it elicits preferences
from an LLM over pairs of captions to construct an intrinsic reward, which is
then used to train agents with reinforcement learning. We evaluate Motif's
performance and behavior on the challenging, open-ended and
procedurally-generated NetHack game. Surprisingly, by only learning to maximize
its intrinsic reward, Motif achieves a higher game score than an algorithm
directly trained to maximize the score itself. When combining Motif's intrinsic
reward with the environment reward, our method significantly outperforms
existing approaches and makes progress on tasks where no advancements have ever
been made without demonstrations. Finally, we show that Motif mostly generates
intuitive human-aligned behaviors which can be steered easily through prompt
modifications, while scaling well with the LLM size and the amount of
information given in the prompt.
- Abstract(参考訳): 豊かな環境を探索し、事前知識なしで行動を評価することは、非常に難しい。
本稿では,Large Language Model (LLM) からの事前知識をエージェントと対話する汎用手法であるMotifを提案する。
モチーフは、環境との相互作用を必要とせずに意思決定のためにllmをグラウンド化するというアイデアに基づいている: 内在的な報酬を構築するために、一対のキャプションに対するllmからの選好を誘発し、強化学習を伴うエージェントのトレーニングに使用される。
そこで本研究では,nethackゲームにおけるモチーフのパフォーマンスと動作を評価する。
驚いたことに、本質的な報酬を最大化することだけを学ぶことで、Motifはスコアそのものを最大化するために直接訓練されたアルゴリズムよりも高いスコアを達成する。
提案手法は,モティフの本質的な報酬と環境報酬とを組み合わせることで,既存の手法を著しく上回り,実演なしで進歩が得られないタスクを進行させる。
最後に,モチーフは,プロンプトで与えられた情報量やllmサイズに合わせてスケーリングしながら,プロンプト修正によって容易に制御できる直感的な人間指向の動作を主に生成することを示す。
関連論文リスト
- Instruct Me More! Random Prompting for Visual In-Context Learning [30.31759752239964]
Instruct Me More (InMeMo)は、学習可能な摂動(prompt)によってコンテキスト内のペアを拡張し、その可能性を探る手法である。
メインストリームタスクに関する我々の実験は、InMeMoが現在の最先端のパフォーマンスを上回っていることを示している。
この結果から,InMeMoは軽量トレーニングによる視覚的ICLの性能向上のための多目的かつ効率的な方法である可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-07T01:39:00Z) - DreamSmooth: Improving Model-based Reinforcement Learning via Reward
Smoothing [60.21269454707625]
DreamSmoothは、与えられたタイミングでの正確な報酬ではなく、時間的に滑らかな報酬を予測することを学ぶ。
本研究では,DreamSmoothが長時間のスパース・リワードタスクにおいて最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-11-02T17:57:38Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Guiding Pretraining in Reinforcement Learning with Large Language Models [133.32146904055233]
テキストコーパスからの背景知識を用いて探索を図形化する手法について述べる。
このメソッドはELLMと呼ばれ、言語モデルによって提案される目標を達成するエージェントに報酬を与える。
大規模な言語モデルの事前訓練を活用することで、ELLMはエージェントをループに人間を必要とせず、人間に有意義で、もっとも有用な行動へと導く。
論文 参考訳(メタデータ) (2023-02-13T21:16:03Z) - Self-Supervised Exploration via Latent Bayesian Surprise [4.088019409160893]
本研究では,強化学習に固有の報酬として,好奇心に基づくボーナスを提案する。
環境調査の観点から、エージェントの性能を計測し、モデルを幅広く評価します。
我々のモデルは安価で経験的にいくつかの問題に対して最先端の性能を示す。
論文 参考訳(メタデータ) (2021-04-15T14:40:16Z) - MOCA: A Modular Object-Centric Approach for Interactive Instruction
Following [19.57344182656879]
本稿では,タスクを視覚認識と行動ポリシーに分離するモジュールアーキテクチャを提案する。
提案手法をALFREDベンチマークで評価し,先行技術より優れていることを実証的に検証した。
論文 参考訳(メタデータ) (2020-12-06T07:59:22Z) - Soft Expert Reward Learning for Vision-and-Language Navigation [94.86954695912125]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従うことで、目に見えない環境で特定の場所を見つける必要がある。
本稿では,VLNタスクの工学的設計と一般化問題を克服するために,ソフトエキスパート・リワード・ラーニング(SERL)モデルを導入する。
論文 参考訳(メタデータ) (2020-07-21T14:17:36Z) - Intrinsic Reward Driven Imitation Learning via Generative Model [48.97800481338626]
ほとんどの逆強化学習(IRL)法は、高次元環境下では実証者よりも優れていない。
生成モデルを用いて固有報酬信号を生成するための新たな報奨学習モジュールを提案する。
実験結果から,本手法は,一生のデモンストレーションであっても,複数のアタリゲームにおいて最先端のIRL法よりも優れることが示された。
論文 参考訳(メタデータ) (2020-06-26T15:39:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。