論文の概要: Learning Rewards from Linguistic Feedback
- arxiv url: http://arxiv.org/abs/2009.14715v3
- Date: Sat, 3 Jul 2021 19:03:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 23:45:42.644112
- Title: Learning Rewards from Linguistic Feedback
- Title(参考訳): 言語フィードバックからの学習報酬
- Authors: Theodore R. Sumers, Mark K. Ho, Robert D. Hawkins, Karthik Narasimhan,
Thomas L. Griffiths
- Abstract要約: 人工エージェントの学習信号として,制約のない自然言語フィードバックを探索する。
感情に基づく「リテラル」と「実用的」の3つのモデルと、潜在報酬を予測するためにエンドツーエンドにトレーニングされた推論ネットワークを実装した。
- 参考スコア(独自算出の注目度): 30.30912759796109
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We explore unconstrained natural language feedback as a learning signal for
artificial agents. Humans use rich and varied language to teach, yet most prior
work on interactive learning from language assumes a particular form of input
(e.g., commands). We propose a general framework which does not make this
assumption, using aspect-based sentiment analysis to decompose feedback into
sentiment about the features of a Markov decision process. We then perform an
analogue of inverse reinforcement learning, regressing the sentiment on the
features to infer the teacher's latent reward function. To evaluate our
approach, we first collect a corpus of teaching behavior in a cooperative task
where both teacher and learner are human. We implement three artificial
learners: sentiment-based "literal" and "pragmatic" models, and an inference
network trained end-to-end to predict latent rewards. We then repeat our
initial experiment and pair them with human teachers. All three successfully
learn from interactive human feedback. The sentiment models outperform the
inference network, with the "pragmatic" model approaching human performance.
Our work thus provides insight into the information structure of naturalistic
linguistic feedback as well as methods to leverage it for reinforcement
learning.
- Abstract(参考訳): 人工エージェントの学習信号として,制約のない自然言語フィードバックを探索する。
人間は豊かで多様な言語を使って教えるが、言語からの対話的学習に関する多くの先行研究は特定の入力形式(例えばコマンド)を前提としている。
本稿では,この仮定を下さない一般的なフレームワークを提案する。アスペクトベースの感情分析を用いて,マルコフ決定プロセスの特徴に関する感情にフィードバックを分解する。
次に,教師の潜在報酬関数を推定するために,その特徴に対する感情を抑えながら,逆強化学習の類似を行う。
本研究では,まず,教師と学習者が人間である協調作業において,学習行動のコーパスを収集する。
感情に基づく「リテラル」と「実用的」の3つのモデルと、潜在報酬を予測するためにエンドツーエンドの推論ネットワークを実装した。
最初の実験を繰り返して、それを人間の教師と組み合わせます。
3人とも、対話的な人間のフィードバックから学べる。
感情モデルは推論ネットワークよりも優れており、"pragmatic"モデルは人間のパフォーマンスに近づいている。
そこで本研究では,自然言語フィードバックの情報構造と,それを活用した強化学習手法について考察する。
関連論文リスト
- Is Feedback All You Need? Leveraging Natural Language Feedback in
Goal-Conditioned Reinforcement Learning [54.31495290436766]
我々はBabyAIを拡張し、環境力学と目標条件の成功から言語フィードバックを自動的に生成する。
我々は、この付加信号を利用するために、決定変換器アーキテクチャを変更する。
言語フィードバックによるトレーニングは, エージェントの一般化性能を向上させること, あるいは, 目標記述に代えて行うことが確認された。
論文 参考訳(メタデータ) (2023-12-07T22:33:34Z) - Yes, this Way! Learning to Ground Referring Expressions into Actions
with Intra-episodic Feedback from Supportive Teachers [15.211628096103475]
本研究は,協調的な環境下でのエポゾディック内フィードバックを評価するための最初の研究である。
以上の結果から,エポゾディック内フィードバックにより,参加者はシーンの複雑さの側面を一般化できることがわかった。
論文 参考訳(メタデータ) (2023-05-22T10:01:15Z) - Training Language Models with Language Feedback at Scale [50.70091340506957]
我々は、より情報的な言語フィードバックを利用する新しいアプローチであるLanguage Feedback (ILF)から学習を導入する。
ILFは3つのステップから成り、まず言語モデルを入力に条件付けし、最初のLM出力を出力し、改善を生成する。
理論的には、ILFは人間からのフィードバックによる強化学習と同様、ベイズ推論とみなすことができる。
論文 参考訳(メタデータ) (2023-03-28T17:04:15Z) - Chain of Hindsight Aligns Language Models with Feedback [62.68665658130472]
我々は,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。
我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用する。
そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。
論文 参考訳(メタデータ) (2023-02-06T10:28:16Z) - Communication Drives the Emergence of Language Universals in Neural
Agents: Evidence from the Word-order/Case-marking Trade-off [3.631024220680066]
ニューラルエージェント言語学習通信フレームワーク(NeLLCom)を提案する。
我々はエージェントに特定のバイアスをハードコーディングすることなく、新しいフレームワークでトレードオフを複製することに成功しました。
論文 参考訳(メタデータ) (2023-01-30T17:22:33Z) - How to talk so your robot will learn: Instructions, descriptions, and
pragmatics [14.289220844201695]
我々は、人間が行動よりも好みを伝達する方法を研究する。
従来の強化学習環境では、実践的な社会学習が個別の学習と統合し、加速することができることを示す。
以上の結果から,より幅広い言語からの社会的学習が,より広範に価値アライメントと強化学習の有望なアプローチであることが示唆された。
論文 参考訳(メタデータ) (2022-06-16T01:33:38Z) - Training Language Models with Natural Language Feedback [51.36137482891037]
3段階学習アルゴリズムを用いてモデル出力の言語フィードバックから学習する。
合成実験において、まず言語モデルがフィードバックを正確に組み込んで改良を行うかどうかを評価する。
人間の手書きフィードバックのサンプルは100程度しかなく, 学習アルゴリズムはGPT-3モデルを微調整し, ほぼ人間レベルの要約を行う。
論文 参考訳(メタデータ) (2022-04-29T15:06:58Z) - Grounding Hindsight Instructions in Multi-Goal Reinforcement Learning
for Robotics [14.863872352905629]
本稿では,自然言語の目標表現に対するスパース報酬を用いたロボット強化学習に焦点を当てた。
まず,専門家のフィードバックを生かした後向きの指示再生機構を提案する。
次に,言語的後見命令を生成するセク2seqモデルを提案する。
論文 参考訳(メタデータ) (2022-04-08T22:01:36Z) - Unsupervised Domain Adaptive Person Re-Identification via Human Learning
Imitation [67.52229938775294]
近年、研究者は、異なる人物の再識別データセット間のドメインギャップを減らすために、教師学生フレームワークを彼らの手法に活用することを提案している。
近年の教員中心の枠組みに基づく手法に着想を得て,異なる側面から人間の学習過程を模倣するためのさらなる探究を提案する。
論文 参考訳(メタデータ) (2021-11-28T01:14:29Z) - Bongard-LOGO: A New Benchmark for Human-Level Concept Learning and
Reasoning [78.13740873213223]
ボナード問題(BP)は、インテリジェントシステムにおける視覚認知へのインスピレーションとして導入された。
我々は人間レベルの概念学習と推論のための新しいベンチマークBongard-LOGOを提案する。
論文 参考訳(メタデータ) (2020-10-02T03:19:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。