論文の概要: How to talk so your robot will learn: Instructions, descriptions, and
pragmatics
- arxiv url: http://arxiv.org/abs/2206.07870v1
- Date: Thu, 16 Jun 2022 01:33:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-18 14:48:42.494981
- Title: How to talk so your robot will learn: Instructions, descriptions, and
pragmatics
- Title(参考訳): ロボットが学ぶための話し方:教示、説明、実践
- Authors: Theodore R Sumers, Robert D Hawkins, Mark K Ho, Thomas L Griffiths,
Dylan Hadfield-Menell
- Abstract要約: 我々は、人間が行動よりも好みを伝達する方法を研究する。
従来の強化学習環境では、実践的な社会学習が個別の学習と統合し、加速することができることを示す。
以上の結果から,より幅広い言語からの社会的学習が,より広範に価値アライメントと強化学習の有望なアプローチであることが示唆された。
- 参考スコア(独自算出の注目度): 14.289220844201695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: From the earliest years of our lives, humans use language to express our
beliefs and desires. Being able to talk to artificial agents about our
preferences would thus fulfill a central goal of value alignment. Yet today, we
lack computational models explaining such flexible and abstract language use.
To address this challenge, we consider social learning in a linear bandit
setting and ask how a human might communicate preferences over behaviors (i.e.
the reward function). We study two distinct types of language: instructions,
which provide information about the desired policy, and descriptions, which
provide information about the reward function. To explain how humans use these
forms of language, we suggest they reason about both known present and unknown
future states: instructions optimize for the present, while descriptions
generalize to the future. We formalize this choice by extending reward design
to consider a distribution over states. We then define a pragmatic listener
agent that infers the speaker's reward function by reasoning about how the
speaker expresses themselves. We validate our models with a behavioral
experiment, demonstrating that (1) our speaker model predicts spontaneous human
behavior, and (2) our pragmatic listener is able to recover their reward
functions. Finally, we show that in traditional reinforcement learning
settings, pragmatic social learning can integrate with and accelerate
individual learning. Our findings suggest that social learning from a wider
range of language -- in particular, expanding the field's present focus on
instructions to include learning from descriptions -- is a promising approach
for value alignment and reinforcement learning more broadly.
- Abstract(参考訳): 私たちの人生の初期から、人間は私たちの信念や欲望を表現するために言語を使います。
人工エージェントに私たちの好みについて話すことができれば、価値アライメントという中心的な目標を達成できるでしょう。
しかし今日では、そのような柔軟で抽象的な言語の使用を説明する計算モデルが欠けている。
この課題に対処するために、社会学習を線形バンディット設定で検討し、人間が行動よりも好み(すなわち報酬関数)をどう伝達するかを問う。
我々は,望ましい方針に関する情報を提供するインストラクションと,報酬機能に関する情報を提供する説明という2つの異なる言語について検討した。
人間がこれらの言語をどのように使うかを説明するために、既知の現在状態と未知の将来の状態の両方について推論することを提案します。
我々は、報酬設計を拡張して、状態の分布を考えることで、この選択を形式化する。
次に、話者の自己表現の仕方を推論することで、話者の報酬関数を推測する実用的リスナーエージェントを定義する。
我々は,(1)話者モデルが自発的な行動を予測すること,(2)実用的リスナーが報酬関数を回復できることを実証し,行動実験によってモデルを検証する。
最後に,従来の強化学習環境では,実践的社会学習が個別学習と統合し,促進できることを示す。
以上の結果から, より広い範囲の言語からの社会学習, 特に, 分野の現在, 説明からの学習を含む指導に焦点をあてることが, より広範に価値アライメントと強化学習の有望なアプローチであることを示唆した。
関連論文リスト
- Learning to Model the World with Language [98.22400014565818]
我々は、将来のテキストや画像表現を予測するマルチモーダル世界モデルを学び、想像されたモデルロールアウトから行動を学ぶエージェントであるDynalangを紹介する。
アクションを予測するためにのみ言語を使用する従来のエージェントとは異なり、Dynalangは、過去の言語を使用して、将来の言語、ビデオ、報酬を予測することによって、リッチな言語理解を得る。
論文 参考訳(メタデータ) (2023-07-31T17:57:49Z) - The Neuro-Symbolic Inverse Planning Engine (NIPE): Modeling
Probabilistic Social Inferences from Linguistic Inputs [50.32802502923367]
確率的目標推論領域における言語駆動の過程と社会的推論への影響について検討する。
本稿では,エージェントシナリオの言語入力から目標推定を行うニューロシンボリックモデルを提案する。
我々のモデルは人間の反応パターンと密に一致し、LLM単独の使用よりも人間の判断をより良く予測する。
論文 参考訳(メタデータ) (2023-06-25T19:38:01Z) - Speaking the Language of Your Listener: Audience-Aware Adaptation via
Plug-and-Play Theory of Mind [4.052000839878213]
我々は、より限られた視覚的・言語的経験を持つ、知識のある話者と聞き手の間の視覚的接地型参照ゲームをモデル化する。
我々は,提案する話者に対して,聴取者の視点から予測された発話の有効性をモニタするシミュレーションモジュールを用いて,参照表現を適応する能力を与える。
論文 参考訳(メタデータ) (2023-05-31T15:17:28Z) - Chain of Hindsight Aligns Language Models with Feedback [62.68665658130472]
我々は,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。
我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用する。
そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。
論文 参考訳(メタデータ) (2023-02-06T10:28:16Z) - Linguistic communication as (inverse) reward design [14.289220844201695]
本稿では,基礎言語コミュニケーションの統一原理としての報酬設計の一般化を提案する。
まず、リニアバンディット設定において、未知の将来の状態についての推論を組み込むよう、報酬設計を拡張した。
次に、話者の潜伏した地平線と報奨を共同で推定することにより、逆報酬設計を行う実用的リスナーを定義する。
論文 参考訳(メタデータ) (2022-04-11T13:50:34Z) - Grounding Hindsight Instructions in Multi-Goal Reinforcement Learning
for Robotics [14.863872352905629]
本稿では,自然言語の目標表現に対するスパース報酬を用いたロボット強化学習に焦点を当てた。
まず,専門家のフィードバックを生かした後向きの指示再生機構を提案する。
次に,言語的後見命令を生成するセク2seqモデルを提案する。
論文 参考訳(メタデータ) (2022-04-08T22:01:36Z) - Speaker Information Can Guide Models to Better Inductive Biases: A Case
Study On Predicting Code-Switching [27.68274308680201]
社会言語学的に座屈した話者特徴を事前のプロンプトとして付加すると精度が著しく向上することを示す。
私たちは、コードスイッチングのためのニューラルモデルに話者特性を取り入れた最初の人です。
論文 参考訳(メタデータ) (2022-03-16T22:56:58Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Ethical-Advice Taker: Do Language Models Understand Natural Language
Interventions? [62.74872383104381]
読解システムにおける自然言語介入の有効性について検討する。
本稿では,新たな言語理解タスクであるLingguistic Ethical Interventions (LEI)を提案する。
論文 参考訳(メタデータ) (2021-06-02T20:57:58Z) - Learning Rewards from Linguistic Feedback [30.30912759796109]
人工エージェントの学習信号として,制約のない自然言語フィードバックを探索する。
感情に基づく「リテラル」と「実用的」の3つのモデルと、潜在報酬を予測するためにエンドツーエンドにトレーニングされた推論ネットワークを実装した。
論文 参考訳(メタデータ) (2020-09-30T14:51:00Z) - I love your chain mail! Making knights smile in a fantasy game world:
Open-domain goal-oriented dialogue agents [69.68400056148336]
我々は、模倣学習したチトチャットモデルに対して強化学習を施した目標指向モデルを訓練する。
両モデルが逆モデルベースラインより優れており,目標を達成するために対話相手と自然に会話できることを示す。
論文 参考訳(メタデータ) (2020-02-07T16:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。