論文の概要: How to talk so your robot will learn: Instructions, descriptions, and
pragmatics
- arxiv url: http://arxiv.org/abs/2206.07870v1
- Date: Thu, 16 Jun 2022 01:33:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-18 14:48:42.494981
- Title: How to talk so your robot will learn: Instructions, descriptions, and
pragmatics
- Title(参考訳): ロボットが学ぶための話し方:教示、説明、実践
- Authors: Theodore R Sumers, Robert D Hawkins, Mark K Ho, Thomas L Griffiths,
Dylan Hadfield-Menell
- Abstract要約: 我々は、人間が行動よりも好みを伝達する方法を研究する。
従来の強化学習環境では、実践的な社会学習が個別の学習と統合し、加速することができることを示す。
以上の結果から,より幅広い言語からの社会的学習が,より広範に価値アライメントと強化学習の有望なアプローチであることが示唆された。
- 参考スコア(独自算出の注目度): 14.289220844201695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: From the earliest years of our lives, humans use language to express our
beliefs and desires. Being able to talk to artificial agents about our
preferences would thus fulfill a central goal of value alignment. Yet today, we
lack computational models explaining such flexible and abstract language use.
To address this challenge, we consider social learning in a linear bandit
setting and ask how a human might communicate preferences over behaviors (i.e.
the reward function). We study two distinct types of language: instructions,
which provide information about the desired policy, and descriptions, which
provide information about the reward function. To explain how humans use these
forms of language, we suggest they reason about both known present and unknown
future states: instructions optimize for the present, while descriptions
generalize to the future. We formalize this choice by extending reward design
to consider a distribution over states. We then define a pragmatic listener
agent that infers the speaker's reward function by reasoning about how the
speaker expresses themselves. We validate our models with a behavioral
experiment, demonstrating that (1) our speaker model predicts spontaneous human
behavior, and (2) our pragmatic listener is able to recover their reward
functions. Finally, we show that in traditional reinforcement learning
settings, pragmatic social learning can integrate with and accelerate
individual learning. Our findings suggest that social learning from a wider
range of language -- in particular, expanding the field's present focus on
instructions to include learning from descriptions -- is a promising approach
for value alignment and reinforcement learning more broadly.
- Abstract(参考訳): 私たちの人生の初期から、人間は私たちの信念や欲望を表現するために言語を使います。
人工エージェントに私たちの好みについて話すことができれば、価値アライメントという中心的な目標を達成できるでしょう。
しかし今日では、そのような柔軟で抽象的な言語の使用を説明する計算モデルが欠けている。
この課題に対処するために、社会学習を線形バンディット設定で検討し、人間が行動よりも好み(すなわち報酬関数)をどう伝達するかを問う。
我々は,望ましい方針に関する情報を提供するインストラクションと,報酬機能に関する情報を提供する説明という2つの異なる言語について検討した。
人間がこれらの言語をどのように使うかを説明するために、既知の現在状態と未知の将来の状態の両方について推論することを提案します。
我々は、報酬設計を拡張して、状態の分布を考えることで、この選択を形式化する。
次に、話者の自己表現の仕方を推論することで、話者の報酬関数を推測する実用的リスナーエージェントを定義する。
我々は,(1)話者モデルが自発的な行動を予測すること,(2)実用的リスナーが報酬関数を回復できることを実証し,行動実験によってモデルを検証する。
最後に,従来の強化学習環境では,実践的社会学習が個別学習と統合し,促進できることを示す。
以上の結果から, より広い範囲の言語からの社会学習, 特に, 分野の現在, 説明からの学習を含む指導に焦点をあてることが, より広範に価値アライメントと強化学習の有望なアプローチであることを示唆した。
関連論文リスト
- SIFToM: Robust Spoken Instruction Following through Theory of Mind [51.326266354164716]
本稿では,認知にインスパイアされた音声指導モデルであるSIFToMを提案し,多様な音声条件下でロボットが人間の指示を実践的に追従できるようにする。
結果から,SIFToMモデルは現状の音声モデルや言語モデルよりも優れており,課題に追従する音声命令に対する人間レベルの精度に近づいていることがわかった。
論文 参考訳(メタデータ) (2024-09-17T02:36:10Z) - Situated Instruction Following [87.37244711380411]
本稿では,実世界のコミュニケーションの非特異性とあいまいさを取り入れた位置指示について述べる。
位置指示の意味は、人間の過去の行動と将来の行動を通じて自然に展開される。
我々の実験は、現在最先端の身体的指示追従(EIF)モデルが、位置する人間の意図の全体的理解を欠いていることを示唆している。
論文 参考訳(メタデータ) (2024-07-15T19:32:30Z) - Learning to Model the World with Language [100.76069091703505]
人間と対話し、世界で行動するためには、エージェントは人々が使用する言語の範囲を理解し、それを視覚の世界に関連付ける必要がある。
私たちのキーとなるアイデアは、エージェントが将来を予測するのに役立つ信号として、このような多様な言語を解釈すべきである、ということです。
我々は、将来のテキストや画像表現を予測するマルチモーダル世界モデルを学ぶエージェントであるDynalangでこれをインスタンス化する。
論文 参考訳(メタデータ) (2023-07-31T17:57:49Z) - The Neuro-Symbolic Inverse Planning Engine (NIPE): Modeling
Probabilistic Social Inferences from Linguistic Inputs [50.32802502923367]
確率的目標推論領域における言語駆動の過程と社会的推論への影響について検討する。
本稿では,エージェントシナリオの言語入力から目標推定を行うニューロシンボリックモデルを提案する。
我々のモデルは人間の反応パターンと密に一致し、LLM単独の使用よりも人間の判断をより良く予測する。
論文 参考訳(メタデータ) (2023-06-25T19:38:01Z) - Speaking the Language of Your Listener: Audience-Aware Adaptation via
Plug-and-Play Theory of Mind [4.052000839878213]
我々は、より限られた視覚的・言語的経験を持つ、知識のある話者と聞き手の間の視覚的接地型参照ゲームをモデル化する。
我々は,提案する話者に対して,聴取者の視点から予測された発話の有効性をモニタするシミュレーションモジュールを用いて,参照表現を適応する能力を与える。
論文 参考訳(メタデータ) (2023-05-31T15:17:28Z) - Chain of Hindsight Aligns Language Models with Feedback [62.68665658130472]
我々は,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。
我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用する。
そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。
論文 参考訳(メタデータ) (2023-02-06T10:28:16Z) - Linguistic communication as (inverse) reward design [14.289220844201695]
本稿では,基礎言語コミュニケーションの統一原理としての報酬設計の一般化を提案する。
まず、リニアバンディット設定において、未知の将来の状態についての推論を組み込むよう、報酬設計を拡張した。
次に、話者の潜伏した地平線と報奨を共同で推定することにより、逆報酬設計を行う実用的リスナーを定義する。
論文 参考訳(メタデータ) (2022-04-11T13:50:34Z) - Grounding Hindsight Instructions in Multi-Goal Reinforcement Learning
for Robotics [14.863872352905629]
本稿では,自然言語の目標表現に対するスパース報酬を用いたロボット強化学習に焦点を当てた。
まず,専門家のフィードバックを生かした後向きの指示再生機構を提案する。
次に,言語的後見命令を生成するセク2seqモデルを提案する。
論文 参考訳(メタデータ) (2022-04-08T22:01:36Z) - Speaker Information Can Guide Models to Better Inductive Biases: A Case
Study On Predicting Code-Switching [27.68274308680201]
社会言語学的に座屈した話者特徴を事前のプロンプトとして付加すると精度が著しく向上することを示す。
私たちは、コードスイッチングのためのニューラルモデルに話者特性を取り入れた最初の人です。
論文 参考訳(メタデータ) (2022-03-16T22:56:58Z) - Learning Rewards from Linguistic Feedback [30.30912759796109]
人工エージェントの学習信号として,制約のない自然言語フィードバックを探索する。
感情に基づく「リテラル」と「実用的」の3つのモデルと、潜在報酬を予測するためにエンドツーエンドにトレーニングされた推論ネットワークを実装した。
論文 参考訳(メタデータ) (2020-09-30T14:51:00Z) - I love your chain mail! Making knights smile in a fantasy game world:
Open-domain goal-oriented dialogue agents [69.68400056148336]
我々は、模倣学習したチトチャットモデルに対して強化学習を施した目標指向モデルを訓練する。
両モデルが逆モデルベースラインより優れており,目標を達成するために対話相手と自然に会話できることを示す。
論文 参考訳(メタデータ) (2020-02-07T16:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。