論文の概要: Inferring Rewards from Language in Context
- arxiv url: http://arxiv.org/abs/2204.02515v1
- Date: Tue, 5 Apr 2022 23:04:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-08 01:34:55.816844
- Title: Inferring Rewards from Language in Context
- Title(参考訳): 文脈における言語からの報復
- Authors: Jessy Lin, Daniel Fried, Dan Klein, Anca Dragan
- Abstract要約: 本稿では,言語実践的に報酬を推定するモデルを提案する。
自然言語を用いた対話型フライト予約タスクでは、より正確に報酬を推測し、目に見えない環境で最適な行動を予測する。
- 参考スコア(独自算出の注目度): 38.10521420300183
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In classic instruction following, language like "I'd like the JetBlue flight"
maps to actions (e.g., selecting that flight). However, language also conveys
information about a user's underlying reward function (e.g., a general
preference for JetBlue), which can allow a model to carry out desirable actions
in new contexts. We present a model that infers rewards from language
pragmatically: reasoning about how speakers choose utterances not only to
elicit desired actions, but also to reveal information about their preferences.
On a new interactive flight-booking task with natural language, our model more
accurately infers rewards and predicts optimal actions in unseen environments,
in comparison to past work that first maps language to actions (instruction
following) and then maps actions to rewards (inverse reinforcement learning).
- Abstract(参考訳): 古典的な命令では、"JetBlue Flight"のような言語はアクション(例えば、そのフライトを選択する)にマップする。
しかし、言語はまた、ユーザーが持つ報酬関数(例えば、JetBlueの一般的な嗜好)に関する情報も伝達し、モデルが新しいコンテキストで望ましいアクションを実行できるようにする。
本稿では,話者が発話をどう選択するかを推論し,所望の行動を誘発するだけでなく,その嗜好に関する情報を明らかにするモデルを提案する。
自然言語を用いた新しい対話型フライト予約タスクにおいて,我々は,まず言語を行動にマップし(指示に従う),次にアクションを報酬にマップした過去の研究(逆強化学習)と比較して,学習環境における最適行動の予測と予測をより正確に行う。
関連論文リスト
- LangNav: Language as a Perceptual Representation for Navigation [66.65847547795593]
視覚・言語ナビゲーションにおける知覚表現としての言語の利用について検討する。
我々のアプローチでは、市販の視覚システムを使用して、エージェントのエゴセントリックなパノラマビューを各ステップで自然言語記述に変換する。
論文 参考訳(メタデータ) (2023-10-11T20:52:30Z) - Robust Preference Learning for Storytelling via Contrastive
Reinforcement Learning [53.92465205531759]
制御された自動ストーリ生成は、自然言語批判や嗜好から制約を満たす自然言語ストーリを生成することを目指している。
対照的なバイエンコーダモデルをトレーニングし、ストーリーを人間の批評と整合させ、汎用的な嗜好モデルを構築する。
我々はさらに、ストーリー生成の堅牢性を高めるために、プロンプトラーニング技術を用いて、対照的な報酬モデルを微調整する。
論文 参考訳(メタデータ) (2022-10-14T13:21:33Z) - How to talk so your robot will learn: Instructions, descriptions, and
pragmatics [14.289220844201695]
我々は、人間が行動よりも好みを伝達する方法を研究する。
従来の強化学習環境では、実践的な社会学習が個別の学習と統合し、加速することができることを示す。
以上の結果から,より幅広い言語からの社会的学習が,より広範に価値アライメントと強化学習の有望なアプローチであることが示唆された。
論文 参考訳(メタデータ) (2022-06-16T01:33:38Z) - Few-shot Subgoal Planning with Language Models [58.11102061150875]
事前訓練された言語モデルにエンコードされた言語は、細粒度のサブゴール列を推測できることを示す。
サブゴナル・インスペクションを強く仮定する最近の手法とは対照的に,我々の実験では,詳細なサブゴラル・シーケンスを微調整せずに推論できる言語モデルが示されている。
論文 参考訳(メタデータ) (2022-05-28T01:03:30Z) - Language Models as Zero-Shot Planners: Extracting Actionable Knowledge
for Embodied Agents [111.33545170562337]
自然言語で表現された高レベルなタスクを、選択された実行可能なステップのセットに基底付ける可能性について検討する。
事前学習したLMが十分に大きく、適切に誘導された場合、ハイレベルなタスクを効果的に低レベルな計画に分解できることがわかった。
本稿では,既存の実演の条件を規定し,計画が許容可能な行動に意味的に変換される手順を提案する。
論文 参考訳(メタデータ) (2022-01-18T18:59:45Z) - Learning Which Features Matter: RoBERTa Acquires a Preference for
Linguistic Generalizations (Eventually) [25.696099563130517]
我々はMSGS(Mixed Signals Generalization Set)と呼ばれる新しい英語診断セットを導入する。
MSGSは20のあいまいなバイナリ分類タスクから構成されており、事前訓練されたモデルが微調整中に言語的あるいは表面的な一般化を好むかどうかをテストするのに使用される。
我々は、RoBERTaモデルを100万語から10億語までのデータ量でスクラッチからプレトレーニングし、MSGS上でのパフォーマンスをRoBERTaベースと比較する。
モデルは事前学習したデータで言語的特徴を表現することができるが、言語的な一般化を表わすためには、はるかに多くのデータが必要である。
論文 参考訳(メタデータ) (2020-10-11T22:09:27Z) - Learning Spoken Language Representations with Neural Lattice Language
Modeling [39.50831917042577]
本稿では,音声言語理解タスクのための文脈表現を提供するために,ニューラルネットワーク言語モデルを訓練するフレームワークを提案する。
提案する2段階事前学習手法は,音声データの要求を低減し,効率を向上する。
論文 参考訳(メタデータ) (2020-07-06T10:38:03Z) - Building Low-Resource NER Models Using Non-Speaker Annotation [58.78968578460793]
言語横断的な手法はこれらの懸念に対処する上で顕著な成功を収めた。
本稿では,Non-Speaker''(NS)アノテーションを用いた低リソース名前付きエンティティ認識(NER)モデル構築のための補完的アプローチを提案する。
NSアノテータの使用は、現代の文脈表現上に構築された言語間メソッドよりも、一貫した結果が得られることを示す。
論文 参考訳(メタデータ) (2020-06-17T03:24:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。