論文の概要: Inferring Rewards from Language in Context
- arxiv url: http://arxiv.org/abs/2204.02515v1
- Date: Tue, 5 Apr 2022 23:04:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-08 01:34:55.816844
- Title: Inferring Rewards from Language in Context
- Title(参考訳): 文脈における言語からの報復
- Authors: Jessy Lin, Daniel Fried, Dan Klein, Anca Dragan
- Abstract要約: 本稿では,言語実践的に報酬を推定するモデルを提案する。
自然言語を用いた対話型フライト予約タスクでは、より正確に報酬を推測し、目に見えない環境で最適な行動を予測する。
- 参考スコア(独自算出の注目度): 38.10521420300183
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In classic instruction following, language like "I'd like the JetBlue flight"
maps to actions (e.g., selecting that flight). However, language also conveys
information about a user's underlying reward function (e.g., a general
preference for JetBlue), which can allow a model to carry out desirable actions
in new contexts. We present a model that infers rewards from language
pragmatically: reasoning about how speakers choose utterances not only to
elicit desired actions, but also to reveal information about their preferences.
On a new interactive flight-booking task with natural language, our model more
accurately infers rewards and predicts optimal actions in unseen environments,
in comparison to past work that first maps language to actions (instruction
following) and then maps actions to rewards (inverse reinforcement learning).
- Abstract(参考訳): 古典的な命令では、"JetBlue Flight"のような言語はアクション(例えば、そのフライトを選択する)にマップする。
しかし、言語はまた、ユーザーが持つ報酬関数(例えば、JetBlueの一般的な嗜好)に関する情報も伝達し、モデルが新しいコンテキストで望ましいアクションを実行できるようにする。
本稿では,話者が発話をどう選択するかを推論し,所望の行動を誘発するだけでなく,その嗜好に関する情報を明らかにするモデルを提案する。
自然言語を用いた新しい対話型フライト予約タスクにおいて,我々は,まず言語を行動にマップし(指示に従う),次にアクションを報酬にマップした過去の研究(逆強化学習)と比較して,学習環境における最適行動の予測と予測をより正確に行う。
関連論文リスト
- Dialogue Action Tokens: Steering Language Models in Goal-Directed Dialogue with a Multi-Turn Planner [51.77263363285369]
本稿では,対話行動トークンと呼ばれる言語モデルエージェントを用いて,目標指向の対話を計画する手法を提案する。
中心となる考え方は、各発話をアクションとして扱うことで、強化学習のような既存のアプローチを適用することができるゲームに対話を変換することである。
論文 参考訳(メタデータ) (2024-06-17T18:01:32Z) - LangNav: Language as a Perceptual Representation for Navigation [63.90602960822604]
視覚・言語ナビゲーション(VLN)における知覚表現としての言語の利用について検討する。
提案手法では,画像キャプションや物体検出に市販の視覚システムを用いて,エージェントのエゴセントリックなパノラマビューを各ステップで自然言語記述に変換する。
論文 参考訳(メタデータ) (2023-10-11T20:52:30Z) - Robust Preference Learning for Storytelling via Contrastive
Reinforcement Learning [53.92465205531759]
制御された自動ストーリ生成は、自然言語批判や嗜好から制約を満たす自然言語ストーリを生成することを目指している。
対照的なバイエンコーダモデルをトレーニングし、ストーリーを人間の批評と整合させ、汎用的な嗜好モデルを構築する。
我々はさらに、ストーリー生成の堅牢性を高めるために、プロンプトラーニング技術を用いて、対照的な報酬モデルを微調整する。
論文 参考訳(メタデータ) (2022-10-14T13:21:33Z) - How to talk so your robot will learn: Instructions, descriptions, and
pragmatics [14.289220844201695]
我々は、人間が行動よりも好みを伝達する方法を研究する。
従来の強化学習環境では、実践的な社会学習が個別の学習と統合し、加速することができることを示す。
以上の結果から,より幅広い言語からの社会的学習が,より広範に価値アライメントと強化学習の有望なアプローチであることが示唆された。
論文 参考訳(メタデータ) (2022-06-16T01:33:38Z) - Few-shot Subgoal Planning with Language Models [58.11102061150875]
事前訓練された言語モデルにエンコードされた言語は、細粒度のサブゴール列を推測できることを示す。
サブゴナル・インスペクションを強く仮定する最近の手法とは対照的に,我々の実験では,詳細なサブゴラル・シーケンスを微調整せずに推論できる言語モデルが示されている。
論文 参考訳(メタデータ) (2022-05-28T01:03:30Z) - Language Models as Zero-Shot Planners: Extracting Actionable Knowledge
for Embodied Agents [111.33545170562337]
自然言語で表現された高レベルなタスクを、選択された実行可能なステップのセットに基底付ける可能性について検討する。
事前学習したLMが十分に大きく、適切に誘導された場合、ハイレベルなタスクを効果的に低レベルな計画に分解できることがわかった。
本稿では,既存の実演の条件を規定し,計画が許容可能な行動に意味的に変換される手順を提案する。
論文 参考訳(メタデータ) (2022-01-18T18:59:45Z) - Learning Which Features Matter: RoBERTa Acquires a Preference for
Linguistic Generalizations (Eventually) [25.696099563130517]
我々はMSGS(Mixed Signals Generalization Set)と呼ばれる新しい英語診断セットを導入する。
MSGSは20のあいまいなバイナリ分類タスクから構成されており、事前訓練されたモデルが微調整中に言語的あるいは表面的な一般化を好むかどうかをテストするのに使用される。
我々は、RoBERTaモデルを100万語から10億語までのデータ量でスクラッチからプレトレーニングし、MSGS上でのパフォーマンスをRoBERTaベースと比較する。
モデルは事前学習したデータで言語的特徴を表現することができるが、言語的な一般化を表わすためには、はるかに多くのデータが必要である。
論文 参考訳(メタデータ) (2020-10-11T22:09:27Z) - Learning Spoken Language Representations with Neural Lattice Language
Modeling [39.50831917042577]
本稿では,音声言語理解タスクのための文脈表現を提供するために,ニューラルネットワーク言語モデルを訓練するフレームワークを提案する。
提案する2段階事前学習手法は,音声データの要求を低減し,効率を向上する。
論文 参考訳(メタデータ) (2020-07-06T10:38:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。