Fugu-MT 論文翻訳(概要): Inferring Rewards from Language in Context

論文の概要: Inferring Rewards from Language in Context

arxiv url: http://arxiv.org/abs/2204.02515v1
Date: Tue, 5 Apr 2022 23:04:18 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-08 01:34:55.816844
Title: Inferring Rewards from Language in Context
Title（参考訳）: 文脈における言語からの報復
Authors: Jessy Lin, Daniel Fried, Dan Klein, Anca Dragan
Abstract要約: 本稿では,言語実践的に報酬を推定するモデルを提案する。自然言語を用いた対話型フライト予約タスクでは、より正確に報酬を推測し、目に見えない環境で最適な行動を予測する。
参考スコア（独自算出の注目度）: 38.10521420300183
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In classic instruction following, language like "I'd like the JetBlue flight" maps to actions (e.g., selecting that flight). However, language also conveys information about a user's underlying reward function (e.g., a general preference for JetBlue), which can allow a model to carry out desirable actions in new contexts. We present a model that infers rewards from language pragmatically: reasoning about how speakers choose utterances not only to elicit desired actions, but also to reveal information about their preferences. On a new interactive flight-booking task with natural language, our model more accurately infers rewards and predicts optimal actions in unseen environments, in comparison to past work that first maps language to actions (instruction following) and then maps actions to rewards (inverse reinforcement learning).
Abstract（参考訳）: 古典的な命令では、"JetBlue Flight"のような言語はアクション(例えば、そのフライトを選択する)にマップする。しかし、言語はまた、ユーザーが持つ報酬関数(例えば、JetBlueの一般的な嗜好)に関する情報も伝達し、モデルが新しいコンテキストで望ましいアクションを実行できるようにする。本稿では,話者が発話をどう選択するかを推論し,所望の行動を誘発するだけでなく,その嗜好に関する情報を明らかにするモデルを提案する。自然言語を用いた新しい対話型フライト予約タスクにおいて,我々は,まず言語を行動にマップし(指示に従う),次にアクションを報酬にマップした過去の研究(逆強化学習)と比較して,学習環境における最適行動の予測と予測をより正確に行う。

関連論文リスト

Towards Developmentally Plausible Rewards: Communicative Success as a Learning Signal for Interactive Language Models [49.22720751953838]
本研究では,子どもの言語習得に触発された対話型環境で言語モデルを訓練する手法を提案する。この設定では、話者は1ターンの対話でリスナーに何らかの情報を伝達しようと試み、コミュニケーションの成功が達成されれば報酬を受け取る。
論文参考訳（メタデータ） (2025-05-09T11:48:36Z)
VLP: Vision-Language Preference Learning for Embodied Manipulation [29.7387976970634]
具体的操作タスクに対する好みフィードバックを提供するための視覚言語選好モデルを提案する。選好モデルは言語に関連する特徴を抽出し、様々な下流タスクにおいて選好アノテータとして機能する。提案手法は,未知のタスクや未知の言語命令に対して,精度の高い選好と一般化を提供し,ベースラインを大きなマージンで上回る。
論文参考訳（メタデータ） (2025-02-17T15:32:14Z)
Dialogue Action Tokens: Steering Language Models in Goal-Directed Dialogue with a Multi-Turn Planner [51.77263363285369]
本稿では,対話行動トークンと呼ばれる言語モデルエージェントを用いて,目標指向の対話を計画する手法を提案する。中心となる考え方は、各発話をアクションとして扱うことで、強化学習のような既存のアプローチを適用することができるゲームに対話を変換することである。
論文参考訳（メタデータ） (2024-06-17T18:01:32Z)
LangNav: Language as a Perceptual Representation for Navigation [63.90602960822604]
視覚・言語ナビゲーション(VLN)における知覚表現としての言語の利用について検討する。提案手法では,画像キャプションや物体検出に市販の視覚システムを用いて,エージェントのエゴセントリックなパノラマビューを各ステップで自然言語記述に変換する。
論文参考訳（メタデータ） (2023-10-11T20:52:30Z)
Robust Preference Learning for Storytelling via Contrastive Reinforcement Learning [53.92465205531759]
制御された自動ストーリ生成は、自然言語批判や嗜好から制約を満たす自然言語ストーリを生成することを目指している。対照的なバイエンコーダモデルをトレーニングし、ストーリーを人間の批評と整合させ、汎用的な嗜好モデルを構築する。我々はさらに、ストーリー生成の堅牢性を高めるために、プロンプトラーニング技術を用いて、対照的な報酬モデルを微調整する。
論文参考訳（メタデータ） (2022-10-14T13:21:33Z)
How to talk so your robot will learn: Instructions, descriptions, and pragmatics [14.289220844201695]
我々は、人間が行動よりも好みを伝達する方法を研究する。従来の強化学習環境では、実践的な社会学習が個別の学習と統合し、加速することができることを示す。以上の結果から,より幅広い言語からの社会的学習が,より広範に価値アライメントと強化学習の有望なアプローチであることが示唆された。
論文参考訳（メタデータ） (2022-06-16T01:33:38Z)
Few-shot Subgoal Planning with Language Models [58.11102061150875]
事前訓練された言語モデルにエンコードされた言語は、細粒度のサブゴール列を推測できることを示す。サブゴナル・インスペクションを強く仮定する最近の手法とは対照的に,我々の実験では,詳細なサブゴラル・シーケンスを微調整せずに推論できる言語モデルが示されている。
論文参考訳（メタデータ） (2022-05-28T01:03:30Z)
Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents [111.33545170562337]
自然言語で表現された高レベルなタスクを、選択された実行可能なステップのセットに基底付ける可能性について検討する。事前学習したLMが十分に大きく、適切に誘導された場合、ハイレベルなタスクを効果的に低レベルな計画に分解できることがわかった。本稿では,既存の実演の条件を規定し,計画が許容可能な行動に意味的に変換される手順を提案する。
論文参考訳（メタデータ） (2022-01-18T18:59:45Z)
Learning Which Features Matter: RoBERTa Acquires a Preference for Linguistic Generalizations (Eventually) [25.696099563130517]
我々はMSGS(Mixed Signals Generalization Set)と呼ばれる新しい英語診断セットを導入する。 MSGSは20のあいまいなバイナリ分類タスクから構成されており、事前訓練されたモデルが微調整中に言語的あるいは表面的な一般化を好むかどうかをテストするのに使用される。我々は、RoBERTaモデルを100万語から10億語までのデータ量でスクラッチからプレトレーニングし、MSGS上でのパフォーマンスをRoBERTaベースと比較する。モデルは事前学習したデータで言語的特徴を表現することができるが、言語的な一般化を表わすためには、はるかに多くのデータが必要である。
論文参考訳（メタデータ） (2020-10-11T22:09:27Z)
Learning Spoken Language Representations with Neural Lattice Language Modeling [39.50831917042577]
本稿では,音声言語理解タスクのための文脈表現を提供するために,ニューラルネットワーク言語モデルを訓練するフレームワークを提案する。提案する2段階事前学習手法は,音声データの要求を低減し,効率を向上する。
論文参考訳（メタデータ） (2020-07-06T10:38:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。