論文の概要: Preference-Conditioned Language-Guided Abstraction
- arxiv url: http://arxiv.org/abs/2402.03081v1
- Date: Mon, 5 Feb 2024 15:12:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 15:31:30.868663
- Title: Preference-Conditioned Language-Guided Abstraction
- Title(参考訳): 選好条件付き言語誘導抽象化
- Authors: Andi Peng, Andreea Bobu, Belinda Z. Li, Theodore R. Sumers, Ilia
Sucholutsky, Nishanth Kumar, Thomas L. Griffiths, Julie A. Shah
- Abstract要約: 我々は、人間の振る舞いが世界を見る方法を明らかにするのを観察する。
本研究では,行動の変化が生じたという知識を前提として,言語モデル(LM)を用いてこれらの嗜好を直接クエリする手法を提案する。
本研究では,シミュレーション実験,ユーザスタディ,モバイル操作タスクを行う実際のSpotロボット上で,効果的な嗜好条件抽象化を構築するためのフレームワークの能力を実証する。
- 参考スコア(独自算出の注目度): 24.626805570296064
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning from demonstrations is a common way for users to teach robots, but
it is prone to spurious feature correlations. Recent work constructs state
abstractions, i.e. visual representations containing task-relevant features,
from language as a way to perform more generalizable learning. However, these
abstractions also depend on a user's preference for what matters in a task,
which may be hard to describe or infeasible to exhaustively specify using
language alone. How do we construct abstractions to capture these latent
preferences? We observe that how humans behave reveals how they see the world.
Our key insight is that changes in human behavior inform us that there are
differences in preferences for how humans see the world, i.e. their state
abstractions. In this work, we propose using language models (LMs) to query for
those preferences directly given knowledge that a change in behavior has
occurred. In our framework, we use the LM in two ways: first, given a text
description of the task and knowledge of behavioral change between states, we
query the LM for possible hidden preferences; second, given the most likely
preference, we query the LM to construct the state abstraction. In this
framework, the LM is also able to ask the human directly when uncertain about
its own estimate. We demonstrate our framework's ability to construct effective
preference-conditioned abstractions in simulated experiments, a user study, as
well as on a real Spot robot performing mobile manipulation tasks.
- Abstract(参考訳): デモから学ぶことは、ユーザーがロボットに教える一般的な方法だが、特徴相関を刺激する傾向がある。
最近の研究は、より一般化可能な学習を行う手段として、言語からタスク関連機能を含む視覚的表現という状態抽象化を構築している。
しかし、これらの抽象化は、タスクで何が重要かというユーザの好みにも依存する。
これらの潜在的な選好を捉えるために、どのように抽象化を構築するか?
人間がどのように振る舞うかは、世界を見る方法を表している。
我々の重要な洞察は、人間の行動の変化は、人間がどのように世界を見るか、すなわちその状態の抽象化について、好みが異なることを教えてくれることである。
本研究では,言語モデル(lms)を用いて,行動の変化が生じたという知識を直接検索する手法を提案する。
まず、タスクと状態間の行動変化の知識をテキストで記述した上で、隠れた選好についてLMに問い合わせ、次に、最も可能性の高い選好を前提として、状態抽象化を構築するためにLMに問い合わせます。
この枠組みでは、LMは人間に直接、その推定が不確かかどうかを尋ねることができる。
シミュレーション実験やユーザスタディ,モバイル操作タスクを行う実地ロボットなどにおいて,効果的な選好条件付き抽象化を構築するためのフレームワークの能力を示す。
関連論文リスト
- Adaptive Language-Guided Abstraction from Contrastive Explanations [53.48583372522492]
報酬を計算するためにこれらの特徴をどのように使うべきかを決定する前に、環境のどの特徴が関係しているかを決定する必要がある。
連立特徴と報奨学習のためのエンドツーエンドの手法は、しばしば、刺激的な状態特徴に敏感な脆い報酬関数をもたらす。
本稿では,言語モデルを用いて人間に意味のある特徴を反復的に識別するALGAEという手法について述べる。
論文 参考訳(メタデータ) (2024-09-12T16:51:58Z) - Bayesian Preference Elicitation with Language Models [82.58230273253939]
本稿では,BOEDを用いて情報的質問の選択を案内するフレームワークOPENと,特徴抽出のためのLMを紹介する。
ユーザスタディでは,OPEN が既存の LM- や BOED をベースとした選好手法よりも優れていることが判明した。
論文 参考訳(メタデータ) (2024-03-08T18:57:52Z) - Learning with Language-Guided State Abstractions [58.199148890064826]
高次元観測空間における一般化可能なポリシー学習は、よく設計された状態表現によって促進される。
我々の手法であるLGAは、自然言語の監視と言語モデルからの背景知識を組み合わせて、目に見えないタスクに適した状態表現を自動構築する。
シミュレーションされたロボットタスクの実験では、LGAは人間によって設計されたものと同様の状態抽象化をもたらすが、そのほんの少しの時間で得られる。
論文 参考訳(メタデータ) (2024-02-28T23:57:04Z) - Eliciting Human Preferences with Language Models [56.68637202313052]
言語モデル(LM)は、ラベル付き例や自然言語のプロンプトを使用してターゲットタスクを実行するように指示することができる。
タスク仕様プロセスのガイドには*LM自身を使うことを提案します。
我々は、メール検証、コンテンツレコメンデーション、道徳的推論の3つの領域でGATEを研究している。
論文 参考訳(メタデータ) (2023-10-17T21:11:21Z) - Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。
このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。
新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文 参考訳(メタデータ) (2022-02-03T18:55:52Z) - Language Models as Zero-Shot Planners: Extracting Actionable Knowledge
for Embodied Agents [111.33545170562337]
自然言語で表現された高レベルなタスクを、選択された実行可能なステップのセットに基底付ける可能性について検討する。
事前学習したLMが十分に大きく、適切に誘導された場合、ハイレベルなタスクを効果的に低レベルな計画に分解できることがわかった。
本稿では,既存の実演の条件を規定し,計画が許容可能な行動に意味的に変換される手順を提案する。
論文 参考訳(メタデータ) (2022-01-18T18:59:45Z) - Language Conditioned Imitation Learning over Unstructured Data [9.69886122332044]
本稿では,自由形式の自然言語条件付けを模倣学習に組み込む手法を提案する。
我々のアプローチは、単一のニューラルネットワークとしてピクセル、自然言語理解、マルチタスク連続制御のエンドツーエンドから知覚を学習する。
言語アノテーションのコストを1%以下に抑えつつ,言語条件付き性能を劇的に向上させることを示す。
論文 参考訳(メタデータ) (2020-05-15T17:08:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。