論文の概要: PREDILECT: Preferences Delineated with Zero-Shot Language-based
Reasoning in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2402.15420v1
- Date: Fri, 23 Feb 2024 16:30:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 14:04:51.716686
- Title: PREDILECT: Preferences Delineated with Zero-Shot Language-based
Reasoning in Reinforcement Learning
- Title(参考訳): 強化学習におけるゼロショット言語に基づく推論による選好
- Authors: Simon Holk, Daniel Marta, Iolanda Leite
- Abstract要約: ロボット学習の新たな分野として,嗜好に基づく強化学習(RL)が出現している。
我々は、人間が提供するテキストから大言語モデル(LLM)のゼロショット機能を利用する。
シミュレーションシナリオとユーザスタディの両方において、フィードバックとその意味を分析することによって、作業の有効性を明らかにする。
- 参考スコア(独自算出の注目度): 2.7387720378113554
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Preference-based reinforcement learning (RL) has emerged as a new field in
robot learning, where humans play a pivotal role in shaping robot behavior by
expressing preferences on different sequences of state-action pairs. However,
formulating realistic policies for robots demands responses from humans to an
extensive array of queries. In this work, we approach the sample-efficiency
challenge by expanding the information collected per query to contain both
preferences and optional text prompting. To accomplish this, we leverage the
zero-shot capabilities of a large language model (LLM) to reason from the text
provided by humans. To accommodate the additional query information, we
reformulate the reward learning objectives to contain flexible highlights --
state-action pairs that contain relatively high information and are related to
the features processed in a zero-shot fashion from a pretrained LLM. In both a
simulated scenario and a user study, we reveal the effectiveness of our work by
analyzing the feedback and its implications. Additionally, the collective
feedback collected serves to train a robot on socially compliant trajectories
in a simulated social navigation landscape. We provide video examples of the
trained policies at https://sites.google.com/view/rl-predilect
- Abstract(参考訳): 選好に基づく強化学習(rl)はロボット学習の新しい分野として登場し、人間は状態とアクションのペアの異なるシーケンスの選好を表現することによって、ロボットの振る舞いを形作る上で重要な役割を果たす。
しかし、ロボットの現実的なポリシーの定式化は、人間の反応を広範囲のクエリーに要求する。
本研究では,クエリ毎に収集した情報を拡張し,好みと任意のテキストプロンプトの両方を含むようにすることで,サンプル効率の課題にアプローチする。
これを実現するために,大型言語モデル(LLM)のゼロショット機能を活用し,人間の提供するテキストから推論する。
追加のクエリ情報に対応するため、報奨学習目標を、比較的高い情報を含むフレキシブルハイライト-状態-アクションペアを含むように再構成し、事前訓練されたLCMからゼロショットで処理された特徴と関連付ける。
シミュレーションシナリオとユーザスタディの両方において,フィードバックとその影響を分析することにより,我々の作業の有効性を明らかにする。
さらに、収集された集団フィードバックは、シミュレーションされたソーシャルナビゲーション環境で、社会的に準拠した軌道上でロボットを訓練するのに役立つ。
トレーニング済みポリシーのビデオ例はhttps://sites.google.com/view/rl-predilectで公開しています。
関連論文リスト
- LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
視覚言語モデル(VLM)は、状態情報を視覚的テキストのプロンプトとして処理し、テキスト内のポリシー決定に応答することができる。
LLaRA:Large Language and Robotics Assistantは,ロボットの行動ポリシーを会話として定式化するフレームワークである。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - UltraFeedback: Boosting Language Models with Scaled AI Feedback [99.4633351133207]
大規模で高品質で多様なAIフィードバックデータセットである textscUltraFeedback を提示する。
我々の研究は、強力なオープンソースのチャット言語モデルを構築する上で、スケールしたAIフィードバックデータの有効性を検証する。
論文 参考訳(メタデータ) (2023-10-02T17:40:01Z) - RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic
Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。
提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文 参考訳(メタデータ) (2023-07-28T21:18:02Z) - LARG, Language-based Automatic Reward and Goal Generation [8.404316955848602]
テキストベースのタスク記述をそれに対応する報酬とゴール生成関数に変換するアプローチを開発する。
ロボット操作に対する我々のアプローチを評価し、スケーラブルな方法でポリシーを訓練および実行できることを実証する。
論文 参考訳(メタデータ) (2023-06-19T14:52:39Z) - Learning Action-Effect Dynamics for Hypothetical Vision-Language
Reasoning Task [50.72283841720014]
本研究では,行動の効果に関する推論を改善する新しい学習戦略を提案する。
本稿では,提案手法の有効性を実証し,性能,データ効率,一般化能力の観点から,従来のベースラインに対する優位性を論じる。
論文 参考訳(メタデータ) (2022-12-07T05:41:58Z) - Few-Shot Preference Learning for Human-in-the-Loop RL [13.773589150740898]
メタラーニングの成功に触発された我々は、先行タスクデータに対する嗜好モデルを事前訓練し、少数のクエリだけで新しいタスクに迅速に適応する。
メタワールドにおける操作ポリシーのトレーニングに必要なオンラインフィードバックの量を20$times$に削減し,実際のフランカ・パンダロボット上での手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-12-06T23:12:26Z) - Incorporating Relevance Feedback for Information-Seeking Retrieval using
Few-Shot Document Re-Ranking [56.80065604034095]
我々は,クエリとユーザが関連すると考えるドキュメントとの類似性に基づいて,文書を再参照するkNNアプローチを提案する。
異なる統合戦略を評価するため、既存の4つの情報検索データセットを関連フィードバックシナリオに変換する。
論文 参考訳(メタデータ) (2022-10-19T16:19:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。