論文の概要: Guided Policy Search for Parameterized Skills using Adverbs
- arxiv url: http://arxiv.org/abs/2110.15799v1
- Date: Sat, 23 Oct 2021 21:34:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-07 13:12:04.864233
- Title: Guided Policy Search for Parameterized Skills using Adverbs
- Title(参考訳): 副詞を用いたパラメタライズドスキルのガイドライン検索
- Authors: Benjamin A. Spiegel and George Konidaris
- Abstract要約: 本稿では,副詞句を用いて,学習した副詞スキルグラウンドリングを用いてスキルパラメータを調整する手法を提案する。
これらの根拠により、エージェントは、人間が提供した副詞フィードバックを使用して、スキルポリシーを直接更新することができる。
- 参考スコア(独自算出の注目度): 7.9636324068033195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a method for using adverb phrases to adjust skill parameters via
learned adverb-skill groundings. These groundings allow an agent to use adverb
feedback provided by a human to directly update a skill policy, in a manner
similar to traditional local policy search methods. We show that our method can
be used as a drop-in replacement for these policy search methods when dense
reward from the environment is not available but human language feedback is. We
demonstrate improved sample efficiency over modern policy search methods in two
experiments.
- Abstract(参考訳): そこで本研究では,adverb-skillグラウンドによるスキルパラメータの調整にadverb句を使用する手法を提案する。
これらの根拠により、エージェントは、従来のローカルポリシー検索方法と同様の方法で、人間が提供した副詞フィードバックを使用して、スキルポリシーを直接更新することができる。
本手法は,環境からの報酬が高められず,人間の言語フィードバックが得られない場合に,これらのポリシー検索手法の代替として利用できることを示す。
2つの実験において,近代的な政策探索手法によるサンプル効率の向上を実証した。
関連論文リスト
- Fine-grained Controllable Text Generation through In-context Learning with Feedback [57.396980277089135]
本稿では,依存度などの非自明な言語的特徴の特定の値に一致させるために,入力文を書き換える手法を提案する。
従来の研究とは対照的に、本手法は微調整ではなく文脈内学習を用いており、データが少ないユースケースに適用できる。
論文 参考訳(メタデータ) (2024-06-17T08:55:48Z) - Contextualized Automatic Speech Recognition with Attention-Based Bias
Phrase Boosted Beam Search [44.94458898538114]
本稿では、編集可能なフレーズリストを用いてカスタマイズ可能な、注意に基づくコンテキストバイアス手法を提案する。
提案手法は、入力音声データ中のバイアスフレーズを検出するために、バイアスフレーズインデックス損失と特別なトークンを組み合わせることで効果的に訓練することができる。
論文 参考訳(メタデータ) (2024-01-19T01:36:07Z) - Language-Conditioned Semantic Search-Based Policy for Robotic
Manipulation Tasks [2.1332830068386217]
言語条件のセマンティックサーチに基づくオンラインサーチベースのポリシーを作成する手法を提案する。
提案手法は,CALVINベンチマークのベースライン性能を超越し,ゼロショット適応性能が向上する。
論文 参考訳(メタデータ) (2023-12-10T16:17:00Z) - Kernelized Offline Contextual Dueling Bandits [15.646879026749168]
本研究では、エージェントが人間のフィードバックを得るためにコンテキストを選択することがしばしばあるという事実を活用する。
我々は,この設定に対して高信頼度スタイルのアルゴリズムを提案し,後悔の束縛を証明した。
論文 参考訳(メタデータ) (2023-07-21T01:17:31Z) - Unsupervised Lexical Substitution with Decontextualised Embeddings [48.00929769805882]
事前学習された言語モデルを用いた語彙置換の新しい教師なし手法を提案する。
本手法は,文脈的および非文脈的単語埋め込みの類似性に基づいて代用語を検索する。
我々は、英語とイタリア語で実験を行い、我々の手法が強いベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-09-17T03:51:47Z) - How Do You Do It? Fine-Grained Action Understanding with Pseudo-Adverbs [52.042261549764326]
そこで本研究では,様々な行動にまたがる副詞を認識する手法を提案する。
提案手法は,複数の副詞の擬似ラベルを用いた半教師付き学習を用いる。
また、副詞がきめ細かな行動とどのように関連しているかを示す。
論文 参考訳(メタデータ) (2022-03-23T11:53:41Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z) - Guided Dialog Policy Learning without Adversarial Learning in the Loop [103.20723982440788]
対話政策とともに報酬関数を学習するために,多くの逆学習法が提案されている。
敵の訓練を2つの段階に分割することを提案する。
まず,識別器を補助対話生成器で訓練し,得られた報酬モデルを共通RL法に組み込んで対話ポリシー学習を指導する。
論文 参考訳(メタデータ) (2020-04-07T11:03:17Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。