論文の概要: CEIP: Combining Explicit and Implicit Priors for Reinforcement Learning
with Demonstrations
- arxiv url: http://arxiv.org/abs/2210.09496v1
- Date: Tue, 18 Oct 2022 00:35:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 13:27:52.580675
- Title: CEIP: Combining Explicit and Implicit Priors for Reinforcement Learning
with Demonstrations
- Title(参考訳): CEIP:強化学習における明示的事前と暗黙的事前の併用と実証
- Authors: Kai Yan, Alexander G. Schwing, Yu-Xiong Wang
- Abstract要約: 我々はCEIP(Explicit and Implicit Priors)を組み合わせる方法を開発した。
CEIPは複数の暗黙の先行を、並列にフローを正規化する形で利用し、単一の複雑な先行を形成する。
3つの挑戦的な環境では,高度な最先端技術を改善するためのCEIP法が提案されている。
- 参考スコア(独自算出の注目度): 135.83854590030685
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Although reinforcement learning has found widespread use in dense reward
settings, training autonomous agents with sparse rewards remains challenging.
To address this difficulty, prior work has shown promising results when using
not only task-specific demonstrations but also task-agnostic albeit somewhat
related demonstrations. In most cases, the available demonstrations are
distilled into an implicit prior, commonly represented via a single deep net.
Explicit priors in the form of a database that can be queried have also been
shown to lead to encouraging results. To better benefit from available
demonstrations, we develop a method to Combine Explicit and Implicit Priors
(CEIP). CEIP exploits multiple implicit priors in the form of normalizing flows
in parallel to form a single complex prior. Moreover, CEIP uses an effective
explicit retrieval and push-forward mechanism to condition the implicit priors.
In three challenging environments, we find the proposed CEIP method to improve
upon sophisticated state-of-the-art techniques.
- Abstract(参考訳): 強化学習は密集した報酬設定で広く利用されているが、少ない報酬で自律エージェントを訓練することは依然として困難である。
この困難に対処するために、事前の作業はタスク固有のデモンストレーションだけでなく、タスクに依存しないデモを使う場合に有望な結果を示している。
ほとんどの場合、利用可能なデモは暗黙の事前に蒸留され、通常1つのディープネットで表現される。
クエリ可能なデータベースの形式における明示的な優先順位付けも、結果の奨励につながることが示されている。
利用可能なデモの利点をよりよくするために,CEIP (Explicit and Implicit Priors) を組み合わせる手法を開発した。
CEIPは複数の暗黙の先行を並列に正規化することで単一の複雑な先行を形成する。
さらにceipは、暗黙の事前条件に効果的な明示的な検索とプッシュフォワード機構を使用する。
3つの挑戦的な環境では,高度な最先端技術を改善するためのCEIP法が提案されている。
関連論文リスト
- Denoising Pre-Training and Customized Prompt Learning for Efficient Multi-Behavior Sequential Recommendation [69.60321475454843]
マルチビヘイビアシークエンシャルレコメンデーションに適した,最初の事前学習および迅速な学習パラダイムであるDPCPLを提案する。
事前学習段階において,複数の時間スケールでノイズを除去する新しい行動マイナ (EBM) を提案する。
次に,提案するCustomized Prompt Learning (CPL)モジュールを用いて,事前学習したモデルを高効率にチューニングすることを提案する。
論文 参考訳(メタデータ) (2024-08-21T06:48:38Z) - Inverse-RLignment: Inverse Reinforcement Learning from Demonstrations for LLM Alignment [62.05713042908654]
本稿では,これらの課題を克服するために,高品質な実演データを活用する新しいアプローチであるAlignment from Demonstrations (AfD)を紹介する。
AfDをシーケンシャルな意思決定フレームワークで形式化し、報酬信号の欠如というユニークな課題を強調します。
そこで本研究では,AfD に適した報酬モデル上で補間を行う計算効率のよいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-24T15:13:53Z) - Pay Attention to Your Neighbours: Training-Free Open-Vocabulary Semantic Segmentation [19.20874993309959]
CLIPのような視覚言語基盤モデルは、多くのゼロショット画像レベルタスクにおいて顕著な効果を示した。
我々は、Nighbour-Aware CLIP(NACLIP)と呼ばれる、トレーニング不要なOVSSのベースラインを提案する。
OVSSの文献では,高密度予測タスクに欠かせないCLIPの視覚変換器の自己アテンションにおけるパッチの局所化が過小評価されている。
論文 参考訳(メタデータ) (2024-04-12T01:08:04Z) - Understanding prompt engineering may not require rethinking
generalization [56.38207873589642]
言語モデルによって与えられるPAC-Bayesと組み合わさったプロンプトの離散的性質は、文献の標準によって非常に厳密な一般化境界をもたらすことを示す。
この研究は、プロンプトエンジニアリングの広範な実践を正当化する可能性がある。
論文 参考訳(メタデータ) (2023-10-06T00:52:48Z) - CLOP: Video-and-Language Pre-Training with Knowledge Regularizations [43.09248976105326]
ビデオと言語による事前学習は、一般化可能な表現を学習するための有望な結果を示している。
このような表現形式を構造的知識として表現し、複数の粒度のリッチな意味論を表現する。
知識正規化を用いたCLOP(Cross-modaL knedgeOwl-enhanced Pre-training)法を提案する。
論文 参考訳(メタデータ) (2022-11-07T05:32:12Z) - Leveraging Demonstrations with Latent Space Priors [90.56502305574665]
本稿では,スキル学習とシーケンスモデリングを組み合わせることで,実演データセットを活用することを提案する。
本研究では、国家のみのモーションキャプチャーの実証から、そのような先行情報をどうやって取得するかを示し、政策学習に組み込むためのいくつかの方法を探る。
実験結果から, 学習速度と最終性能において, 遅延空間が顕著に向上することが確認された。
論文 参考訳(メタデータ) (2022-10-26T13:08:46Z) - Contrastive Demonstration Tuning for Pre-trained Language Models [59.90340768724675]
デモの例は、プロンプトチューニングの優れた最終パフォーマンスに不可欠である。
提案手法は次の通りである: (i) 従来の急速学習アプローチにプラグイン; (ii) 多数のカテゴリを持つ広範囲な分類タスクに拡張。
16のデータセットに対する実験結果から,従来のLM-BFFとP-tuningを統合した手法により,性能が向上することが示された。
論文 参考訳(メタデータ) (2022-04-09T05:30:48Z) - Learning to Compose Diversified Prompts for Image Emotion Classification [5.586293129420233]
Contrastive Language-Image Pre-Training (CLIP) は、事前学習された視覚言語モデルの最新の生まれ変わりを表す。
CLIPは最近、Visual Question Answeringのような幅広い下流の視覚言語タスクに優れたパワーを誇示している。
画像感情分類にCLIPをどのように効果的に適用できるかを示す一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-26T14:31:55Z) - Automatic Curricula via Expert Demonstrations [6.651864489482536]
本稿では、強化学習(RL)アプローチとして、エキスパートデモ(ACED)による自動カリキュラムを提案する。
ACEDは、デモンストレーションをセクションに分割し、トレーニングエピソードを異なるセクションからサンプリングされた状態に初期化することによって、専門家のデモ軌跡からキュリキュラを抽出する。
本稿では,ACEDと行動クローニングを組み合わせることで,最大1個の実演と20個の実演で積み重ねタスクを学習できることを示す。
論文 参考訳(メタデータ) (2021-06-16T22:21:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。