論文の概要: Foundation Models for Semantic Novelty in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2211.04878v1
- Date: Wed, 9 Nov 2022 13:34:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 16:21:05.126986
- Title: Foundation Models for Semantic Novelty in Reinforcement Learning
- Title(参考訳): 強化学習における意味的ノベルティの基礎モデル
- Authors: Tarun Gupta, Peter Karkus, Tong Che, Danfei Xu, Marco Pavone
- Abstract要約: 我々の本質的な報酬は、ターゲットのRLタスクの微調整や学習なしに、事前訓練されたCLIP埋め込みに基づいて定義されます。
CLIPをベースとした本質的な報酬は意味論的に意味のある状態への探索を推進し、スパース・リワード・プロシージャ生成環境への挑戦において最先端の手法より優れていることを実証する。
- 参考スコア(独自算出の注目度): 32.707788771181676
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effectively exploring the environment is a key challenge in reinforcement
learning (RL). We address this challenge by defining a novel intrinsic reward
based on a foundation model, such as contrastive language image pretraining
(CLIP), which can encode a wealth of domain-independent semantic
visual-language knowledge about the world. Specifically, our intrinsic reward
is defined based on pre-trained CLIP embeddings without any fine-tuning or
learning on the target RL task. We demonstrate that CLIP-based intrinsic
rewards can drive exploration towards semantically meaningful states and
outperform state-of-the-art methods in challenging sparse-reward
procedurally-generated environments.
- Abstract(参考訳): 環境を効果的に探索することは強化学習(RL)の重要な課題である。
本研究では,世界に関するドメインに依存しない意味的視覚言語知識を豊富にエンコードするコントラスト言語画像事前学習(CLIP)のような基礎モデルに基づく,新たな本質的な報酬を定義することで,この問題に対処する。
具体的には、我々の本質的な報酬は、ターゲットのRLタスクに対して微調整や学習を行わずに、事前訓練されたCLIP埋め込みに基づいて定義される。
我々は,クリップに基づく内在的な報酬が意味的に意味のある状態への探索を促進し,スパース・リワードの手続き的生成環境への挑戦において最先端の手法を上回ることを実証する。
関連論文リスト
- OV-NeRF: Open-vocabulary Neural Radiance Fields with Vision and Language
Foundation Models for 3D Semantic Understanding [9.926326712815857]
OV-NeRFは、事前学習されたビジョンと言語基盤モデルの可能性を活用して、セマンティックフィールド学習を強化する。
提案手法は, Replica と Scannet の mIoU 測定値において, 20.31% と 18.42% の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-02-07T08:19:57Z) - A Bayesian Unification of Self-Supervised Clustering and Energy-Based
Models [11.007541337967027]
我々は、最先端の自己教師型学習目標のベイズ分析を行う。
目的関数が既存の自己教師型学習戦略より優れていることを示す。
また、GEDIをニューロシンボリックな枠組みに統合できることを実証した。
論文 参考訳(メタデータ) (2023-12-30T04:46:16Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Curricular Subgoals for Inverse Reinforcement Learning [21.038691420095525]
逆強化学習(IRL)は、専門家による実証から報酬関数を再構築し、政策学習を促進することを目的としている。
既存のIRL法は主に、模倣者と専門家の軌跡の違いを最小限に抑えるために、グローバル報酬関数の学習に重点を置いている。
エージェントの模倣を導くために,一タスクを複数の局所的なサブゴールで明示的に切り離す,Curricular Subgoal-based Inverse Reinforcement Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-14T04:06:41Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Forging Multiple Training Objectives for Pre-trained Language Models via
Meta-Learning [97.28779163988833]
複数の事前学習目標が単一目的言語モデリングの理解能力の欠如を埋める。
メタラーニングに基づく新しい適応型サンプリングシステムであるtextitMOMETAS を提案し,任意の事前学習対象に対して潜時サンプリングパターンを学習する。
論文 参考訳(メタデータ) (2022-10-19T04:38:26Z) - Representation Learning for Resource-Constrained Keyphrase Generation [78.02577815973764]
本稿では,言語モデリングの目的を導くために,有能なスパンリカバリと有能なスパン予測を導入する。
提案手法が低リソースおよびゼロショットのキーフレーズ生成に有効であることを示す。
論文 参考訳(メタデータ) (2022-03-15T17:48:04Z) - SASRA: Semantically-aware Spatio-temporal Reasoning Agent for
Vision-and-Language Navigation in Continuous Environments [7.5606260987453116]
本稿では,連続3次元環境における視覚・言語ナビゲーション(VLN)タスクに対する新しいアプローチを提案する。
既存のエンド・ツー・エンドの学習手法は、主に生の視覚的観察に焦点を当てているため、この課題に苦慮している。
本稿では,古典的意味マッピング手法と学習に基づく手法を組み合わせることに焦点を当てたハイブリッドトランスフォーマー・リカレンスモデルを提案する。
論文 参考訳(メタデータ) (2021-08-26T17:57:02Z) - Provable Representation Learning for Imitation with Contrastive Fourier
Features [27.74988221252854]
オフライン体験データセットを用いて低次元の状態表現を学習する。
主要な課題は、未知のターゲットポリシー自体が低次元の振る舞いを示さないことである。
我々は、目標ポリシーと最大様態で訓練された低次元ポリシーとの性能差を上限とする表現学習目標を導出する。
論文 参考訳(メタデータ) (2021-05-26T00:31:30Z) - Learning with AMIGo: Adversarially Motivated Intrinsic Goals [63.680207855344875]
AMIGoは、Adversarially Motivated Intrinsic Goalsを提案するゴール生成教師である。
提案手法は, 提案する目標の自然なカリキュラムを生成し, エージェントが究極的には, 手続き的に生成する課題を解くことができることを示す。
論文 参考訳(メタデータ) (2020-06-22T10:22:08Z) - Tree-Structured Policy based Progressive Reinforcement Learning for
Temporally Language Grounding in Video [128.08590291947544]
非トリミングビデオにおける一時的言語接地は、ビデオ理解における新たな課題である。
ヒトの粗大な意思決定パラダイムにインスパイアされた我々は、新しい木構造政策に基づくプログレッシブ強化学習フレームワークを定式化した。
論文 参考訳(メタデータ) (2020-01-18T15:08:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。