Fugu-MT 論文翻訳(概要): Foundation Models for Semantic Novelty in Reinforcement Learning

論文の概要: Foundation Models for Semantic Novelty in Reinforcement Learning

arxiv url: http://arxiv.org/abs/2211.04878v1
Date: Wed, 9 Nov 2022 13:34:45 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-10 16:21:05.126986
Title: Foundation Models for Semantic Novelty in Reinforcement Learning
Title（参考訳）: 強化学習における意味的ノベルティの基礎モデル
Authors: Tarun Gupta, Peter Karkus, Tong Che, Danfei Xu, Marco Pavone
Abstract要約: 我々の本質的な報酬は、ターゲットのRLタスクの微調整や学習なしに、事前訓練されたCLIP埋め込みに基づいて定義されます。 CLIPをベースとした本質的な報酬は意味論的に意味のある状態への探索を推進し、スパース・リワード・プロシージャ生成環境への挑戦において最先端の手法より優れていることを実証する。
参考スコア（独自算出の注目度）: 32.707788771181676
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Effectively exploring the environment is a key challenge in reinforcement learning (RL). We address this challenge by defining a novel intrinsic reward based on a foundation model, such as contrastive language image pretraining (CLIP), which can encode a wealth of domain-independent semantic visual-language knowledge about the world. Specifically, our intrinsic reward is defined based on pre-trained CLIP embeddings without any fine-tuning or learning on the target RL task. We demonstrate that CLIP-based intrinsic rewards can drive exploration towards semantically meaningful states and outperform state-of-the-art methods in challenging sparse-reward procedurally-generated environments.
Abstract（参考訳）: 環境を効果的に探索することは強化学習(RL)の重要な課題である。本研究では,世界に関するドメインに依存しない意味的視覚言語知識を豊富にエンコードするコントラスト言語画像事前学習(CLIP)のような基礎モデルに基づく,新たな本質的な報酬を定義することで,この問題に対処する。具体的には、我々の本質的な報酬は、ターゲットのRLタスクに対して微調整や学習を行わずに、事前訓練されたCLIP埋め込みに基づいて定義される。我々は,クリップに基づく内在的な報酬が意味的に意味のある状態への探索を促進し,スパース・リワードの手続き的生成環境への挑戦において最先端の手法を上回ることを実証する。

関連論文リスト

SENSEI: Semantic Exploration Guided by Foundation Models to Learn Versatile World Models [22.96777963013918]
固有のモチベーションは、外部のタスクベースの報酬から探索を分離しようとする。 SENSEIはモデルに基づくRLエージェントに意味論的行動の本質的な動機を与えるためのフレームワークである。
論文参考訳（メタデータ） (2025-03-03T14:26:15Z)
RIZE: Regularized Imitation Learning via Distributional Reinforcement Learning [0.3222802562733786]
固定された報酬の割り当ての制限を克服する新しい逆強化学習(IRL)手法を導入する。最大エントロピーIRLフレームワークを2乗時間差正規化器(TD)と適応目標で拡張し、トレーニング中に動的に調整する。提案手法は,MuJoCoタスクに挑戦する上での最先端のパフォーマンスを実現し,Humanoidタスクのエキスパートレベルを3つのデモで示す。
論文参考訳（メタデータ） (2025-02-27T13:47:29Z)
Exploring the Precise Dynamics of Single-Layer GAN Models: Leveraging Multi-Feature Discriminators for High-Dimensional Subspace Learning [0.0]
サブスペース学習の観点から,単層GANモデルのトレーニングダイナミクスについて検討する。解析をサブスペース学習の領域にブリッジすることで,従来の手法と比較してGAN法の有効性を体系的に比較する。
論文参考訳（メタデータ） (2024-11-01T10:21:12Z)
Directed Exploration in Reinforcement Learning from Linear Temporal Logic [59.707408697394534]
リニア時間論理(LTL)は強化学習におけるタスク仕様のための強力な言語である。合成された報酬信号は基本的に疎結合であり,探索が困難であることを示す。我々は、仕様をさらに活用し、それに対応するリミット決定性B"uchi Automaton(LDBA)をマルコフ報酬プロセスとしてキャストすることで、よりよい探索を実現することができることを示す。
論文参考訳（メタデータ） (2024-08-18T14:25:44Z)
Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
本稿ではRLE(Random Latent Exploration)と呼ばれる新しい探査手法を紹介する。 RLEはボーナスベースとノイズベース(ディープRLを効果的に探索するための2つの一般的なアプローチ)の強みを組み合わせたものである。 AtariとIsaacGymのベンチマークで評価し、RLEは他の手法よりも全タスクの総合スコアが高いことを示した。
論文参考訳（メタデータ） (2024-07-18T17:55:22Z)
Text-Aware Diffusion for Policy Learning [8.32790576855495]
本研究では、事前訓練された凍結されたテキスト条件付き拡散モデルを用いて、高密度ゼロショット報酬信号をテキスト整合ポリシー学習に利用する、政策学習用テキスト認識拡散(TADPoLe)を提案する。 TADPoLe は,Humanoid と Dog の両環境において,自然言語によって規定される新たな目標達成と連続的な移動行動の政策を学習可能であることを示す。
論文参考訳（メタデータ） (2024-07-02T03:08:20Z)
Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文参考訳（メタデータ） (2024-02-09T07:45:26Z)
A Bayesian Unification of Self-Supervised Clustering and Energy-Based Models [11.007541337967027]
我々は、最先端の自己教師型学習目標のベイズ分析を行う。目的関数が既存の自己教師型学習戦略より優れていることを示す。また、GEDIをニューロシンボリックな枠組みに統合できることを実証した。
論文参考訳（メタデータ） (2023-12-30T04:46:16Z)
Curricular Subgoals for Inverse Reinforcement Learning [21.038691420095525]
逆強化学習(IRL)は、専門家による実証から報酬関数を再構築し、政策学習を促進することを目的としている。既存のIRL法は主に、模倣者と専門家の軌跡の違いを最小限に抑えるために、グローバル報酬関数の学習に重点を置いている。エージェントの模倣を導くために,一タスクを複数の局所的なサブゴールで明示的に切り離す,Curricular Subgoal-based Inverse Reinforcement Learningフレームワークを提案する。
論文参考訳（メタデータ） (2023-06-14T04:06:41Z)
Discrete Factorial Representations as an Abstraction for Goal Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文参考訳（メタデータ） (2022-11-01T03:31:43Z)
Representation Learning for Resource-Constrained Keyphrase Generation [78.02577815973764]
本稿では,言語モデリングの目的を導くために,有能なスパンリカバリと有能なスパン予測を導入する。提案手法が低リソースおよびゼロショットのキーフレーズ生成に有効であることを示す。
論文参考訳（メタデータ） (2022-03-15T17:48:04Z)
SASRA: Semantically-aware Spatio-temporal Reasoning Agent for Vision-and-Language Navigation in Continuous Environments [7.5606260987453116]
本稿では,連続3次元環境における視覚・言語ナビゲーション(VLN)タスクに対する新しいアプローチを提案する。既存のエンド・ツー・エンドの学習手法は、主に生の視覚的観察に焦点を当てているため、この課題に苦慮している。本稿では,古典的意味マッピング手法と学習に基づく手法を組み合わせることに焦点を当てたハイブリッドトランスフォーマー・リカレンスモデルを提案する。
論文参考訳（メタデータ） (2021-08-26T17:57:02Z)
Learning with AMIGo: Adversarially Motivated Intrinsic Goals [63.680207855344875]
AMIGoは、Adversarially Motivated Intrinsic Goalsを提案するゴール生成教師である。提案手法は, 提案する目標の自然なカリキュラムを生成し, エージェントが究極的には, 手続き的に生成する課題を解くことができることを示す。
論文参考訳（メタデータ） (2020-06-22T10:22:08Z)
Tree-Structured Policy based Progressive Reinforcement Learning for Temporally Language Grounding in Video [128.08590291947544]
非トリミングビデオにおける一時的言語接地は、ビデオ理解における新たな課題である。ヒトの粗大な意思決定パラダイムにインスパイアされた我々は、新しい木構造政策に基づくプログレッシブ強化学習フレームワークを定式化した。
論文参考訳（メタデータ） (2020-01-18T15:08:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。