論文の概要: Relational Abstractions for Generalized Reinforcement Learning on
Symbolic Problems
- arxiv url: http://arxiv.org/abs/2204.12665v1
- Date: Wed, 27 Apr 2022 02:01:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-28 13:10:53.733831
- Title: Relational Abstractions for Generalized Reinforcement Learning on
Symbolic Problems
- Title(参考訳): 記号問題に対する一般化強化学習のための関係抽象化
- Authors: Rushang Karia, Siddharth Srivastava
- Abstract要約: 記号的状態空間を持つ問題における強化学習は、長い地平線上の推論を必要とするため困難である。
本稿では,関係の抽象化と深層学習を併用して,そのような問題に対する一般化可能なQ-関数を学習する手法を提案する。
学習された一般化Q-関数は、明示的な手書きのカリキュラムを使わずに、関連する問題へのゼロショット転送に利用できることを示す。
- 参考スコア(独自算出の注目度): 29.714818991696088
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning in problems with symbolic state spaces is challenging
due to the need for reasoning over long horizons. This paper presents a new
approach that utilizes relational abstractions in conjunction with deep
learning to learn a generalizable Q-function for such problems. The learned
Q-function can be efficiently transferred to related problems that have
different object names and object quantities, and thus, entirely different
state spaces. We show that the learned generalized Q-function can be utilized
for zero-shot transfer to related problems without an explicit, hand-coded
curriculum. Empirical evaluations on a range of problems show that our method
facilitates efficient zero-shot transfer of learned knowledge to much larger
problem instances containing many objects.
- Abstract(参考訳): 記号的状態空間を持つ問題における強化学習は、長い地平線上の推論の必要性から困難である。
本稿では,関係の抽象化と深層学習を併用して,そのような問題に対する一般化可能なQ-関数を学習する手法を提案する。
学習されたq関数は、異なるオブジェクト名とオブジェクト量を持つ関連する問題、つまり全く異なる状態空間に効率的に転送することができる。
学習された一般化Q-関数は、明示的な手書きのカリキュラムを使わずに、関連する問題へのゼロショット転送に利用できることを示す。
本手法は,学習した知識を多数のオブジェクトを含むより大きな問題インスタンスへ効率的にゼロショット転送することを容易にする。
関連論文リスト
- BloomWise: Enhancing Problem-Solving capabilities of Large Language Models using Bloom's-Taxonomy-Inspired Prompts [59.83547898874152]
我々は,Bloomの分類にインスパイアされた新しいプロンプト技術であるBloomWiseを導入し,Large Language Models(LLMs)の性能を向上させる。
より洗練された認知スキルを身につける必要性に関する決定は、LLMによる自己評価に基づいている。
4つの一般的な算数推論データセットの広範な実験において,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-10-05T09:27:52Z) - Coding for Intelligence from the Perspective of Category [66.14012258680992]
符号化の対象はデータの圧縮と再構成、インテリジェンスである。
最近の傾向は、これらの2つの分野の潜在的均一性を示している。
本稿では,カテゴリ理論の観点から,インテリジェンスのためのコーディングの新たな問題を提案する。
論文 参考訳(メタデータ) (2024-07-01T07:05:44Z) - Knowledge Tagging System on Math Questions via LLMs with Flexible Demonstration Retriever [48.5585921817745]
大きな言語モデル(LLM)は知識タグ付けタスクを自動化するために使われる。
算数問題における知識タグ付けタスクに対するゼロショットと少数ショットの結果の強い性能を示す。
強化学習に基づくデモレトリバーの提案により,異なるサイズのLLMの潜在能力を活用できた。
論文 参考訳(メタデータ) (2024-06-19T23:30:01Z) - Knowledge Crosswords: Geometric Knowledge Reasoning with Large Language Models [49.23348672822087]
構造化された事実制約に縛られた不完全な知識ネットワークからなるベンチマークである知識クロスワードを提案する。
幾何学的知識推論の新しい設定は、既存の原子/線形マルチホップQAを超える新しいLM能力を必要とする。
我々は,既存のLLMと知識クロスワードのアプローチを評価するために,広範囲な実験を行っている。
論文 参考訳(メタデータ) (2023-10-02T15:43:53Z) - Causal Deep Learning [77.49632479298745]
因果性は、現実世界の問題を解決する方法を変える可能性がある。
しかし因果関係は、実際にテストできない重要な仮定を必要とすることが多い。
我々は、因果性に関する新しい考え方を提案します。
論文 参考訳(メタデータ) (2023-03-03T19:19:18Z) - Reinforcement Learning in System Identification [0.0]
システム識別は、学習前方モデル、伝達関数、システムダイナミクスなどとも呼ばれるが、科学と工学の両方において長い伝統がある。
ここでは、この問題における強化学習の利用について考察する。
本稿では,この問題が強化学習問題として自然と音にどのように適合するかを詳述し,RLがこのような問題を解決する上で有望な手法であることを実証する実験結果を示す。
論文 参考訳(メタデータ) (2022-12-14T09:20:42Z) - Multi-Source Transfer Learning for Deep Model-Based Reinforcement
Learning [0.6445605125467572]
強化学習における重要な課題は、エージェントが与えられたタスクをマスターするために必要な環境との相互作用の数を減らすことである。
伝達学習は、以前に学習したタスクから知識を再利用することでこの問題に対処することを提案する。
本研究の目的は,モジュール型マルチソーストランスファー学習技術を用いて,これらの課題に対処することである。
論文 参考訳(メタデータ) (2022-05-28T12:04:52Z) - Provable Reinforcement Learning with a Short-Term Memory [68.00677878812908]
我々はPMDPsの新しいサブクラスについて研究し、その潜在状態は、最近の短い長さ$m$の履歴によって復号化することができる。
特に、リッチ・オブザーブレーション・セッティングにおいて、指数関数的にスケールするサンプル複雑性を持つ新しい「モーメントマッチング」アプローチを用いて、新しいアルゴリズムを開発する。
以上の結果から,これらの環境下での強化学習には短期記憶が十分であることが示唆された。
論文 参考訳(メタデータ) (2022-02-08T16:39:57Z) - Model-Aware Regularization For Learning Approaches To Inverse Problems [11.314492463814817]
本稿では,逆問題に適用可能なディープラーニング手法の一般化誤差の解析を行う。
本稿では、フォワードマップの知識を活用してネットワークの一般化を改善する「プラグ・アンド・プレイ」レギュラーを提案する。
我々は,他の最先端手法に対するモデル認識型ディープラーニングアルゴリズムの有効性を実証する。
論文 参考訳(メタデータ) (2020-06-18T21:59:03Z) - Learning State Abstractions for Transfer in Continuous Control [39.177104130939185]
我々は「単純な学習アルゴリズム」を表形式のQ-ラーニング、学習状態の抽象化に「良い表現」、連続的な制御タスクに「問題に対処」する。
私たちの主な貢献は、連続的な状態空間を離散的な状態空間に抽象化する学習アルゴリズムです。
論文 参考訳(メタデータ) (2020-02-08T20:42:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。