Fugu-MT 論文翻訳(概要): Relational Abstractions for Generalized Reinforcement Learning on Symbolic Problems

論文の概要: Relational Abstractions for Generalized Reinforcement Learning on Symbolic Problems

arxiv url: http://arxiv.org/abs/2204.12665v1
Date: Wed, 27 Apr 2022 02:01:37 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-28 13:10:53.733831
Title: Relational Abstractions for Generalized Reinforcement Learning on Symbolic Problems
Title（参考訳）: 記号問題に対する一般化強化学習のための関係抽象化
Authors: Rushang Karia, Siddharth Srivastava
Abstract要約: 記号的状態空間を持つ問題における強化学習は、長い地平線上の推論を必要とするため困難である。本稿では,関係の抽象化と深層学習を併用して,そのような問題に対する一般化可能なQ-関数を学習する手法を提案する。学習された一般化Q-関数は、明示的な手書きのカリキュラムを使わずに、関連する問題へのゼロショット転送に利用できることを示す。
参考スコア（独自算出の注目度）: 29.714818991696088
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning in problems with symbolic state spaces is challenging due to the need for reasoning over long horizons. This paper presents a new approach that utilizes relational abstractions in conjunction with deep learning to learn a generalizable Q-function for such problems. The learned Q-function can be efficiently transferred to related problems that have different object names and object quantities, and thus, entirely different state spaces. We show that the learned generalized Q-function can be utilized for zero-shot transfer to related problems without an explicit, hand-coded curriculum. Empirical evaluations on a range of problems show that our method facilitates efficient zero-shot transfer of learned knowledge to much larger problem instances containing many objects.
Abstract（参考訳）: 記号的状態空間を持つ問題における強化学習は、長い地平線上の推論の必要性から困難である。本稿では,関係の抽象化と深層学習を併用して,そのような問題に対する一般化可能なQ-関数を学習する手法を提案する。学習されたq関数は、異なるオブジェクト名とオブジェクト量を持つ関連する問題、つまり全く異なる状態空間に効率的に転送することができる。学習された一般化Q-関数は、明示的な手書きのカリキュラムを使わずに、関連する問題へのゼロショット転送に利用できることを示す。本手法は,学習した知識を多数のオブジェクトを含むより大きな問題インスタンスへ効率的にゼロショット転送することを容易にする。

関連論文リスト

Is Q-learning an Ill-posed Problem? [2.4424095531386234]
本稿では,連続環境におけるQ-ラーニングの不安定性について検討する。比較的単純なベンチマークでも、Q-ラーニングの基本課題は本質的に悪用され、失敗しがちであることを示す。
論文参考訳（メタデータ） (2025-02-20T08:42:30Z)
A Knapsack by Any Other Name: Presentation impacts LLM performance on NP-hard problems [64.05451567422342]
自然言語で表現されたNPハード問題の集合であるEveryday Hard Optimization Problems (EHOP) のデータセットを紹介する。 EHOPには、コンピュータサイエンスの教科書(例えば、グラフカラー化)で見られる問題の定式化が含まれている。複数のプロンプト戦略にまたがる最先端のLCMは、実生活や逆転よりも正確な教科書問題を解くことができる。
論文参考訳（メタデータ） (2025-02-19T14:39:59Z)
BloomWise: Enhancing Problem-Solving capabilities of Large Language Models using Bloom's-Taxonomy-Inspired Prompts [59.83547898874152]
我々は,Bloomの分類にインスパイアされた新しいプロンプト技術であるBloomWiseを導入し,Large Language Models(LLMs)の性能を向上させる。より洗練された認知スキルを身につける必要性に関する決定は、LLMによる自己評価に基づいている。 4つの一般的な算数推論データセットの広範な実験において,提案手法の有効性を実証した。
論文参考訳（メタデータ） (2024-10-05T09:27:52Z)
Coding for Intelligence from the Perspective of Category [66.14012258680992]
符号化の対象はデータの圧縮と再構成、インテリジェンスである。最近の傾向は、これらの2つの分野の潜在的均一性を示している。本稿では,カテゴリ理論の観点から,インテリジェンスのためのコーディングの新たな問題を提案する。
論文参考訳（メタデータ） (2024-07-01T07:05:44Z)
Knowledge Tagging System on Math Questions via LLMs with Flexible Demonstration Retriever [48.5585921817745]
大きな言語モデル(LLM)は知識タグ付けタスクを自動化するために使われる。算数問題における知識タグ付けタスクに対するゼロショットと少数ショットの結果の強い性能を示す。強化学習に基づくデモレトリバーの提案により,異なるサイズのLLMの潜在能力を活用できた。
論文参考訳（メタデータ） (2024-06-19T23:30:01Z)
Knowledge Crosswords: Geometric Knowledge Reasoning with Large Language Models [49.23348672822087]
構造化された事実制約に縛られた不完全な知識ネットワークからなるベンチマークである知識クロスワードを提案する。幾何学的知識推論の新しい設定は、既存の原子/線形マルチホップQAを超える新しいLM能力を必要とする。我々は,既存のLLMと知識クロスワードのアプローチを評価するために,広範囲な実験を行っている。
論文参考訳（メタデータ） (2023-10-02T15:43:53Z)
Causal Deep Learning [77.49632479298745]
因果性は、現実世界の問題を解決する方法を変える可能性がある。しかし因果関係は、実際にテストできない重要な仮定を必要とすることが多い。我々は、因果性に関する新しい考え方を提案します。
論文参考訳（メタデータ） (2023-03-03T19:19:18Z)
Reinforcement Learning in System Identification [0.0]
システム識別は、学習前方モデル、伝達関数、システムダイナミクスなどとも呼ばれるが、科学と工学の両方において長い伝統がある。ここでは、この問題における強化学習の利用について考察する。本稿では,この問題が強化学習問題として自然と音にどのように適合するかを詳述し,RLがこのような問題を解決する上で有望な手法であることを実証する実験結果を示す。
論文参考訳（メタデータ） (2022-12-14T09:20:42Z)
Multi-Source Transfer Learning for Deep Model-Based Reinforcement Learning [0.6445605125467572]
強化学習における重要な課題は、エージェントが与えられたタスクをマスターするために必要な環境との相互作用の数を減らすことである。伝達学習は、以前に学習したタスクから知識を再利用することでこの問題に対処することを提案する。本研究の目的は,モジュール型マルチソーストランスファー学習技術を用いて,これらの課題に対処することである。
論文参考訳（メタデータ） (2022-05-28T12:04:52Z)
Provable Reinforcement Learning with a Short-Term Memory [68.00677878812908]
我々はPMDPsの新しいサブクラスについて研究し、その潜在状態は、最近の短い長さ$m$の履歴によって復号化することができる。特に、リッチ・オブザーブレーション・セッティングにおいて、指数関数的にスケールするサンプル複雑性を持つ新しい「モーメントマッチング」アプローチを用いて、新しいアルゴリズムを開発する。以上の結果から,これらの環境下での強化学習には短期記憶が十分であることが示唆された。
論文参考訳（メタデータ） (2022-02-08T16:39:57Z)
Model-Aware Regularization For Learning Approaches To Inverse Problems [11.314492463814817]
本稿では,逆問題に適用可能なディープラーニング手法の一般化誤差の解析を行う。本稿では、フォワードマップの知識を活用してネットワークの一般化を改善する「プラグ・アンド・プレイ」レギュラーを提案する。我々は,他の最先端手法に対するモデル認識型ディープラーニングアルゴリズムの有効性を実証する。
論文参考訳（メタデータ） (2020-06-18T21:59:03Z)
Heterogeneous Representation Learning: A Review [66.12816399765296]
不均一表現学習(HRL)には、いくつかの独特な課題がある。異種入力を用いて既存の学習環境をモデル化可能な統合学習フレームワークを提案する。 HRLでは触れられていない課題と今後の研究方向性を強調します。
論文参考訳（メタデータ） (2020-04-28T05:12:31Z)
Learning State Abstractions for Transfer in Continuous Control [39.177104130939185]
我々は「単純な学習アルゴリズム」を表形式のQ-ラーニング、学習状態の抽象化に「良い表現」、連続的な制御タスクに「問題に対処」する。私たちの主な貢献は、連続的な状態空間を離散的な状態空間に抽象化する学習アルゴリズムです。
論文参考訳（メタデータ） (2020-02-08T20:42:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。