論文の概要: Contrastive Reinforcement Learning of Symbolic Reasoning Domains
- arxiv url: http://arxiv.org/abs/2106.09146v1
- Date: Wed, 16 Jun 2021 21:46:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-19 07:59:33.173666
- Title: Contrastive Reinforcement Learning of Symbolic Reasoning Domains
- Title(参考訳): シンボリック推論領域の対比強化学習
- Authors: Gabriel Poesia, WenXin Dong, Noah Goodman
- Abstract要約: シンボリックな問題を解決するための学習は、機械学習アルゴリズムでは難しい。
既存のモデルは、人間のソリューションから学ぶか、手作業による機能を使うかのいずれかで、新しいドメインに適用するのにコストがかかる。
本稿では,記号領域を,状態や動作が構造化されていないテキストとして与えられる単純な環境とみなし,二項報酬は問題が解決されるかどうかを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Abstract symbolic reasoning, as required in domains such as mathematics and
logic, is a key component of human intelligence. Solvers for these domains have
important applications, especially to computer-assisted education. But learning
to solve symbolic problems is challenging for machine learning algorithms.
Existing models either learn from human solutions or use hand-engineered
features, making them expensive to apply in new domains. In this paper, we
instead consider symbolic domains as simple environments where states and
actions are given as unstructured text, and binary rewards indicate whether a
problem is solved. This flexible setup makes it easy to specify new domains,
but search and planning become challenging. We introduce four environments
inspired by the Mathematics Common Core Curriculum, and observe that existing
Reinforcement Learning baselines perform poorly. We then present a novel
learning algorithm, Contrastive Policy Learning (ConPoLe) that explicitly
optimizes the InfoNCE loss, which lower bounds the mutual information between
the current state and next states that continue on a path to the solution.
ConPoLe successfully solves all four domains. Moreover, problem representations
learned by ConPoLe enable accurate prediction of the categories of problems in
a real mathematics curriculum. Our results suggest new directions for
reinforcement learning in symbolic domains, as well as applications to
mathematics education.
- Abstract(参考訳): 抽象記号推論は、数学や論理学のような領域で必要とされるように、人間の知性の重要な構成要素である。
これらの領域の解決者は特にコンピュータ支援教育に重要な応用がある。
しかし、シンボリックな問題を解決するための学習は、機械学習アルゴリズムにとって難しい。
既存のモデルは、人間のソリューションから学ぶか、手作りの機能を使うかのいずれかで、新しいドメインに適用するのに費用がかかる。
本稿では,シンボルドメインを,状態や動作が構造化されていないテキストとして与えられる単純な環境とみなし,二項報酬は問題が解決されるかどうかを示す。
この柔軟な設定により、新しいドメインを簡単に指定できるが、検索と計画が困難になる。
我々は,算数共通コアカリキュラムに触発された4つの環境を紹介し,既存の強化学習ベースラインの動作不良を観察する。
次に,新しい学習アルゴリズムであるContrastive Policy Learning (ConpoLe)を提案する。このアルゴリズムはInfoNCEの損失を明示的に最適化する。
ConPoLeは4つのドメインすべてを解決する。
さらに、ConPoLeによって学習された問題表現は、実数学のカリキュラムにおける問題のカテゴリの正確な予測を可能にする。
本研究は,記号領域における強化学習の新たな方向性と数学教育への応用を示唆する。
関連論文リスト
- Formal Mathematical Reasoning: A New Frontier in AI [60.26950681543385]
我々は公式な数学的推論を提唱し、AI4Mathを次のレベルに進めるには不可欠であると主張している。
既存の進捗を要約し、オープンな課題について議論し、将来の成功を測るための重要なマイルストーンを想定します。
論文 参考訳(メタデータ) (2024-12-20T17:19:24Z) - Learning to Solve Domain-Specific Calculation Problems with Knowledge-Intensive Programs Generator [33.680619900836376]
本稿では,知識集中型プログラム生成器を用いて,ドメイン固有の計算問題を解くパイプラインを提案する。
ドメイン固有の文書に従って知識集約型プログラムを生成する。
また、コードジェネレータは、新しい知識をトレーニングすることなく、他のドメインにも適用可能であることもわかりました。
論文 参考訳(メタデータ) (2024-12-12T13:42:58Z) - Towards Learning Foundation Models for Heuristic Functions to Solve Pathfinding Problems [12.990207889359402]
パスフィニング問題は、ロボティクス、計算科学、自然科学などに見られる。
これらの問題を解決するには、新しい問題領域ごとにディープニューラルネットワーク(DNN)をトレーニングする必要がある。
本研究では,新しいドメインにシームレスに適応する関数の訓練に深層強化学習を活用する新しい基礎モデルを提案する。
論文 参考訳(メタデータ) (2024-06-01T16:18:20Z) - A Survey of Deep Learning for Mathematical Reasoning [71.88150173381153]
我々は過去10年間の数学的推論とディープラーニングの交差点における重要なタスク、データセット、方法についてレビューする。
大規模ニューラルネットワークモデルの最近の進歩は、新しいベンチマークと、数学的推論にディープラーニングを使用する機会を開放している。
論文 参考訳(メタデータ) (2022-12-20T18:46:16Z) - Peano: Learning Formal Mathematical Reasoning [35.086032962873226]
一般的な数学的推論は計算不可能であるが、人間は新しい問題を常に解決している。
両パズルの中心は、数学の基礎となる手続き的抽象の構造であると仮定する。
カーン・アカデミー・プラットフォーム上の始点代数の5つの部分に関するケーススタディにおいて、このアイデアを探求する。
論文 参考訳(メタデータ) (2022-11-29T01:42:26Z) - On Generalizing Beyond Domains in Cross-Domain Continual Learning [91.56748415975683]
ディープニューラルネットワークは、新しいタスクを学んだ後、これまで学んだ知識の破滅的な忘れ込みに悩まされることが多い。
提案手法は、ドメインシフト中の新しいタスクを精度良く学習することで、DomainNetやOfficeHomeといった挑戦的なデータセットで最大10%向上する。
論文 参考訳(メタデータ) (2022-03-08T09:57:48Z) - SMART: A Situation Model for Algebra Story Problems via Attributed
Grammar [74.1315776256292]
本稿では, 問題解決における人間の精神状態を表現する心理学研究から生まれた, emphsituation modelの概念を紹介する。
提案モデルでは,より優れた解釈性を保ちながら,従来のすべてのニューラルソルバを大きなマージンで上回る結果が得られた。
論文 参考訳(メタデータ) (2020-12-27T21:03:40Z) - A Survey on Deep Learning for Localization and Mapping: Towards the Age
of Spatial Machine Intelligence [48.67755344239951]
包括的調査を行い、深層学習を用いた局所化とマッピングのための新しい分類法を提案する。
オードメトリ推定、マッピング、グローバルローカライゼーション、同時ローカライゼーション、マッピングなど、幅広いトピックがカバーされている。
この研究がロボティクス、コンピュータビジョン、機械学習コミュニティの新たな成果を結び付けることを願っている。
論文 参考訳(メタデータ) (2020-06-22T19:01:21Z) - Machine Number Sense: A Dataset of Visual Arithmetic Problems for
Abstract and Relational Reasoning [95.18337034090648]
文法モデルを用いて自動生成される視覚的算術問題からなるデータセット、MNS(Machine Number Sense)を提案する。
これらの視覚的算術問題は幾何学的フィギュアの形をしている。
我々は、この視覚的推論タスクのベースラインとして、4つの主要なニューラルネットワークモデルを用いて、MNSデータセットをベンチマークする。
論文 参考訳(メタデータ) (2020-04-25T17:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。