論文の概要: Learning Efficient Recursive Numeral Systems via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2409.07170v1
- Date: Wed, 11 Sep 2024 10:33:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-12 15:02:58.584586
- Title: Learning Efficient Recursive Numeral Systems via Reinforcement Learning
- Title(参考訳): 強化学習による再帰的数体系の学習
- Authors: Jonathan D. Thomas, Andrea Silvi, Devdatt Dubhashi, Emil Carlsson, Moa Johansson,
- Abstract要約: 数体系のような数学的概念の出現は、数学と推論のためのAIの未研究領域である。
強化学習のような単純な学習メカニズムが、RLのような単純な学習メカニズムによってどのように生じるかを示す。
- 参考スコア(独自算出の注目度): 1.7126708168238125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emergence of mathematical concepts, such as number systems, is an understudied area in AI for mathematics and reasoning. It has previously been shown Carlsson et al. (2021) that by using reinforcement learning (RL), agents can derive simple approximate and exact-restricted numeral systems. However, it is a major challenge to show how more complex recursive numeral systems, similar to the one utilised in English, could arise via a simple learning mechanism such as RL. Here, we introduce an approach towards deriving a mechanistic explanation of the emergence of recursive number systems where we consider an RL agent which directly optimizes a lexicon under a given meta-grammar. Utilising a slightly modified version of the seminal meta-grammar of Hurford (1975), we demonstrate that our RL agent can effectively modify the lexicon towards Pareto-optimal configurations which are comparable to those observed within human numeral systems.
- Abstract(参考訳): 数体系のような数学的概念の出現は、数学と推論のためのAIの未研究領域である。
カールソンら (2021) は、強化学習 (RL) を用いて、エージェントは単純な近似的および正確に制限された数系を導出できることを示した。
しかし、より複雑な再帰的数値体系が、英語で使われているものと同様、RLのような単純な学習機構によってどのように生じるかを示すことは大きな課題である。
本稿では, 与えられたメタ文法の下でレキシコンを直接最適化するRLエージェントを考慮し, 再帰的数体系の出現を機械論的に説明するためのアプローチを提案する。
Hurford (1975) のセミナルメタ文法をわずかに修正したバージョンを用いて、我々のRLエージェントは、人間の数系内で観測されるものと同等のパレート最適構成に対して、レキシコンを効果的に修正できることを実証した。
関連論文リスト
- Training Neural Networks as Recognizers of Formal Languages [87.06906286950438]
形式言語理論は、特に認識者に関するものである。
代わりに、非公式な意味でのみ類似したプロキシタスクを使用するのが一般的である。
ニューラルネットワークを文字列のバイナリ分類器として直接訓練し評価することで、このミスマッチを補正する。
論文 参考訳(メタデータ) (2024-11-11T16:33:25Z) - Exploring RL-based LLM Training for Formal Language Tasks with Programmed Rewards [49.7719149179179]
本稿では,PPOを用いた強化学習(RL)の実現可能性について検討する。
我々は,生成した出力の質を自動的に評価するために,明示的な報酬関数をプログラムできるプログラミングなどの形式言語で表されるタスクに焦点をあてる。
以上の結果から,2つの形式言語タスクに対する純粋なRLベースのトレーニングは困難であり,単純な算術タスクにおいても成功は限られていることがわかった。
論文 参考訳(メタデータ) (2024-10-22T15:59:58Z) - Reverse That Number! Decoding Order Matters in Arithmetic Learning [49.5504492920404]
本研究は,最少の桁から出力を優先順位付けすることで,桁順を再評価する新たな戦略を導入する。
従来のSOTA法と比較すると,通常のトレーニングで使用するトークンの3分の1しか必要とせず,精度の全体的な改善が見られた。
論文 参考訳(メタデータ) (2024-03-09T09:04:53Z) - A Hybrid System for Systematic Generalization in Simple Arithmetic
Problems [70.91780996370326]
本稿では,記号列に対する合成的および体系的推論を必要とする算術的問題を解くことができるハイブリッドシステムを提案する。
提案システムは,最も単純なケースを含むサブセットでのみ訓練された場合においても,ネストした数式を正確に解くことができることを示す。
論文 参考訳(メタデータ) (2023-06-29T18:35:41Z) - Towards Constituting Mathematical Structures for Learning to Optimize [101.80359461134087]
近年,機械学習を利用してデータから最適化アルゴリズムを自動学習する技術が注目されている。
ジェネリックL2Oアプローチは反復更新ルールをパラメータ化し、ブラックボックスネットワークとして更新方向を学ぶ。
一般的なアプローチは広く適用できるが、学習されたモデルは過度に適合し、配布外テストセットにうまく一般化できない。
本稿では, 分布外問題に対して広く適用でき, 一般化された, 数学に着想を得た構造を持つ新しいL2Oモデルを提案する。
論文 参考訳(メタデータ) (2023-05-29T19:37:28Z) - The Wisdom of Hindsight Makes Language Models Better Instruction
Followers [84.9120606803906]
強化学習は、人間のフィードバックによる指示に合うように、大きな言語モデルを微調整することに成功している。
そこで本稿では,本論文で提案するアプローチとして,原文を緩和することでフィードバックを指導に変換する手法と,教師付き手法によるアライメント向上のためのモデルをトレーニングする手法を提案する。
言語モデルと命令を整合させる新しいアルゴリズムであるHIR(Hindsight Instruction Relabeling)を提案する。
論文 参考訳(メタデータ) (2023-02-10T12:16:38Z) - Reflection of Thought: Inversely Eliciting Numerical Reasoning in
Language Models via Solving Linear Systems [42.782260686177395]
本稿では,事前学習言語モデルに隠された数値推論知識を抽出し,活用するための新しい手法を提案する。
まず、単純な数値をアンカーとして利用して、暗黙的に推論された算術表現を言語モデルから探索する。
我々は、解析的に解決可能な線形システムとしてタスクを変換し、定式化する。
論文 参考訳(メタデータ) (2022-10-11T00:57:19Z) - Learning Approximate and Exact Numeral Systems via Reinforcement Learning [7.731569068280131]
近年の研究では、異なる言語における数体系は、情報理論的な意味で効率的なコミュニケーションを必要とする機能的要求によって形成されていることが示唆されている。
ここでは、学習理論のアプローチを採用し、強化学習によるコミュニケーションの効率性を示す。
論文 参考訳(メタデータ) (2021-05-28T14:12:10Z) - Probably Approximately Correct Explanations of Machine Learning Models
via Syntax-Guided Synthesis [6.624726878647541]
本稿では、おそらくほぼ正解学習(PAC)と構文誘導合成(SyGuS)という論理推論手法を組み合わせて、複雑な機械学習モデル(ディープニューラルネットワークなど)の意思決定を理解するための新しいアプローチを提案する。
提案手法は,高い確率で誤りが少ないことを証明し,人間の解釈可能な小さな説明を生成するのに有効であることを実証的に示す。
論文 参考訳(メタデータ) (2020-09-18T12:10:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。