論文の概要: Learning Efficient Recursive Numeral Systems via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2409.07170v2
- Date: Fri, 28 Feb 2025 10:22:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:38:32.535007
- Title: Learning Efficient Recursive Numeral Systems via Reinforcement Learning
- Title(参考訳): 強化学習による再帰的数体系の学習
- Authors: Andrea Silvi, Jonathan Thomas, Emil Carlsson, Devdatt Dubhashi, Moa Johansson,
- Abstract要約: 従来、強化学習(RL)を用いることで、エージェントは人間に類似した単純な近似的かつ正確に制限された数字系を導出することができることが示されている。
本稿では,効率的な再帰的数体系の出現に関する力学的な説明を導出する手法を提案する。
- 参考スコア(独自算出の注目度): 1.7126708168238125
- License:
- Abstract: It has previously been shown that by using reinforcement learning (RL), agents can derive simple approximate and exact-restricted numeral systems that are similar to human ones (Carlsson, 2021). However, it is a major challenge to show how more complex recursive numeral systems, similar to for example English, could arise via a simple learning mechanism such as RL. Here, we introduce an approach towards deriving a mechanistic explanation of the emergence of efficient recursive number systems. We consider pairs of agents learning how to communicate about numerical quantities through a meta-grammar that can be gradually modified throughout the interactions. %We find that the seminal meta-grammar of Hurford (Hurford, 1975) is not suitable for this application as its optimization results in systems that deviate from standard conventions observed within human numeral systems. We propose a simple modification which addresses this issue. Utilising a slightly modified version of the meta-grammar of Hurford, we demonstrate that our RL agents, shaped by the pressures for efficient communication, can effectively modify their lexicon towards Pareto-optimal configurations which are comparable to those observed within human numeral systems in terms of their efficiency.
- Abstract(参考訳): 従来、強化学習(RL)を用いることで、エージェントは人間に類似した単純な近似的かつ正確に制限された数字系を導出することができることが示されている(Carlsson, 2021)。
しかし、例えば英語のように、より複雑な再帰的数体系が、RLのような単純な学習機構によってどのように生じるかを示すことは大きな課題である。
本稿では,効率的な再帰的数体系の出現に関する力学的な説明を導出する手法を提案する。
相互作用を通して徐々に修正されるメタ文法を用いて、数値についてコミュニケーションする方法を学ぶエージェントのペアについて検討する。
% Hurford (Hurford, 1975) のセミナルメタ文法は, 人間の数系内で観測される標準規則から逸脱するシステムにおいて, この応用には適さないことがわかった。
この問題に対処する簡単な修正を提案する。
Hurfordのメタ文法をわずかに修正したバージョンを利用して、我々のRLエージェントは、効率的なコミュニケーションのために圧力によって形作られ、効率の観点から、人間の数系で見られるものと同等のパレート最適構成に対して、効果的にレキシコンを変更できることを実証した。
関連論文リスト
- Training Neural Networks as Recognizers of Formal Languages [87.06906286950438]
形式言語理論は、特に認識者に関するものである。
代わりに、非公式な意味でのみ類似したプロキシタスクを使用するのが一般的である。
ニューラルネットワークを文字列のバイナリ分類器として直接訓練し評価することで、このミスマッチを補正する。
論文 参考訳(メタデータ) (2024-11-11T16:33:25Z) - Exploring RL-based LLM Training for Formal Language Tasks with Programmed Rewards [49.7719149179179]
本稿では,PPOを用いた強化学習(RL)の実現可能性について検討する。
我々は,生成した出力の質を自動的に評価するために,明示的な報酬関数をプログラムできるプログラミングなどの形式言語で表されるタスクに焦点をあてる。
以上の結果から,2つの形式言語タスクに対する純粋なRLベースのトレーニングは困難であり,単純な算術タスクにおいても成功は限られていることがわかった。
論文 参考訳(メタデータ) (2024-10-22T15:59:58Z) - Reverse That Number! Decoding Order Matters in Arithmetic Learning [49.5504492920404]
本研究は,最少の桁から出力を優先順位付けすることで,桁順を再評価する新たな戦略を導入する。
従来のSOTA法と比較すると,通常のトレーニングで使用するトークンの3分の1しか必要とせず,精度の全体的な改善が見られた。
論文 参考訳(メタデータ) (2024-03-09T09:04:53Z) - A Hybrid System for Systematic Generalization in Simple Arithmetic
Problems [70.91780996370326]
本稿では,記号列に対する合成的および体系的推論を必要とする算術的問題を解くことができるハイブリッドシステムを提案する。
提案システムは,最も単純なケースを含むサブセットでのみ訓練された場合においても,ネストした数式を正確に解くことができることを示す。
論文 参考訳(メタデータ) (2023-06-29T18:35:41Z) - Towards Constituting Mathematical Structures for Learning to Optimize [101.80359461134087]
近年,機械学習を利用してデータから最適化アルゴリズムを自動学習する技術が注目されている。
ジェネリックL2Oアプローチは反復更新ルールをパラメータ化し、ブラックボックスネットワークとして更新方向を学ぶ。
一般的なアプローチは広く適用できるが、学習されたモデルは過度に適合し、配布外テストセットにうまく一般化できない。
本稿では, 分布外問題に対して広く適用でき, 一般化された, 数学に着想を得た構造を持つ新しいL2Oモデルを提案する。
論文 参考訳(メタデータ) (2023-05-29T19:37:28Z) - The Wisdom of Hindsight Makes Language Models Better Instruction
Followers [84.9120606803906]
強化学習は、人間のフィードバックによる指示に合うように、大きな言語モデルを微調整することに成功している。
そこで本稿では,本論文で提案するアプローチとして,原文を緩和することでフィードバックを指導に変換する手法と,教師付き手法によるアライメント向上のためのモデルをトレーニングする手法を提案する。
言語モデルと命令を整合させる新しいアルゴリズムであるHIR(Hindsight Instruction Relabeling)を提案する。
論文 参考訳(メタデータ) (2023-02-10T12:16:38Z) - Reflection of Thought: Inversely Eliciting Numerical Reasoning in
Language Models via Solving Linear Systems [42.782260686177395]
本稿では,事前学習言語モデルに隠された数値推論知識を抽出し,活用するための新しい手法を提案する。
まず、単純な数値をアンカーとして利用して、暗黙的に推論された算術表現を言語モデルから探索する。
我々は、解析的に解決可能な線形システムとしてタスクを変換し、定式化する。
論文 参考訳(メタデータ) (2022-10-11T00:57:19Z) - Learning Approximate and Exact Numeral Systems via Reinforcement Learning [7.731569068280131]
近年の研究では、異なる言語における数体系は、情報理論的な意味で効率的なコミュニケーションを必要とする機能的要求によって形成されていることが示唆されている。
ここでは、学習理論のアプローチを採用し、強化学習によるコミュニケーションの効率性を示す。
論文 参考訳(メタデータ) (2021-05-28T14:12:10Z) - Probably Approximately Correct Explanations of Machine Learning Models
via Syntax-Guided Synthesis [6.624726878647541]
本稿では、おそらくほぼ正解学習(PAC)と構文誘導合成(SyGuS)という論理推論手法を組み合わせて、複雑な機械学習モデル(ディープニューラルネットワークなど)の意思決定を理解するための新しいアプローチを提案する。
提案手法は,高い確率で誤りが少ないことを証明し,人間の解釈可能な小さな説明を生成するのに有効であることを実証的に示す。
論文 参考訳(メタデータ) (2020-09-18T12:10:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。