論文の概要: Learning Efficient Recursive Numeral Systems via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2409.07170v4
- Date: Mon, 19 May 2025 10:58:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.228644
- Title: Learning Efficient Recursive Numeral Systems via Reinforcement Learning
- Title(参考訳): 強化学習による再帰的数体系の学習
- Authors: Andrea Silvi, Jonathan Thomas, Emil Carlsson, Devdatt Dubhashi, Moa Johansson,
- Abstract要約: 従来、強化学習(RL)を用いることで、エージェントは人間に類似した単純な近似的かつ正確に制限された数字系を導出することができることが示されている。
本稿では,効率的な再帰的数体系の出現に関する力学的な説明を導出する手法を提案する。
相互作用を通して徐々に修正されるメタ文法を用いて、数値についてコミュニケーションする方法を学ぶエージェントのペアについて検討する。
- 参考スコア(独自算出の注目度): 1.7126708168238125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It has previously been shown that by using reinforcement learning (RL), agents can derive simple approximate and exact-restricted numeral systems that are similar to human ones (Carlsson, 2021). However, it is a major challenge to show how more complex recursive numeral systems, similar to for example English, could arise via a simple learning mechanism such as RL. Here, we introduce an approach towards deriving a mechanistic explanation of the emergence of efficient recursive number systems. We consider pairs of agents learning how to communicate about numerical quantities through a meta-grammar that can be gradually modified throughout the interactions. Utilising a slightly modified version of the meta-grammar of Hurford (1975), we demonstrate that our RL agents, shaped by the pressures for efficient communication, can effectively modify their lexicon towards Pareto-optimal configurations which are comparable to those observed within human numeral systems in terms of their efficiency.
- Abstract(参考訳): 従来、強化学習(RL)を用いて、エージェントは人間に類似した単純な近似的かつ正確に制限された数字系を導出することができることが示されている(Carlsson, 2021)。
しかし、例えば英語のように、より複雑な再帰的数体系が、RLのような単純な学習機構によってどのように生じるかを示すことは大きな課題である。
本稿では,効率的な再帰的数体系の出現に関する力学的な説明を導出する手法を提案する。
相互作用を通して徐々に修正されるメタ文法を用いて、数値についてコミュニケーションする方法を学ぶエージェントのペアについて検討する。
Hurford (1975) のメタ文法をわずかに修正したバージョンを用いて、我々のRLエージェントは効率的な通信のための圧力によって形成され、効率の観点から、人間の数系内で観測されるものと同等のパレート最適構成に対して、効果的にレキシコンを変更できることを実証した。
関連論文リスト
- Grammar-based Ordinary Differential Equation Discovery [1.5020330976600738]
常微分方程式(ODE)の終端発見のための新しい枠組みを提案する。
提案手法は形式的形式性低減と高次元空間を効率的に探索するための探索を組み合わせたものである。
Godeは、最先端のトランスフォーマーベースのモデルよりもサンプリングとパラメータ効率が良いことを証明している。
論文 参考訳(メタデータ) (2025-04-03T14:28:13Z) - Exploring Training and Inference Scaling Laws in Generative Retrieval [50.82554729023865]
モデルサイズ,トレーニングデータスケール,推論時間計算が生成的検索性能にどのように影響するかを検討する。
実験の結果,n-gram-based method はトレーニング法と推論法の両方と強く一致していることがわかった。
LLaMAモデルはT5モデルより一貫して優れており、生成検索におけるデコーダのみの大きなモデルに対して特に有利であることが示唆された。
論文 参考訳(メタデータ) (2025-03-24T17:59:03Z) - How to Correctly do Semantic Backpropagation on Language-based Agentic Systems [23.4193991777817]
セマンティック・バックプロパゲーションの概念をセマンティック・グラデーションで定式化する。
これは、各コンポーネントの変更がシステムの出力をどのように改善するかについての方向性情報を計算する方法として機能する。
BIG-Bench Hard と GSM8K の2つの実験結果から,GASO 問題を解く上で,既存の最先端手法よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2024-12-04T15:52:03Z) - Training Neural Networks as Recognizers of Formal Languages [87.06906286950438]
形式言語理論は、特に認識者に関するものである。
代わりに、非公式な意味でのみ類似したプロキシタスクを使用するのが一般的である。
ニューラルネットワークを文字列のバイナリ分類器として直接訓練し評価することで、このミスマッチを補正する。
論文 参考訳(メタデータ) (2024-11-11T16:33:25Z) - Exploring RL-based LLM Training for Formal Language Tasks with Programmed Rewards [49.7719149179179]
本稿では,PPOを用いた強化学習(RL)の実現可能性について検討する。
我々は,生成した出力の質を自動的に評価するために,明示的な報酬関数をプログラムできるプログラミングなどの形式言語で表されるタスクに焦点をあてる。
以上の結果から,2つの形式言語タスクに対する純粋なRLベースのトレーニングは困難であり,単純な算術タスクにおいても成功は限られていることがわかった。
論文 参考訳(メタデータ) (2024-10-22T15:59:58Z) - Finding structure in logographic writing with library learning [55.63800121311418]
書記システムにおける構造を発見するための計算フレームワークを開発する。
我々の枠組みは中国語の表記体系における既知の言語構造を発見する。
図書館学習のアプローチが、人間の認知における構造の形成の基盤となる基本的な計算原理を明らかにするのにどのように役立つかを実証する。
論文 参考訳(メタデータ) (2024-05-11T04:23:53Z) - Reverse That Number! Decoding Order Matters in Arithmetic Learning [49.5504492920404]
本研究は,最少の桁から出力を優先順位付けすることで,桁順を再評価する新たな戦略を導入する。
従来のSOTA法と比較すると,通常のトレーニングで使用するトークンの3分の1しか必要とせず,精度の全体的な改善が見られた。
論文 参考訳(メタデータ) (2024-03-09T09:04:53Z) - Self-Supervised Learning with Lie Symmetries for Partial Differential
Equations [25.584036829191902]
我々は、自己教師付き学習(SSL)のための共同埋め込み手法を実装することにより、PDEの汎用表現を学習する。
我々の表現は、PDEの係数の回帰などの不変タスクに対するベースラインアプローチよりも優れており、また、ニューラルソルバのタイムステッピング性能も向上している。
提案手法がPDEの汎用基盤モデルの開発に有効であることを期待する。
論文 参考訳(メタデータ) (2023-07-11T16:52:22Z) - A Hybrid System for Systematic Generalization in Simple Arithmetic
Problems [70.91780996370326]
本稿では,記号列に対する合成的および体系的推論を必要とする算術的問題を解くことができるハイブリッドシステムを提案する。
提案システムは,最も単純なケースを含むサブセットでのみ訓練された場合においても,ネストした数式を正確に解くことができることを示す。
論文 参考訳(メタデータ) (2023-06-29T18:35:41Z) - Towards Constituting Mathematical Structures for Learning to Optimize [101.80359461134087]
近年,機械学習を利用してデータから最適化アルゴリズムを自動学習する技術が注目されている。
ジェネリックL2Oアプローチは反復更新ルールをパラメータ化し、ブラックボックスネットワークとして更新方向を学ぶ。
一般的なアプローチは広く適用できるが、学習されたモデルは過度に適合し、配布外テストセットにうまく一般化できない。
本稿では, 分布外問題に対して広く適用でき, 一般化された, 数学に着想を得た構造を持つ新しいL2Oモデルを提案する。
論文 参考訳(メタデータ) (2023-05-29T19:37:28Z) - Sentence-Incremental Neural Coreference Resolution [32.13574453443377]
本稿では,シフト・リデュース法で参照境界をマークした後,段階的にクラスタを構築できる文増分ニューラルコア参照解決システムを提案する。
本システムは,(1)文書長の2次複雑さを高い計算コストで引き起こす最先端の非インクリメンタルモデル,(2)段階的に動作するが代名詞を超えて一般化しないメモリネットワークベースモデルである。
論文 参考訳(メタデータ) (2023-05-26T14:00:25Z) - Human-in-the-Loop Schema Induction [54.80723761506746]
GPT-3を応用した人型ループ型スキーマ誘導システムについて紹介する。
我々のシステムは,従来のアプローチよりも容易に新しいドメインに移行できるだけでなく,インタラクティブなインターフェースによって人為的なキュレーションの労力を減らすことも示している。
論文 参考訳(メタデータ) (2023-02-25T10:20:02Z) - The Wisdom of Hindsight Makes Language Models Better Instruction
Followers [84.9120606803906]
強化学習は、人間のフィードバックによる指示に合うように、大きな言語モデルを微調整することに成功している。
そこで本稿では,本論文で提案するアプローチとして,原文を緩和することでフィードバックを指導に変換する手法と,教師付き手法によるアライメント向上のためのモデルをトレーニングする手法を提案する。
言語モデルと命令を整合させる新しいアルゴリズムであるHIR(Hindsight Instruction Relabeling)を提案する。
論文 参考訳(メタデータ) (2023-02-10T12:16:38Z) - Reflection of Thought: Inversely Eliciting Numerical Reasoning in
Language Models via Solving Linear Systems [42.782260686177395]
本稿では,事前学習言語モデルに隠された数値推論知識を抽出し,活用するための新しい手法を提案する。
まず、単純な数値をアンカーとして利用して、暗黙的に推論された算術表現を言語モデルから探索する。
我々は、解析的に解決可能な線形システムとしてタスクを変換し、定式化する。
論文 参考訳(メタデータ) (2022-10-11T00:57:19Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Learning Approximate and Exact Numeral Systems via Reinforcement Learning [7.731569068280131]
近年の研究では、異なる言語における数体系は、情報理論的な意味で効率的なコミュニケーションを必要とする機能的要求によって形成されていることが示唆されている。
ここでは、学習理論のアプローチを採用し、強化学習によるコミュニケーションの効率性を示す。
論文 参考訳(メタデータ) (2021-05-28T14:12:10Z) - Probably Approximately Correct Explanations of Machine Learning Models
via Syntax-Guided Synthesis [6.624726878647541]
本稿では、おそらくほぼ正解学習(PAC)と構文誘導合成(SyGuS)という論理推論手法を組み合わせて、複雑な機械学習モデル(ディープニューラルネットワークなど)の意思決定を理解するための新しいアプローチを提案する。
提案手法は,高い確率で誤りが少ないことを証明し,人間の解釈可能な小さな説明を生成するのに有効であることを実証的に示す。
論文 参考訳(メタデータ) (2020-09-18T12:10:49Z) - Self-organizing Democratized Learning: Towards Large-scale Distributed
Learning Systems [71.14339738190202]
民主化された学習(Dem-AI)は、大規模な分散および民主化された機械学習システムを構築するための基本原則を備えた全体主義的哲学を定めている。
本稿では,Dem-AI哲学にヒントを得た分散学習手法を提案する。
提案アルゴリズムは,従来のFLアルゴリズムと比較して,エージェントにおける学習モデルの一般化性能が向上することを示す。
論文 参考訳(メタデータ) (2020-07-07T08:34:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。