Fugu-MT 論文翻訳(概要): Learning Efficient Recursive Numeral Systems via Reinforcement Learning

論文の概要: Learning Efficient Recursive Numeral Systems via Reinforcement Learning

arxiv url: http://arxiv.org/abs/2409.07170v2
Date: Fri, 28 Feb 2025 10:22:04 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-03 16:38:44.965792
Title: Learning Efficient Recursive Numeral Systems via Reinforcement Learning
Title（参考訳）: 強化学習による再帰的数体系の学習
Authors: Andrea Silvi, Jonathan Thomas, Emil Carlsson, Devdatt Dubhashi, Moa Johansson,
Abstract要約: 従来、強化学習(RL)を用いることで、エージェントは人間に類似した単純な近似的かつ正確に制限された数字系を導出することができることが示されている。本稿では,効率的な再帰的数体系の出現に関する力学的な説明を導出する手法を提案する。
参考スコア（独自算出の注目度）: 1.7126708168238125
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: It has previously been shown that by using reinforcement learning (RL), agents can derive simple approximate and exact-restricted numeral systems that are similar to human ones (Carlsson, 2021). However, it is a major challenge to show how more complex recursive numeral systems, similar to for example English, could arise via a simple learning mechanism such as RL. Here, we introduce an approach towards deriving a mechanistic explanation of the emergence of efficient recursive number systems. We consider pairs of agents learning how to communicate about numerical quantities through a meta-grammar that can be gradually modified throughout the interactions. %We find that the seminal meta-grammar of Hurford (Hurford, 1975) is not suitable for this application as its optimization results in systems that deviate from standard conventions observed within human numeral systems. We propose a simple modification which addresses this issue. Utilising a slightly modified version of the meta-grammar of Hurford, we demonstrate that our RL agents, shaped by the pressures for efficient communication, can effectively modify their lexicon towards Pareto-optimal configurations which are comparable to those observed within human numeral systems in terms of their efficiency.
Abstract（参考訳）: 従来、強化学習(RL)を用いることで、エージェントは人間に類似した単純な近似的かつ正確に制限された数字系を導出することができることが示されている(Carlsson, 2021)。しかし、例えば英語のように、より複雑な再帰的数体系が、RLのような単純な学習機構によってどのように生じるかを示すことは大きな課題である。本稿では,効率的な再帰的数体系の出現に関する力学的な説明を導出する手法を提案する。相互作用を通して徐々に修正されるメタ文法を用いて、数値についてコミュニケーションする方法を学ぶエージェントのペアについて検討する。 % Hurford (Hurford, 1975) のセミナルメタ文法は, 人間の数系内で観測される標準規則から逸脱するシステムにおいて, この応用には適さないことがわかった。この問題に対処する簡単な修正を提案する。 Hurfordのメタ文法をわずかに修正したバージョンを利用して、我々のRLエージェントは、効率的なコミュニケーションのために圧力によって形作られ、効率の観点から、人間の数系で見られるものと同等のパレート最適構成に対して、効果的にレキシコンを変更できることを実証した。

関連論文リスト

TreeLoRA: Efficient Continual Learning via Layer-Wise LoRAs Guided by a Hierarchical Gradient-Similarity Tree [52.44403214958304]
本稿では階層的な勾配の類似性を利用して階層型アダプタを構築する新しい手法であるTreeLoRAを紹介する。タスク類似度推定の計算負担を軽減するために,より低い信頼度境界に基づくアルゴリズムを開発するために,バンド手法を用いる。視覚変換器 (ViTs) と大規模言語モデル (LLMs) の両方を用いた実験により, 提案手法の有効性と有効性を示す。
論文参考訳（メタデータ） (2025-06-12T05:25:35Z)
Grammar-based Ordinary Differential Equation Discovery [1.5020330976600738]
常微分方程式(ODE)の終端発見のための新しい枠組みを提案する。提案手法は形式的形式性低減と高次元空間を効率的に探索するための探索を組み合わせたものである。 Godeは、最先端のトランスフォーマーベースのモデルよりもサンプリングとパラメータ効率が良いことを証明している。
論文参考訳（メタデータ） (2025-04-03T14:28:13Z)
Exploring Training and Inference Scaling Laws in Generative Retrieval [50.82554729023865]
モデルサイズ,トレーニングデータスケール,推論時間計算が生成的検索性能にどのように影響するかを検討する。実験の結果,n-gram-based method はトレーニング法と推論法の両方と強く一致していることがわかった。 LLaMAモデルはT5モデルより一貫して優れており、生成検索におけるデコーダのみの大きなモデルに対して特に有利であることが示唆された。
論文参考訳（メタデータ） (2025-03-24T17:59:03Z)
Recursive Inference Scaling: A Winning Path to Scalable Inference in Language and Multimodal Systems [21.01887711305712]
本稿では,言語およびマルチモーダルシステムにおける推論時間をスケールするための補完的なプラグインレシピとして,Recursive Inference Scaling (RINS)を紹介した。 RINS はモバイル LLM の最近の "repeat-all-over" (RAO) 戦略など、他の55種類よりも大幅に優れている。軽量アダプタでは、RINSは非レグレット戦略を提供するため、RINS対応プレトレーニングにより言語モデリングのパフォーマンスが向上する。
論文参考訳（メタデータ） (2025-02-11T12:11:40Z)
RALLRec: Improving Retrieval Augmented Large Language Model Recommendation with Representation Learning [24.28601381739682]
大規模言語モデル (LLM) は、ユーザの振る舞いを理解するためのレコメンデーションシステムに統合されている。既存のRAGメソッドは主にテキストのセマンティクスに依存しており、しばしば最も関連性の高い項目を組み込むことができない。検索強化大言語モデル推薦(RALLRec)のための表現学習を提案する。
論文参考訳（メタデータ） (2025-02-10T02:15:12Z)
How to Correctly do Semantic Backpropagation on Language-based Agentic Systems [23.4193991777817]
セマンティック・バックプロパゲーションの概念をセマンティック・グラデーションで定式化する。これは、各コンポーネントの変更がシステムの出力をどのように改善するかについての方向性情報を計算する方法として機能する。 BIG-Bench Hard と GSM8K の2つの実験結果から,GASO 問題を解く上で,既存の最先端手法よりも優れた結果が得られた。
論文参考訳（メタデータ） (2024-12-04T15:52:03Z)
Training Neural Networks as Recognizers of Formal Languages [87.06906286950438]
形式言語理論は、特に認識者に関するものである。代わりに、非公式な意味でのみ類似したプロキシタスクを使用するのが一般的である。ニューラルネットワークを文字列のバイナリ分類器として直接訓練し評価することで、このミスマッチを補正する。
論文参考訳（メタデータ） (2024-11-11T16:33:25Z)
Exploring RL-based LLM Training for Formal Language Tasks with Programmed Rewards [49.7719149179179]
本稿では,PPOを用いた強化学習(RL)の実現可能性について検討する。我々は,生成した出力の質を自動的に評価するために,明示的な報酬関数をプログラムできるプログラミングなどの形式言語で表されるタスクに焦点をあてる。以上の結果から,2つの形式言語タスクに対する純粋なRLベースのトレーニングは困難であり,単純な算術タスクにおいても成功は限られていることがわかった。
論文参考訳（メタデータ） (2024-10-22T15:59:58Z)
Enabling Real-Time Conversations with Minimal Training Costs [61.80370154101649]
本稿では,2つの言語モデルに対して,最小限の訓練を要し,2つの言語能力を持つ新しい重複復号法を提案する。実験結果から,本手法はトレーニングコストの最小化とともに,ユーザとAIのインタラクションの自然性と人間的類似性を著しく向上することが示された。
論文参考訳（メタデータ） (2024-09-18T06:27:26Z)
Finding structure in logographic writing with library learning [55.63800121311418]
書記システムにおける構造を発見するための計算フレームワークを開発する。我々の枠組みは中国語の表記体系における既知の言語構造を発見する。図書館学習のアプローチが、人間の認知における構造の形成の基盤となる基本的な計算原理を明らかにするのにどのように役立つかを実証する。
論文参考訳（メタデータ） (2024-05-11T04:23:53Z)
Reverse That Number! Decoding Order Matters in Arithmetic Learning [49.5504492920404]
本研究は,最少の桁から出力を優先順位付けすることで,桁順を再評価する新たな戦略を導入する。従来のSOTA法と比較すると,通常のトレーニングで使用するトークンの3分の1しか必要とせず,精度の全体的な改善が見られた。
論文参考訳（メタデータ） (2024-03-09T09:04:53Z)
Self-Supervised Learning with Lie Symmetries for Partial Differential Equations [25.584036829191902]
我々は、自己教師付き学習(SSL)のための共同埋め込み手法を実装することにより、PDEの汎用表現を学習する。我々の表現は、PDEの係数の回帰などの不変タスクに対するベースラインアプローチよりも優れており、また、ニューラルソルバのタイムステッピング性能も向上している。提案手法がPDEの汎用基盤モデルの開発に有効であることを期待する。
論文参考訳（メタデータ） (2023-07-11T16:52:22Z)
On Conditional and Compositional Language Model Differentiable Prompting [75.76546041094436]
プロンプトは、下流タスクでうまく機能するために、凍結した事前訓練言語モデル(PLM)を適応するための効果的な方法であることが示されている。タスク命令や入力メタデータを連続的なプロンプトに変換することを学習する新しいモデル Prompt Production System (PRopS) を提案する。
論文参考訳（メタデータ） (2023-07-04T02:47:42Z)
A Hybrid System for Systematic Generalization in Simple Arithmetic Problems [70.91780996370326]
本稿では,記号列に対する合成的および体系的推論を必要とする算術的問題を解くことができるハイブリッドシステムを提案する。提案システムは,最も単純なケースを含むサブセットでのみ訓練された場合においても,ネストした数式を正確に解くことができることを示す。
論文参考訳（メタデータ） (2023-06-29T18:35:41Z)
Towards Constituting Mathematical Structures for Learning to Optimize [101.80359461134087]
近年,機械学習を利用してデータから最適化アルゴリズムを自動学習する技術が注目されている。ジェネリックL2Oアプローチは反復更新ルールをパラメータ化し、ブラックボックスネットワークとして更新方向を学ぶ。一般的なアプローチは広く適用できるが、学習されたモデルは過度に適合し、配布外テストセットにうまく一般化できない。本稿では, 分布外問題に対して広く適用でき, 一般化された, 数学に着想を得た構造を持つ新しいL2Oモデルを提案する。
論文参考訳（メタデータ） (2023-05-29T19:37:28Z)
Sentence-Incremental Neural Coreference Resolution [32.13574453443377]
本稿では,シフト・リデュース法で参照境界をマークした後,段階的にクラスタを構築できる文増分ニューラルコア参照解決システムを提案する。本システムは,(1)文書長の2次複雑さを高い計算コストで引き起こす最先端の非インクリメンタルモデル,(2)段階的に動作するが代名詞を超えて一般化しないメモリネットワークベースモデルである。
論文参考訳（メタデータ） (2023-05-26T14:00:25Z)
Human-in-the-Loop Schema Induction [54.80723761506746]
GPT-3を応用した人型ループ型スキーマ誘導システムについて紹介する。我々のシステムは,従来のアプローチよりも容易に新しいドメインに移行できるだけでなく,インタラクティブなインターフェースによって人為的なキュレーションの労力を減らすことも示している。
論文参考訳（メタデータ） (2023-02-25T10:20:02Z)
The Wisdom of Hindsight Makes Language Models Better Instruction Followers [84.9120606803906]
強化学習は、人間のフィードバックによる指示に合うように、大きな言語モデルを微調整することに成功している。そこで本稿では,本論文で提案するアプローチとして,原文を緩和することでフィードバックを指導に変換する手法と,教師付き手法によるアライメント向上のためのモデルをトレーニングする手法を提案する。言語モデルと命令を整合させる新しいアルゴリズムであるHIR(Hindsight Instruction Relabeling)を提案する。
論文参考訳（メタデータ） (2023-02-10T12:16:38Z)
Towards Learning Abstractions via Reinforcement Learning [1.7205106391379026]
強化学習を通して学習したマルチエージェントシステムにおける効率的な通信方式の合成に関する新しいアプローチについて検討する。我々は,ニューロシンボリックシステム(Neuro-symbolic system)と呼ばれる,シンボリック手法と機械学習を組み合わせる。
論文参考訳（メタデータ） (2022-12-28T17:54:32Z)
Reflection of Thought: Inversely Eliciting Numerical Reasoning in Language Models via Solving Linear Systems [42.782260686177395]
本稿では,事前学習言語モデルに隠された数値推論知識を抽出し,活用するための新しい手法を提案する。まず、単純な数値をアンカーとして利用して、暗黙的に推論された算術表現を言語モデルから探索する。我々は、解析的に解決可能な線形システムとしてタスクを変換し、定式化する。
論文参考訳（メタデータ） (2022-10-11T00:57:19Z)
Stabilizing Q-learning with Linear Architectures for Provably Efficient Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文参考訳（メタデータ） (2022-06-01T23:26:51Z)
Weakly Supervised Disentangled Representation for Goal-conditioned Reinforcement Learning [15.698612710580447]
本稿では,サンプル効率の向上と政策一般化を目的としたスキル学習フレームワークDR-GRLを提案する。本稿では,解釈可能かつ制御可能な表現を学習するための空間変換オートエンコーダ(STAE)を提案する。 DR-GRLは, 試料効率と政策一般化において, 従来の手法よりも有意に優れていたことを実証的に実証した。
論文参考訳（メタデータ） (2022-02-28T09:05:14Z)
Learning Approximate and Exact Numeral Systems via Reinforcement Learning [7.731569068280131]
近年の研究では、異なる言語における数体系は、情報理論的な意味で効率的なコミュニケーションを必要とする機能的要求によって形成されていることが示唆されている。ここでは、学習理論のアプローチを採用し、強化学習によるコミュニケーションの効率性を示す。
論文参考訳（メタデータ） (2021-05-28T14:12:10Z)
Probably Approximately Correct Explanations of Machine Learning Models via Syntax-Guided Synthesis [6.624726878647541]
本稿では、おそらくほぼ正解学習(PAC)と構文誘導合成(SyGuS)という論理推論手法を組み合わせて、複雑な機械学習モデル(ディープニューラルネットワークなど)の意思決定を理解するための新しいアプローチを提案する。提案手法は,高い確率で誤りが少ないことを証明し,人間の解釈可能な小さな説明を生成するのに有効であることを実証的に示す。
論文参考訳（メタデータ） (2020-09-18T12:10:49Z)
Self-organizing Democratized Learning: Towards Large-scale Distributed Learning Systems [71.14339738190202]
民主化された学習(Dem-AI)は、大規模な分散および民主化された機械学習システムを構築するための基本原則を備えた全体主義的哲学を定めている。本稿では,Dem-AI哲学にヒントを得た分散学習手法を提案する。提案アルゴリズムは,従来のFLアルゴリズムと比較して,エージェントにおける学習モデルの一般化性能が向上することを示す。
論文参考訳（メタデータ） (2020-07-07T08:34:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。