論文の概要: From Passive Reuse to Active Reasoning: Grounding Large Language Models for Neuro-Symbolic Experience Replay
- arxiv url: http://arxiv.org/abs/2605.09419v1
- Date: Sun, 10 May 2026 08:41:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.239545
- Title: From Passive Reuse to Active Reasoning: Grounding Large Language Models for Neuro-Symbolic Experience Replay
- Title(参考訳): パッシブ・リユースからアクティブ・リソン:ニューロ・シンボリック・エクスペリエンス・リプレイのための大規模言語モデルの構築
- Authors: Yanan Xiao, Yixiang Tang, Zechen Feng, Lu Jiang, Minghao Yin, Pengyang Wang,
- Abstract要約: 本稿では,経験リプレイを知識構築のためのアクティブエンジンに変換するフレームワークであるNuro-Symbolic Experience Replay (NSER)を提案する。
NSERは、新しいニューロシンボリックグラウンドティングパイプラインを通じて、言語推論と数値最適化の不整合性に対処する。
- 参考スコア(独自算出の注目度): 31.92429617798169
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While experience replay is essential for data efficiency in reinforcement learning (RL), standard methods treat the replay buffer as a passive memory system, prioritizing samples based on numerical prediction errors rather than their semantic significance. This approach stands in contrast to human learning, which accelerates mastery by actively abstracting fragmented experiences into behavioral rules. To bridge this gap, we propose Neuro-Symbolic Experience Replay (NSER), a framework that transforms experience replay from a passive sample reuse mechanism into an active engine for knowledge construction. Specifically, NSER addresses the incompatibility between linguistic reasoning and numerical optimization through a novel neuro-symbolic grounding pipeline. It leverages Large Language Models (LLMs) in a zero-shot manner to induce candidate behavioral rules from accumulated trajectories, grounds these insights into differentiable first-order logic representations, and utilizes the resulting symbolic structures to dynamically reweight the replay distribution. By allowing abstract knowledge to directly shape policy optimization, NSER achieves consistent superior sample efficiency and convergence speed across reactive, rule-based, and procedural benchmarks.
- Abstract(参考訳): 強化学習(RL)におけるデータ効率には経験リプレイが不可欠であるが、標準的な手法では、リプレイバッファを受動的メモリシステムとして扱い、その意味よりも数値予測誤差に基づいてサンプルを優先順位付けする。
このアプローチは、断片化された経験を行動規則に積極的に抽象化することで、習得を促進する人間の学習とは対照的である。
このギャップを埋めるために,受動的サンプル再利用機構から知識構築のためのアクティブエンジンに変換するフレームワークであるNuro-Symbolic Experience Replay (NSER)を提案する。
具体的には、NSERは、新しいニューロシンボリックグラウンドティングパイプラインを通じて、言語推論と数値最適化の不整合性に対処する。
ゼロショット方式でLarge Language Models (LLMs) を利用して、蓄積された軌道から候補の行動規則を誘導し、これらの洞察を微分可能な一階述語論理表現に基盤付け、その結果のシンボル構造を利用してリプレイ分布を動的にリウェイトする。
抽象的な知識がポリシーの最適化を直接形成できるようにすることで、NSERは、リアクティブ、ルールベース、手続き的なベンチマークにまたがる一貫した優れたサンプル効率と収束速度を達成する。
関連論文リスト
- LANPO: Bootstrapping Language and Numerical Feedback for Reinforcement Learning in LLMs [73.27182315028021]
LANPOは、フィードバックの役割をきれいに分離するフレームワークである。
我々の研究は、歴史体験をLLM RLループに統合する堅牢な方法を提供し、より効果的でデータ効率のよい学習エージェントを作成します。
論文 参考訳(メタデータ) (2025-10-18T15:51:19Z) - Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting [92.57796055887995]
本稿では,言語モデルエージェントの強化学習から後視体験のリプレイに適応するプロンプトフレームワークECHOを紹介する。
ECHOは失敗した試みで達成できた代替目標のために最適化された軌道を生成する。
我々は、テキストベースのナビゲーションと計画ベンチマークであるXMiniGridのステートフルバージョンと、協調的な情報収集企業シミュレーションであるPeopleJoinQAについて、ECHOを評価した。
論文 参考訳(メタデータ) (2025-10-11T18:11:09Z) - Learning Distinguishable Representations in Deep Q-Networks for Linear Transfer [0.9558392439655014]
本稿では,状態の特徴表現間の正の相関を減少させるために,正規化項を導入する新しいQ-ラーニング手法を提案する。
転送学習性能の向上と計算オーバーヘッドの低減に本手法の有効性を実証する。
論文 参考訳(メタデータ) (2025-09-29T15:44:35Z) - ReLUs Are Sufficient for Learning Implicit Neural Representations [17.786058035763254]
暗黙的神経表現学習におけるReLUアクティベーション関数の使用について再考する。
2次B-スプラインウェーブレットにインスパイアされ、ディープニューラルネットワーク(DNN)の各層にReLUニューロンに一連の簡単な制約を組み込む。
我々は、一般的な信念とは対照的に、ReLUニューロンのみからなるDNNに基づいて最先端のINRを学習できることを実証した。
論文 参考訳(メタデータ) (2024-06-04T17:51:08Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Contrastive-Signal-Dependent Plasticity: Self-Supervised Learning in Spiking Neural Circuits [61.94533459151743]
この研究は、スパイキングネットワークのシナプスを調整するための神経生物学的に動機づけられたスキームを設計することの課題に対処する。
我々の実験シミュレーションは、繰り返しスパイクネットワークを訓練する際、他の生物学的に証明可能なアプローチに対して一貫した優位性を示す。
論文 参考訳(メタデータ) (2023-03-30T02:40:28Z) - Selective Memory Recursive Least Squares: Recast Forgetting into Memory
in RBF Neural Network Based Real-Time Learning [2.31120983784623]
放射ベース関数ニューラルネットワーク(RBFNN)に基づくリアルタイム学習タスクでは、忘れるメカニズムが広く使用されている。
本稿では,従来の記憶機構を記憶機構に再キャストする選択記憶再帰最小二乗法(SMRLS)を提案する。
SMRLSでは、RBFNNの入力空間を有限個の分割に均等に分割し、各分割から合成されたサンプルを用いて合成目的関数を開発する。
論文 参考訳(メタデータ) (2022-11-15T05:29:58Z) - Automatic Recall Machines: Internal Replay, Continual Learning and the
Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。
本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。
代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文 参考訳(メタデータ) (2020-06-22T15:07:06Z) - Memory Augmented Neural Model for Incremental Session-based
Recommendation [36.33193124174747]
インクリメンタルセッションベースのレコメンデーションシナリオでは,既存のニューラルレコメンデータが使用できることを示す。
メモリ拡張ニューラルモデル(MAN)と呼ばれる一般的なフレームワークを提案する。
MANは、継続的にクエリされ更新された非パラメトリックメモリでベース神経レコメンデータを強化する。
論文 参考訳(メタデータ) (2020-04-28T19:07:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。