論文の概要: Adaptable Hindsight Experience Replay for Search-Based Learning
- arxiv url: http://arxiv.org/abs/2511.03405v1
- Date: Wed, 05 Nov 2025 12:13:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.420359
- Title: Adaptable Hindsight Experience Replay for Search-Based Learning
- Title(参考訳): 検索に基づく学習のための適応型直視体験リプレイ
- Authors: Alexandros Vazaios, Jannis Brugger, Cedric Derstroff, Kristian Kersting, Mira Mezini,
- Abstract要約: 我々は、AlphaZeroとHERを統合する柔軟なフレームワークであるAdaptable HER(ours)を紹介する。
Hindsight Experience Replay (HER)は、探索木からの軌跡を教師付き学習信号として許容することでこの問題に対処する。
方程式探索を含む実験により,HERの変更の可能性は有益であり,純粋な教師付き学習や強化学習よりも優れていることが示された。
- 参考スコア(独自算出の注目度): 67.04721081824316
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: AlphaZero-like Monte Carlo Tree Search systems, originally introduced for two-player games, dynamically balance exploration and exploitation using neural network guidance. This combination makes them also suitable for classical search problems. However, the original method of training the network with simulation results is limited in sparse reward settings, especially in the early stages, where the network cannot yet give guidance. Hindsight Experience Replay (HER) addresses this issue by relabeling unsuccessful trajectories from the search tree as supervised learning signals. We introduce Adaptable HER (\ours{}), a flexible framework that integrates HER with AlphaZero, allowing easy adjustments to HER properties such as relabeled goals, policy targets, and trajectory selection. Our experiments, including equation discovery, show that the possibility of modifying HER is beneficial and surpasses the performance of pure supervised or reinforcement learning.
- Abstract(参考訳): AlphaZeroのようなMonte Carlo Tree Searchシステムは、元々は2人プレイのゲーム用に導入され、ニューラルネットワークのガイダンスを使用して動的に探索とエクスプロイトのバランスをとる。
この組み合わせは古典的な探索問題にも適している。
しかし、シミュレーション結果を用いてネットワークをトレーニングする当初の方法は、特にネットワークがまだガイダンスを与えていない初期段階において、スパース報酬設定に限られている。
Hindsight Experience Replay (HER)は、探索木からの軌跡を教師付き学習信号として許容することでこの問題に対処する。
我々は、HERをAlphaZeroと統合する柔軟なフレームワークであるAdaptable HER(\ours{})を導入する。
方程式探索を含む実験により,HERの変更の可能性は有益であり,純粋な教師付き学習や強化学習よりも優れていることが示された。
関連論文リスト
- LTRR: Learning To Rank Retrievers for LLMs [53.285436927963865]
ルーティングベースのRAGシステムは、単一リトリバーベースのシステムよりも優れていることを示す。
パフォーマンス向上は、特にAnswer Correctness(AC)メトリックでトレーニングされたモデルで顕著である。
SIGIR 2025 LiveRAG チャレンジの一環として,提案システムを用いて提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2025-06-16T17:53:18Z) - Learning Prompt with Distribution-Based Feature Replay for Few-Shot Class-Incremental Learning [56.29097276129473]
分散型特徴再現(LP-DiF)を用いた学習プロンプト(Learning Prompt)という,シンプルで効果的なフレームワークを提案する。
新しいセッションでは,学習可能なプロンプトが古い知識を忘れないようにするため,擬似機能的リプレイ手法を提案する。
新しいセッションに進むと、古いクラスのディストリビューションと現在のセッションのトレーニングイメージを組み合わせて擬似フィーチャーをサンプリングして、プロンプトを最適化する。
論文 参考訳(メタデータ) (2024-01-03T07:59:17Z) - Learning Search-Space Specific Heuristics Using Neural Networks [13.226916009242347]
PDDLトレーニングインスタンスが1つあることを前提として,スクラッチからゴール間距離推定器を学習する。
この比較的単純なシステムは驚くほどよく機能し、よく知られたドメインに依存しない古典と競合することがある。
論文 参考訳(メタデータ) (2023-06-06T21:22:32Z) - OER: Offline Experience Replay for Continual Offline Reinforcement Learning [25.985985377992034]
エージェントには、事前にコンパイルされたオフラインデータセットのシーケンスを通じて、新たなスキルを継続的に学習することが望ましい。
本稿では、エージェントが一連のオフライン強化学習タスクを学習する、新しい設定である連続オフライン強化学習(CORL)を定式化する。
本稿では,リプレイバッファを構築するためのモデルベースエクスペリエンス選択手法を提案する。
論文 参考訳(メタデータ) (2023-05-23T08:16:44Z) - Hebbian Continual Representation Learning [9.54473759331265]
継続的学習は、より現実的なシナリオに機械学習をもたらすことを目的としています。
生物学的にインスパイアされたヘビアン学習が継続的な課題に対処するのに有用かどうかを検討する。
論文 参考訳(メタデータ) (2022-06-28T09:21:03Z) - Hindsight Task Relabelling: Experience Replay for Sparse Reward Meta-RL [91.26538493552817]
本稿では,メタRLの学習経験をリラベルするメタRLのための後向きレバーベリングの定式化について述べる。
提案手法の有効性を,難易度の高い目標達成環境のスイートで実証する。
論文 参考訳(メタデータ) (2021-12-02T00:51:17Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - PyTorch-Hebbian: facilitating local learning in a deep learning
framework [67.67299394613426]
ヘビーンの局所学習は、バックプロパゲーションの代替の訓練メカニズムとしての可能性を示している。
本稿では,既存のディープラーニングパイプラインにおける局所学習ルールの網羅的かつ体系的な評価のための枠組みを提案する。
このフレームワークは、Krotov-Hopfield学習規則を精度を犠牲にすることなく標準の畳み込みニューラルネットワークに拡張するために使用される。
論文 参考訳(メタデータ) (2021-01-31T10:53:08Z) - Learning Intrinsic Symbolic Rewards in Reinforcement Learning [7.101885582663675]
低次元のシンボル木の形で高密度報酬を発見する方法を提案する。
得られた高密度報酬は、ベンチマークタスクを解くためのRLポリシーに有効な信号であることを示す。
論文 参考訳(メタデータ) (2020-10-08T00:02:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。