論文の概要: Learning When to Switch: Adaptive Policy Selection via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.06250v1
- Date: Sat, 06 Dec 2025 02:50:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.262364
- Title: Learning When to Switch: Adaptive Policy Selection via Reinforcement Learning
- Title(参考訳): いつ切り替えるかを学ぶ:強化学習による適応的政策選択
- Authors: Chris Tava,
- Abstract要約: この研究は、エージェントが系統的な探索(カバレッジ)と目標指向のパスフィニング(収束)を動的に移行してタスクのパフォーマンスを向上させる方法を示す。
固定閾値アプローチとは異なり、エージェントはQラーニングを使用して、カバレッジパーセンテージと目標までの距離に基づいてスイッチング行動に適応する。
その結果、完了時間が23~55%改善され、ランタイムの分散が83%減少し、最悪のシナリオでは71%改善した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous agents often require multiple strategies to solve complex tasks, but determining when to switch between strategies remains challenging. This research introduces a reinforcement learning technique to learn switching thresholds between two orthogonal navigation policies. Using maze navigation as a case study, this work demonstrates how an agent can dynamically transition between systematic exploration (coverage) and goal-directed pathfinding (convergence) to improve task performance. Unlike fixed-threshold approaches, the agent uses Q-learning to adapt switching behavior based on coverage percentage and distance to goal, requiring only minimal domain knowledge: maze dimensions and target location. The agent does not require prior knowledge of wall positions, optimal threshold values, or hand-crafted heuristics; instead, it discovers effective switching strategies dynamically during each run. The agent discretizes its state space into coverage and distance buckets, then adapts which coverage threshold (20-60\%) to apply based on observed progress signals. Experiments across 240 test configurations (4 maze sizes from 16$\times$16 to 128$\times$128 $\times$ 10 unique mazes $\times$ 6 agent variants) demonstrate that adaptive threshold learning outperforms both single-strategy agents and fixed 40\% threshold baselines. Results show 23-55\% improvements in completion time, 83\% reduction in runtime variance, and 71\% improvement in worst-case scenarios. The learned switching behavior generalizes within each size class to unseen wall configurations. Performance gains scale with problem complexity: 23\% improvement for 16$\times$16 mazes, 34\% for 32$\times$32, and 55\% for 64$\times$64, demonstrating that as the space of possible maze structures grows, the value of adaptive policy selection over fixed heuristics increases proportionally.
- Abstract(参考訳): 自律エージェントは複雑なタスクを解決するために複数の戦略を必要とすることが多いが、戦略を切り替えるタイミングを決定することは依然として難しい。
本研究では,2つの直交ナビゲーションポリシー間の切替閾値を学習するための強化学習手法を提案する。
迷路ナビゲーションをケーススタディとして、エージェントが系統的な探索(カバレッジ)と目標指向パスフィンディング(収束)を動的に移行してタスクパフォーマンスを向上させる方法を示す。
固定閾値アプローチとは異なり、エージェントはQラーニングを使用して、範囲のパーセンテージと目標までの距離に基づいて切り替え行動を適用する。
エージェントは、壁の位置、最適なしきい値、手作りのヒューリスティックスの事前知識を必要としない。
エージェントは、状態空間をカバーと距離バケットに識別し、観察された進行信号に基づいてどのカバレッジ閾値(20〜60\%)を適用させる。
16$\times$16から128$\times$128 $\times$10 unique mazes$\times$6 agent variants) 240のテスト構成(4つのmazeサイズから16$\times$16から128$\times$128 $\times$10 unique mazes$\times$6 agent variants)にわたる実験では、適応しきい値学習が単一戦略エージェントと固定された40\%のしきい値ベースラインの両方を上回ることが示されている。
その結果,23~55倍の完成時間の改善,83倍のランタイム分散,71倍の最悪のシナリオが得られた。
学習したスイッチング動作は、各サイズクラス内で、見えない壁の構成に一般化される。
16$\times$16の迷路に対する23\%の改善、32$\times$32の34\%、64$\times$64の55\%の改善。
関連論文リスト
- Temporal Zoom Networks: Distance Regression and Continuous Depth for Efficient Action Localization [6.908972852063454]
時間的行動の局所化は、正確な境界検出と計算効率の両方を必要とする。
我々は、境界距離回帰(BDR)と適応時間制限(ATR)という2つの補完的なイノベーションを通じてこの問題に対処する。
THUMOS14では、ActionFormer++ (55.7% mAP@0.7 at 235G) よりも36%少ないFLOPを用いて、151GのFLOPで56.5% mAP@0.7を達成する。
論文 参考訳(メタデータ) (2025-11-06T00:41:54Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - StrategyLLM: Large Language Models as Strategy Generators, Executors, Optimizers, and Evaluators for Problem Solving [76.5322280307861]
StrategyLLM は LLM が帰納的推論、特定のタスクインスタンスからの一般的な戦略の導出、帰納的推論を可能にし、これらの一般的な戦略を特定のタスク例に適用し、一般化可能で一貫した数発のプロンプトを構築する。
実験の結果、StrategyLLMは、数学推論(34.2%$rightarrow$38.8%)、コモンセンス推論(70.3%$rightarrow$72.5%)、アルゴリズム推論(73.7%$rightarrow$85.0)を含む、4つの難しいタスクにまたがる13のデータセットに対して、人間によるアノテートソリューションを必要とする競争ベースラインのCoT-SCよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-11-15T09:18:09Z) - Diversity Through Exclusion (DTE): Niche Identification for
Reinforcement Learning through Value-Decomposition [63.67574523750839]
本稿では,多変量ニッチ環境におけるベースライン深度Q-ラーニングアルゴリズムよりも優れた汎用強化学習(RL)アルゴリズムを提案する。
この方法で訓練されたエージェントは、貧弱だが魅力ある局所最適化から逃れて、より高い価値戦略の発見を困難にすることを示します。
論文 参考訳(メタデータ) (2023-02-02T16:00:19Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Influence-based Reinforcement Learning for Intrinsically-motivated
Agents [0.0]
2つの強化学習エージェントのアルゴリズム的枠組みをそれぞれ異なる目的で提示する。
我々は,ある政策が他者に与える影響を評価するために,新たな関数近似手法を導入する。
本手法は,オープンAI体育館における課題と,協調的・混合的なシナリオについて検討した。
論文 参考訳(メタデータ) (2021-08-28T05:36:10Z) - Multi-agent navigation based on deep reinforcement learning and
traditional pathfinding algorithm [0.0]
我々は,マルチエージェント衝突回避問題のための新しいフレームワークを開発する。
このフレームワークは、従来のパスフィニングアルゴリズムと強化学習を組み合わせたものだ。
我々のアプローチでは、エージェントはナビゲートするか、パートナーを避けるために簡単な行動をとるかを学ぶ。
論文 参考訳(メタデータ) (2020-12-05T08:56:58Z) - Hierarchical Reinforcement Learning as a Model of Human Task
Interleaving [60.95424607008241]
我々は、強化学習によって駆動される監督制御の階層モデルを開発する。
このモデルは、タスクインターリービングの既知の経験的効果を再現する。
その結果、階層的RLがタスクインターリービングのもっともらしいモデルとして支持された。
論文 参考訳(メタデータ) (2020-01-04T17:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。