論文の概要: Learning to reset in target search problems
- arxiv url: http://arxiv.org/abs/2503.11330v1
- Date: Fri, 14 Mar 2025 11:57:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:08:13.071068
- Title: Learning to reset in target search problems
- Title(参考訳): ターゲット探索問題におけるリセット学習
- Authors: Gorka Muñoz-Gil, Hans J. Briegel, Michele Caraglio,
- Abstract要約: 本稿では,リセット方法を学ぶことで,環境における探索効率を最適化できるエージェントを訓練するための強化学習フレームワークを提案する。
まず、再設定を伴うブラウン探索という、十分に確立されたベンチマークでアプローチを検証する。
次に、エージェントがリセットするだけでなく、アクションを回すことで、その空間的ダイナミクスを制御できるようにすることで、フレームワークを拡張します。
- 参考スコア(独自算出の注目度): 0.6554326244334868
- License:
- Abstract: Target search problems are central to a wide range of fields, from biological foraging to the optimization algorithms. Recently, the ability to reset the search has been shown to significantly improve the searcher's efficiency. However, the optimal resetting strategy depends on the specific properties of the search problem and can often be challenging to determine. In this work, we propose a reinforcement learning (RL)-based framework to train agents capable of optimizing their search efficiency in environments by learning how to reset. First, we validate the approach in a well-established benchmark: the Brownian search with resetting. There, RL agents consistently recover strategies closely resembling the sharp resetting distribution, known to be optimal in this scenario. We then extend the framework by allowing agents to control not only when to reset, but also their spatial dynamics through turning actions. In this more complex setting, the agents discover strategies that adapt both resetting and turning to the properties of the environment, outperforming the proposed benchmarks. These results demonstrate how reinforcement learning can serve both as an optimization tool and a mechanism for uncovering new, interpretable strategies in stochastic search processes with resetting.
- Abstract(参考訳): ターゲット探索問題は、生物捕食から最適化アルゴリズムに至るまで、幅広い分野の中心である。
近年,検索のリセット能力は,探索者の効率を著しく向上させることが示されている。
しかし、最適リセット戦略は探索問題の特定の性質に依存しており、しばしば決定することが難しい。
本研究では,リセット方法を学ぶことで,環境における探索効率を最適化できるエージェントを訓練するための強化学習(RL)ベースのフレームワークを提案する。
まず、再設定を伴うブラウン探索という、十分に確立されたベンチマークでアプローチを検証する。
そこでRLエージェントは、このシナリオで最適であることが知られているシャープなリセット分布によく似た戦略を継続的に回復する。
次に、エージェントがリセットするだけでなく、アクションを回すことで、その空間的ダイナミクスを制御できるようにすることで、フレームワークを拡張します。
このより複雑な環境では、エージェントはリセットと環境の特性に適合する戦略を発見し、提案されたベンチマークより優れている。
これらの結果は、強化学習を最適化ツールと、リセットによる確率的探索プロセスにおける新しい解釈可能な戦略を明らかにするメカニズムの両方として機能することを示す。
関連論文リスト
- Fast or Better? Balancing Accuracy and Cost in Retrieval-Augmented Generation with Flexible User Control [52.405085773954596]
Retrieval-Augmented Generation (RAG) は、大規模言語モデル幻覚を緩和するための強力なアプローチとして登場した。
既存のRAGフレームワークは、しばしば無差別に検索を適用し、非効率な再検索につながる。
本稿では,精度・コストのトレードオフを動的に調整できる新しいユーザ制御可能なRAGフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:56:20Z) - Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - Scaling Combinatorial Optimization Neural Improvement Heuristics with Online Search and Adaptation [0.40964539027092917]
リミテッドロールアウトビームサーチ(Limited Rollout Beam Search, LRBS)を導入する。
LRBSは, 分散性能と大規模問題インスタンスへの一般化の両方を著しく向上させることを示す。
また、事前訓練された改善ポリシーのオフラインおよびオンライン適応に検索戦略を採用し、検索性能を向上させる。
論文 参考訳(メタデータ) (2024-12-13T14:25:27Z) - MBA-RAG: a Bandit Approach for Adaptive Retrieval-Augmented Generation through Question Complexity [30.346398341996476]
本稿では,クエリの複雑性に基づいて最適な検索戦略を動的に選択する強化学習ベースのフレームワークを提案する。
提案手法は,検索コストを低減しつつ,複数のシングルホップおよびマルチホップデータセット上でのアート結果の新たな状態を実現する。
論文 参考訳(メタデータ) (2024-12-02T14:55:02Z) - Learning to Rank for Multiple Retrieval-Augmented Models through Iterative Utility Maximization [21.115495457454365]
本稿では,複数検索拡張世代(RAG)エージェントを対象とした統合検索エンジンの設計について検討する。
本稿では,これらのRAGエージェントの検索結果を検索エンジンが生成し,オフラインで検索した文書の品質に関するフィードバックを収集する反復的手法を提案する。
我々は、このアプローチをオンライン環境に適応させ、リアルタイムな個別エージェントのフィードバックに基づいて、検索エンジンがその振る舞いを洗練できるようにする。
論文 参考訳(メタデータ) (2024-10-13T17:53:50Z) - Can Learned Optimization Make Reinforcement Learning Less Difficult? [70.5036361852812]
学習の最適化が強化学習の難しさを克服するのに役立つかどうかを検討する。
本稿では, 塑性, 探索および非定常性のための学習最適化手法(OPEN)を用いて, 入力特性と出力構造がこれらの困難に対して予め提案された情報によって通知される更新規則をメタラーニングする。
論文 参考訳(メタデータ) (2024-07-09T17:55:23Z) - Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。
我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。
実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文 参考訳(メタデータ) (2024-06-12T16:58:41Z) - Surpassing legacy approaches to PWR core reload optimization with single-objective Reinforcement learning [0.0]
単目的および多目的の最適化のための深層強化学習(DRL)に基づく手法を開発した。
本稿では、PPO(Proximal Policy Optimization)を用いて、RLに基づくアプローチの利点を実証する。
PPOは学習可能なウェイトを持つポリシーで検索機能を適応し、グローバル検索とローカル検索の両方として機能する。
論文 参考訳(メタデータ) (2024-02-16T19:35:58Z) - Learning Regions of Interest for Bayesian Optimization with Adaptive
Level-Set Estimation [84.0621253654014]
本稿では,高信頼領域を適応的にフィルタするBALLETというフレームワークを提案する。
理論的には、BALLETは探索空間を効率的に縮小することができ、標準BOよりも厳密な後悔を示すことができる。
論文 参考訳(メタデータ) (2023-07-25T09:45:47Z) - Efficient Non-Parametric Optimizer Search for Diverse Tasks [93.64739408827604]
興味のあるタスクを直接検索できる,スケーラブルで汎用的なフレームワークを初めて提示する。
基礎となる数学表現の自然木構造に着想を得て、空間を超木に再配置する。
我々は,モンテカルロ法を木探索に適用し,レジェクションサンプリングと等価形状検出を備える。
論文 参考訳(メタデータ) (2022-09-27T17:51:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。