論文の概要: Cost-Aware Diffusion Active Search
- arxiv url: http://arxiv.org/abs/2602.19538v1
- Date: Mon, 23 Feb 2026 06:11:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.696048
- Title: Cost-Aware Diffusion Active Search
- Title(参考訳): コスト対応拡散能動探索
- Authors: Arundhati Banerjee, Jeff Schneider,
- Abstract要約: 関心のある物体を回収するためには、探索空間における先行観測を生かして未知の環境の探索をオフにする必要がある。
本研究では,拡散モデルのシーケンスモデリング能力を活用して,探索・探索トレードオフのバランスをとるルックアヘッド動作シーケンスを,網羅的な探索木を構築することなくサンプリングする。
提案アルゴリズムは, オフライン強化学習において, 完全回復率で標準ベースラインを上回り, コストを意識した能動意思決定において, 木探索よりも計算効率が高い。
- 参考スコア(独自算出の注目度): 8.238352995483533
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Active search for recovering objects of interest through online, adaptive decision making with autonomous agents requires trading off exploration of unknown environments with exploitation of prior observations in the search space. Prior work has proposed information gain and Thompson sampling based myopic, greedy approaches for agents to actively decide query or search locations when the number of targets is unknown. Decision making algorithms in such partially observable environments have also shown that agents capable of lookahead over a finite horizon outperform myopic policies for active search. Unfortunately, lookahead algorithms typically rely on building a computationally expensive search tree that is simulated and updated based on the agent's observations and a model of the environment dynamics. Instead, in this work, we leverage the sequence modeling abilities of diffusion models to sample lookahead action sequences that balance the exploration-exploitation trade-off for active search without building an exhaustive search tree. We identify the optimism bias in prior diffusion based reinforcement learning approaches when applied to the active search setting and propose mitigating solutions for efficient cost-aware decision making with both single and multi-agent teams. Our proposed algorithm outperforms standard baselines in offline reinforcement learning in terms of full recovery rate and is computationally more efficient than tree search in cost-aware active decision making.
- Abstract(参考訳): 自律エージェントによるオンラインの適応的意思決定を通じて関心事の回復を活発に探索するには、探索空間における事前の観測を生かして未知の環境の探索をオフにする必要がある。
先行研究では、情報ゲインとトンプソンサンプリングに基づくミオピック(英語版)が提案されており、ターゲットの数が不明な場合、エージェントがクエリや検索の場所を積極的に決定するためのグレーディーなアプローチが提案されている。
このような部分観測可能な環境における決定アルゴリズムはまた、有限地平線上を目視できるエージェントが、能動探索のための筋電図ポリシーより優れていることを示した。
残念ながら、ルックアヘッドアルゴリズムは通常、エージェントの観察と環境力学のモデルに基づいてシミュレートされ、更新される計算コストの高い探索木を構築することに依存している。
そこで本研究では,拡散モデルのシーケンスモデリング能力を活用して,探索・探索トレードオフのバランスを保ちつつ,探索木を構築することなく,探索・探索のトレードオフを解明する。
本研究では,事前拡散に基づく強化学習手法における最適化バイアスをアクティブな探索条件に適用し,単一チームとマルチエージェントチームの両方で効率的なコスト認識決定を行うための緩和ソリューションを提案する。
提案アルゴリズムは, オフライン強化学習において, 完全回復率で標準ベースラインを上回り, コストを意識した能動意思決定において, 木探索よりも計算効率が高い。
関連論文リスト
- AdaSearch: Balancing Parametric Knowledge and Search in Large Language Models via Reinforcement Learning [61.974530499621274]
検索への過度な依存は、ノイズや悪意のあるコンテンツに対する不必要なコストとリスクをもたらす。
本稿では,探索を起動するか否かの判断から問題を解き放つ2段階の結果駆動型RLフレームワークを提案する。
AdaSearchは知識境界認識を大幅に改善し、不要な検索コールを削減し、タスクパフォーマンスを強く保ち、透明性と解釈可能な意思決定行動を提供する。
論文 参考訳(メタデータ) (2025-12-18T18:50:01Z) - Enhancing LLM Reasoning with Reward-guided Tree Search [95.06503095273395]
o1のような推論アプローチは困難で、研究者はこのオープンな研究領域を前進させようとさまざまな試みを行ってきた。
本稿では,報酬誘導木探索アルゴリズムを用いて,LLMの推論能力を高めるための予備的な検討を行う。
論文 参考訳(メタデータ) (2024-11-18T16:15:17Z) - Tree Search for Language Model Agents [73.97960454223164]
対話型Web環境での探索と多段階計画を行うために,LMエージェントの推論時探索アルゴリズムを提案する。
我々のアプローチは、実環境空間内で機能する最優先木探索の一形態である。
現実的なWebタスクにおいて有効性を示すLMエージェントのための最初の木探索アルゴリズムである。
論文 参考訳(メタデータ) (2024-07-01T17:07:55Z) - Cost Aware Asynchronous Multi-Agent Active Search [6.587280549237275]
未知の環境でターゲットを検出するオンライン能動探索アルゴリズムを提案する。
我々のアルゴリズムは、トンプソンサンプリング、モンテカルロ木探索、最適信頼境界の原理を組み合わせる。
我々は,コストを考慮した能動探索において,アルゴリズムの性能をシミュレーションで解析し,その有効性を示す。
論文 参考訳(メタデータ) (2022-10-05T13:38:30Z) - Nonmyopic Multifidelity Active Search [15.689830609697685]
本稿では,多要素能動探索のモデルと,この設定のための新しい,計算効率の良いポリシーを提案する。
実世界のデータセット上でのソリューションの性能を評価し,自然ベンチマークよりもはるかに優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-11T12:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。